Procesamiento de lenguaje natural

¿Qué es el procesamiento de lenguaje natural y qué aplicaciones tiene?

El procesamiento de lenguaje natural (PLN) aúna dos disciplinas tan aparentemente lejanas como la lingüística y la inteligencia artificial. En la actualidad, este campo de las ciencias de la computación, que consiste en transformar el lenguaje natural en un lenguaje formal —como el de programación— que los ordenadores puedan procesar, no deja de evolucionar y sus aplicaciones son cada vez mayores.

El PLN permite que una máquina pueda procesar un lenguaje natural y generar respuestas automáticamente.

Si alguna vez le has preguntado la hora a Alexa o a Siri, te habrás dado cuenta de que no es necesario hacer la pregunta siempre de la misma manera. Puedes formular un “¿qué hora es?” o un “¿me puedes decir la hora?” y en ambos casos recibir una respuesta adecuada. Lo mismo ocurre con el traductor automático de Google, que detecta los matices entre distintas palabras según el contexto. Estos ejemplos, y muchos más, tienen detrás algo llamado procesamiento de lenguaje natural (PLN).

Qué es el procesamiento de lenguaje natural (PLN)

Según la definición de IBM, el procesamiento de lenguaje natural es la rama de la informática —más concretamente, de la inteligencia artificial— que se ocupa de dotar a los ordenadores de la capacidad de entender lenguaje hablado y escrito del mismo modo que los seres humanos. Esta tecnología ha alcanzado un alto nivel en la actualidad gracias a la aplicación de tecnologías como el machine learning (aprendizaje automático), el big data, el internet de las cosas o las redes neuronales.

Algunas de las aplicaciones más importantes se centran en la inteligencia de negocio (business intelligence), que permite analizar automáticamente las reacciones de los clientes a través de lo que publican en Internet o de las preguntas que realizan para extraer información. Los chatbots son otra aplicación que, aunque aún cuenta con un gran margen de mejora, agiliza la interacción con los clientes a través de chats o contestadores telefónicos ofreciendo respuestas rápidas y automatizadas gracias al procesamiento de lenguaje natural.

El procesamiento de lenguaje natural tiene sus raíces en la década de 1950, cuando Alan Turing publicó un artículo (Máquinas computacionales e inteligencia) en el que proponía lo que hoy se conoce como el Test de Turing. La prueba examinaba la capacidad de una máquina para exhibir un comportamiento inteligente similar al de un ser humano. A partir de ese momento, la evolución de los algoritmos asociados a esta tecnología ha permitido alcanzar el progreso actual.

La evolución del procesamiento de lenguaje natural y sus algoritmos

1949
1950
1954
1956
Década de 1960
Década de 1980
Década de 1990
Década de 2000
Década de 2010
Década de 2020

IBM patrocina el Index Thomisticus, una compilación de la obra de Santo Tomás de Aquino creada por el jesuita italiano Roberto Busa (inventor de la lingüística informática).

Alan Turing publica el artículo Máquinas computacionales e inteligencia, donde propone el Test de Turing para determinar si una máquina puede pensar o no.

El experimento de Georgetown-IBM consigue la traducción automática de más de sesenta frases del ruso al inglés dando un impulso a la lingüística computacional.

John McCarthy, Marvin Minsky y Claude Shannon acuñan el término “inteligencia artificial” en la Conferencia de Dartmouth.

Se introducen los algoritmos de reconocimiento de patrones y de “vecino más próximo”.

Se introducen los algoritmos de aprendizaje automático y la generación de lenguaje natural despega.

Se introducen las tecnologías de reconocimiento avanzado del discurso y de modelado de temas.

Se introducen modelos estadísticos y de temas más avanzados, como LDA. También surge el término “aprendizaje profundo” (deep learning).

Se implementa la traducción con máquinas neuronales, es decir, sin intervención humana y la inteligencia artificial conversacional da un salto.

Cada vez más sectores de negocio aplicarán esta tecnología y, junto a la visión artificial, permitirá afrontar los nuevos retos de la industria 4.0.

Fuente: Deloitte.

VER INFOGRAFÍA: La evolución del procesamiento de lenguaje natural y sus algoritmos [PDF] Enlace externo, se abre en ventana nueva.

Cómo funciona el procesamiento de lenguaje natural

Los primeros modelos de análisis de lenguaje natural eran simbólicos y se basaban en codificar manualmente las reglas del lenguaje. Esto permitía distinguir, por ejemplo, los tiempos y conjugaciones de los verbos y extraer el significado de la raíz. En los años 80 y 90 se produjo la revolución estadística. En lugar de escribir conjuntos de reglas (y excepciones) los sistemas de PLN comenzaron a usar algoritmos de inferencia estadística para analizar otros textos y realizar comparaciones en busca de patrones.

La ventaja de los modelos estadísticos es que son más fiables a la hora de comprender nuevas palabras o de detectar errores, como por ejemplo palabras mal escritas u omitidas por accidente. La mayoría de los sistemas actuales utilizan una combinación de modelos simbólicos y estadísticos. En concreto, los sistemas de procesamiento de lenguaje natural realizan varios tipos de análisis:

Morfológico: se centra en distinguir los distintos tipos de palabras (verbos, sustantivos, preposiciones, etc.) y sus variaciones (género, número, tiempo, etc.).
Sintáctico: separa unas frases de otras y analiza las partes que las componen (sujeto, verbo, predicado) para así poder extraer su sentido.
Semántico: analiza el significado, no solo de las palabras individuales, sino de las frases de las que forman parte y del discurso en su conjunto.
Pragmático: se encarga de extraer la intención del texto dependiendo de su contexto y permite diferenciar factores como la ironía, la ambigüedad o el estado de ánimo.

¿Qué es la Inteligencia Artificial?

¿Somos conscientes de los retos y principales aplicaciones de la Inteligencia Artificial?

¿Qué es el 'machine learning'?

Descubre los principales beneficios del 'machine learning'.

Algoritmos de la IA

Tipos de algoritmos de la inteligencia artificial.

Internet de las cosas (IoT)

¿Estamos preparados para el mundo que traerán las nuevas tecnologías?

Aplicaciones del procesamiento de lenguaje natural (ejemplos)

El corrector ortográfico de tu procesador de textos o el autocorrector de tu teléfono utilizan técnicas de procesamiento de lenguaje natural, pero las aplicaciones van mucho más allá:

Asistentes virtuales y chatbots inteligentes

Los asistentes virtuales, como Siri, Alexa Google Assistant, utilizan el procesamiento de lenguaje natural para procesar las preguntas y los comandos que emplean los usuarios y proporcionar respuestas precisas y coherentes. Cada vez se utilizan con más frecuencia en sitios web de empresas para guiar al usuario.

Clasificación de documentos

La tarea de clasificar grandes cantidades de documentos según su temática o estilo puede agilizarse con sistemas de PLN.

Análisis del sentimiento y de la opinión

Los comentarios en redes sociales sobre productos o servicios son muy relevantes para las empresas y los sistemas de PLN permiten extraer información relevante.

Comparación de textos

Los sistemas de PLN permiten hallar patrones en textos y detectar coincidencias entre ellos, lo que facilita la detección de plagios y el control de calidad.

Anonimización de documentos

A través de sistemas de PLN pueden procesarse documentos para identificar y eliminar las menciones a datos personales, asegurando así la privacidad de personas e instituciones.

Traducción automática

Las aplicaciones de traducción automática instantánea emplean técnicas de procesamiento de lenguaje natural para ofrecer textos en otros idiomas precisos y correctos tanto semántica como gramaticalmente.

Recomendación de contenido

Las plataformas de contenido usan análisis de preferencias lingüísticas para sugerir libros, películas o canciones. Estas aplicaciones analizan las preferencias de los usuarios para ofrecerles contenido relevante.

Nuestro modelo de innovación

Saber más

Herramientas para el procesamiento de lenguaje natural

Numerosas empresas ofrecen herramientas de software para aplicar técnicas de procesamiento de lenguaje natural. Para desarrollarlas, usan lenguajes de programación estándar, especialmente Python —el más aplicado para este fin—:

Natural Language Toolkit (NLTK): esta biblioteca de Python cuenta con una estructura modular que facilita las funciones del PLN, como el etiquetado y la clasificación, entre otros.
MonkeyLearn: es una plataforma de PLN que dispone de modelos para tareas de análisis de textos o de sentimientos, de clasificación de temas o de extracción de palabras clave.
IBM Watson: es un conjunto de servicios de IA almacenados en la nube de IBM que ofrece sistemas de PLN, permitiendo la identificación y la extracción de categorías, sentimientos, entidades, etc.
Google Cloud Natural Language: esta API de lenguaje natural proporciona varios modelos para el análisis de sentimientos, la clasificación de contenidos y la extracción de entidades, entre otros.
Amazon Comprehend: es un servicio de PLN integrado en la infraestructura de Amazon Web Services para el análisis de sentimientos, el modelado de temas o el reconocimiento de entidades, entre otras.
SpaCy: es una de las bibliotecas de código abierto para PLN con Python más recientes y destaca por su usabilidad y por estar diseñada para analizar grandes volúmenes de datos.
GenSim: es una librería de Python especializada que se ocupa del modelado de temas, el reconocimiento de similitudes entre textos o la navegación entre diferentes documentos.