PNL - Procesamiento del lenguaje natural

Procesamiento de lenguaje natural

El procesamiento del lenguaje natural (PNL) es un subcampo de la lingüística, la informática y la inteligencia artificial que se ocupa de las interacciones entre las computadoras y el lenguaje humano, en particular cómo programar las computadoras para procesar y analizar grandes cantidades de datos del lenguaje natural. El resultado es una computadora capaz de "comprender" el contenido de los documentos, incluidos los matices contextuales del idioma que contienen. Luego, la tecnología puede extraer con precisión la información y los conocimientos contenidos en los documentos, así como categorizar y organizar los propios documentos.

Los desafíos en el procesamiento del lenguaje natural con frecuencia involucran el reconocimiento del habla, la comprensión del lenguaje natural y la generación del lenguaje natural.

Métodos: reglas, estadísticas, redes neuronales

En los primeros días, muchos sistemas de procesamiento del lenguaje se diseñaron mediante métodos simbólicos, es decir, la codificación manual de un conjunto de reglas, junto con una búsqueda en el diccionario, como escribir gramáticas o diseñar reglas heurísticas para derivar.
< / br> Los sistemas más recientes basados ​​en algoritmos de aprendizaje automático tienen muchas ventajas sobre las reglas creadas a mano:

Los procedimientos de aprendizaje utilizados durante el aprendizaje automático se centran automáticamente en los casos más comunes, mientras que cuando se escriben reglas a mano, a menudo no es del todo obvio hacia dónde se debe dirigir el esfuerzo. Los procedimientos de aprendizaje automático pueden hacer uso de algoritmos de inferencia estadística para producir modelos que son robustos a entradas desconocidas (por ejemplo, que contienen palabras o estructuras que no se han visto antes) y a entradas erróneas (por ejemplo, con palabras mal escritas o palabras omitidas accidentalmente). Generalmente, manejar tal entrada con elegancia con reglas escritas a mano o, más en general, crear sistemas de reglas escritas a mano que tomen decisiones suaves, es extremadamente difícil, propenso a errores y requiere mucho tiempo. Los sistemas basados ​​en el aprendizaje automático de las reglas pueden hacerse más precisos simplemente proporcionando más datos de entrada. Sin embargo, los sistemas basados ​​en reglas escritas a mano solo pueden hacerse más precisos aumentando la complejidad de las reglas, lo cual es una tarea mucho más difícil. En particular, existe un límite a la complejidad de los sistemas basados ​​en reglas escritas a mano, más allá del cual los sistemas se vuelven cada vez más inmanejables. Sin embargo, la creación de más datos para ingresar a los sistemas de aprendizaje automático simplemente requiere un aumento correspondiente en la cantidad de horas-hombre trabajadas, generalmente sin aumentos significativos en la complejidad del proceso de anotación. A pesar de la popularidad del aprendizaje automático en la investigación de PNL, los métodos simbólicos todavía (2020) se usan comúnmente

cuando la cantidad de datos de entrenamiento es insuficiente para aplicar con éxito métodos de aprendizaje automático, por ejemplo, para la traducción automática de lenguajes de bajos recursos como los que proporciona el sistema Apertium, para preprocesamiento en canalizaciones NLP, por ejemplo, tokenización, o

para posprocesar y transformar la salida de canalizaciones de PNL, por ejemplo, para la extracción de conocimiento de análisis sintácticos. Métodos estadísticos

Desde la llamada "revolución estadística" a finales de los 80 y mediados de los 90, gran parte de la investigación sobre el procesamiento del lenguaje natural se ha basado en gran medida en el aprendizaje automático. El paradigma del aprendizaje automático exige, en cambio, utilizar la inferencia estadística para aprender automáticamente tales reglas a través del análisis de grandes corpora (la forma plural de corpus, es un conjunto de documentos, posiblemente con anotaciones humanas o informáticas) de ejemplos típicos del mundo real. < / br>
Se han aplicado muchas clases diferentes de algoritmos de aprendizaje automático a las tareas de procesamiento del lenguaje natural. Estos algoritmos toman como entrada un gran conjunto de "características" que se generan a partir de los datos de entrada. Sin embargo, la investigación se ha centrado cada vez más en modelos estadísticos, que toman decisiones probabilísticas suaves basadas en la asignación de ponderaciones de valor real a cada característica de entrada. Tales modelos tienen la ventaja de que pueden expresar la certeza relativa de muchas respuestas posibles diferentes en lugar de una sola, produciendo resultados más confiables cuando dicho modelo se incluye como un componente de un sistema más grande.

Algunos de los primeros algoritmos de aprendizaje automático utilizados, como los árboles de decisión, produjeron sistemas de reglas estrictas si-entonces similares a las reglas escritas a mano existentes. Sin embargo, el etiquetado de parte del discurso introdujo el uso de modelos ocultos de Markov en el procesamiento del lenguaje natural y, cada vez más, la investigación se ha centrado en modelos estadísticos, que toman decisiones probabilísticas suaves basadas en asignar pesos reales a las características que componen la entrada datos. Los modelos de lenguaje de caché en los que se basan muchos sistemas de reconocimiento de voz son ejemplos de tales modelos estadísticos. Dichos modelos son generalmente más robustos cuando se les da una entrada desconocida, especialmente una entrada que contiene errores.