english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/23043 Cómo citar
Título: Inducción del sentido de las palabras para el Idioma español.
Autor: Lastra, Rodrigo
Título Obtenido: Ingeniero en Computación
Facultad o Servicio que otorga el Título: Universidad de la República (Uruguay). Facultad de Ingeniería
Tutor: Chiruzzo, Luis
Etcheverry, Mathias
Tipo: Tesis de grado
Palabras clave: Procesamiento de lenguaje natural (NLP), Word Sense Disambiguation (WSD), Knowledge acquisition bottleneck, Word Sense Induction (WSI), ELMo, Symmetric patterns, Modelo de lenguaje neuronal, Embeddings
Fecha de publicación: 2019
Resumen: En cualquier lenguaje natural, existe una gran cantidad de palabras con más de un significado posible. Las máquinas necesitan procesar información textual no estructurada y transformarla en estructuras que puedan analizarse para determinar los significados de las palabras. El problema de identificar, computacionalmente, el significado de una o más palabras en su contexto es conocido como Word Sense Disambiguation (WSD). Para la resolución de WSD es necesario contar con inventarios de significados utilizables computacionalmente de calidad para el lenguaje a desambiguar, que sean a la vez relevantes para el dominio de aplicación en el que se busca realizar la desambiguación. A su vez la construcción de sistemas de aprendizaje automático supervisado o basados en conocimiento requieren otros tipos de recursos lingüísticos (tesauros, ontologías, etc.). Tanto los inventarios de significados como este otro tipo de recursos son costosos de construir en tiempo y recursos, y son dependientes del dominio de aplicación y el lenguaje. Para evitarlo, se recurre a técnicas de aprendizaje no supervisado que descubren automáticamente los posibles significados de una palabra, a partir de corpus sin anotar. Este problema se conoce como Word Sense Induction (WSI). Lamentablemente, en español los esfuerzos en WSI han sido prácticamente inexistentes. Este trabajo, busca aplicar en español una técnica de WSI denominada “WSI with neural biLM and symmetric patterns” basada en un modelo de lenguaje neuronal direccional biLM ELMo que obtuvo un rendimiento superior a los previamente reportados para la tarea de referencia SemEval 2013 Task 13 para el idioma inglés. La evaluación del método de desambiguación en español se realizará sobre la tarea Senseval 2 Spanish Lexical Sample .Para la aplicación del método de desambiguación, fue necesario realizar el entrenamiento del modelo de lenguaje biLM ELMo para el español, del cual pueden obtenerse embeddings con o sin contexto, así como ser utilizado como un modelo de lenguaje completo. Se trata de un recurso que no se encontraba disponible previamente en forma completa y que se encuentra disponible públicamente.
Editorial: Udelar.FI.
Citación: Lastra, R. Inducción del sentido de las palabras para el Idioma español [en línea]. Tesis de grado. Montevideo : Udelar. FI. INCO, 2019.
Licencia: Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
LAS19.pdfTesis de grado1,2 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons