english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/42425 Cómo citar
Título: Generación de datos sintéticos para traducción automática entre español y guaraní.
Autor: Baladón, Alexis
Lucas, Agustín
Pardiñas, Victoria
Título Obtenido: Ingeniero en Computación.
Facultad o Servicio que otorga el Título: Universidad de la República (Uruguay). Facultad de Ingeniería.
Tutor: Chiruzzo, Luis
Góngora, Santiago
Tipo: Tesis de grado
Palabras clave: Aprendizaje automático, Procesamiento de lenguaje natural, Traducción automática neuronal, Transferencia sintáctica, Gramática de rasgos, Aumentado de datos, Seq2seq, Transformer, Google
Fecha de publicación: 2024
Resumen: Este proyecto trata el problema de la traducción automática entre español y guaraní, como un caso particular de traducción automática en una lengua de escasos recursos, investigando un enfoque de aumentado de datos como posible alternativa a la escasez de texto guaraní-español. En este contexto, nos enfocamos en la construcción de dos nuevos conjuntos de oraciones paralelas guaraní-español, obtenidos mediante el uso de gramáticas formales y la aplicación de técnicas de traducción basadas en reglas a un corpus monolingüe generado automáticamente y otro ya existente. Luego, experimentamos preentrenando modelos de traducción automática sobre estos nuevos datos, con el fin de determinar si los corpus generados mejoran el desempeño de los modelos, y evaluar la viabilidad y efectividad de esta metodología en el contexto de lenguas de escasos recursos. Hasta el momento son pocos los trabajos realizados de procesamiento de lenguaje natural para el guaraní, por lo que a su vez se busca expandir este repositorio con los nuevos conjuntos de datos y modelos entrenados. Para esto, creamos una gramática de rasgos en español a partir de datos etiquetados sintácticamente, con la que generamos más de 200.000 frases gramaticalmente correctas en español, junto a sus árboles sintácticos. Posteriormente, implementamos un mecanismo de traducción automática basada en reglas haciendo uso de técnicas de transferencia sintáctica desde español a guaraní, generando con este un corpus paralelo a partir de las oraciones obtenidas en español, y otro al aplicar estas técnicas al corpus monolingüe de Ancora. En cuanto a los modelos entrenados, utilizamos modelos de traducción automática neuronal, los cuales son a día de hoy el estado del arte en esta área. En particular, las arquitecturas utilizadas fueron transformer y seq2seq, las cuales fueron tratadas tanto con sus hiperparámetros por defecto como ajustados a través de métodos de búsqueda aleatoria y de grilla. Además, utilizamos métodos para evitar el sobreajuste, el problema de desvanecimiento y explosión de gradientes, y para aumentar la eficiencia computacional del entrenamiento. Como resultado, los modelos que obtuvieron un mejor desempeño lo hicieron preentrenando con un conjunto de datos formado por la concatenación de todos los corpus que generamos además de la Biblia, lo que sugiere la viabilidad de la metodología utilizada. Nuestro mejor modelo sigue una arquitectura seq2seq multicapa con celdas GRU sobre texto tokenizado con el método de unigramas. Además, siendo preentrenado logró superar resultados del traductor de Google de español al guaraní en el subconjunto de test del corpus de Jojajovai, al igual que obtener resultados competitivos desde guaraní a español.
Editorial: Udelar. FI.
Citación: Baladón, A., Lucas, A. y Pardiñas, V. Generación de datos sintéticos para traducción automática entre español y guaraní [en línea] Tesis de grado. Montevideo: Udelar. FI. INCO, 2024.
Licencia: Licencia Creative Commons Atribución (CC - By 4.0)
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
BLP24.pdfTesis de grado4,33 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons