Generación de datos sintéticos para traducción automática entre español y guaraní.

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/42425 Cómo citar

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Chiruzzo, Luis	-
dc.contributor.advisor	Góngora, Santiago	-
dc.contributor.author	Baladón, Alexis	-
dc.contributor.author	Lucas, Agustín	-
dc.contributor.author	Pardiñas, Victoria	-
dc.date.accessioned	2024-02-09T18:44:10Z	-
dc.date.available	2024-02-09T18:44:10Z	-
dc.date.issued	2024	-
dc.identifier.citation	Baladón, A., Lucas, A. y Pardiñas, V. Generación de datos sintéticos para traducción automática entre español y guaraní [en línea] Tesis de grado. Montevideo: Udelar. FI. INCO, 2024.	es
dc.identifier.uri	https://hdl.handle.net/20.500.12008/42425	-
dc.description.abstract	Este proyecto trata el problema de la traducción automática entre español y guaraní, como un caso particular de traducción automática en una lengua de escasos recursos, investigando un enfoque de aumentado de datos como posible alternativa a la escasez de texto guaraní-español. En este contexto, nos enfocamos en la construcción de dos nuevos conjuntos de oraciones paralelas guaraní-español, obtenidos mediante el uso de gramáticas formales y la aplicación de técnicas de traducción basadas en reglas a un corpus monolingüe generado automáticamente y otro ya existente. Luego, experimentamos preentrenando modelos de traducción automática sobre estos nuevos datos, con el fin de determinar si los corpus generados mejoran el desempeño de los modelos, y evaluar la viabilidad y efectividad de esta metodología en el contexto de lenguas de escasos recursos. Hasta el momento son pocos los trabajos realizados de procesamiento de lenguaje natural para el guaraní, por lo que a su vez se busca expandir este repositorio con los nuevos conjuntos de datos y modelos entrenados. Para esto, creamos una gramática de rasgos en español a partir de datos etiquetados sintácticamente, con la que generamos más de 200.000 frases gramaticalmente correctas en español, junto a sus árboles sintácticos. Posteriormente, implementamos un mecanismo de traducción automática basada en reglas haciendo uso de técnicas de transferencia sintáctica desde español a guaraní, generando con este un corpus paralelo a partir de las oraciones obtenidas en español, y otro al aplicar estas técnicas al corpus monolingüe de Ancora. En cuanto a los modelos entrenados, utilizamos modelos de traducción automática neuronal, los cuales son a día de hoy el estado del arte en esta área. En particular, las arquitecturas utilizadas fueron transformer y seq2seq, las cuales fueron tratadas tanto con sus hiperparámetros por defecto como ajustados a través de métodos de búsqueda aleatoria y de grilla. Además, utilizamos métodos para evitar el sobreajuste, el problema de desvanecimiento y explosión de gradientes, y para aumentar la eficiencia computacional del entrenamiento. Como resultado, los modelos que obtuvieron un mejor desempeño lo hicieron preentrenando con un conjunto de datos formado por la concatenación de todos los corpus que generamos además de la Biblia, lo que sugiere la viabilidad de la metodología utilizada. Nuestro mejor modelo sigue una arquitectura seq2seq multicapa con celdas GRU sobre texto tokenizado con el método de unigramas. Además, siendo preentrenado logró superar resultados del traductor de Google de español al guaraní en el subconjunto de test del corpus de Jojajovai, al igual que obtener resultados competitivos desde guaraní a español.	es
dc.format.extent	125 p.	es
dc.format.mimetype	application/pdf	es
dc.language.iso	es	es
dc.publisher	Udelar. FI.	es
dc.rights	Las obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)	es
dc.subject	Aprendizaje automático	es
dc.subject	Procesamiento de lenguaje natural	es
dc.subject	Traducción automática neuronal	es
dc.subject	Transferencia sintáctica	es
dc.subject	Gramática de rasgos	es
dc.subject	Aumentado de datos	es
dc.subject	Seq2seq	es
dc.subject	Transformer	es
dc.subject	Google	es
dc.title	Generación de datos sintéticos para traducción automática entre español y guaraní.	es
dc.type	Tesis de grado	es
dc.contributor.filiacion	Baladón Alexis, Universidad de la República (Uruguay). Facultad de Ingeniería.	-
dc.contributor.filiacion	Lucas Agustín, Universidad de la República (Uruguay). Facultad de Ingeniería.	-
dc.contributor.filiacion	Pardiñas Victoria, Universidad de la República (Uruguay). Facultad de Ingeniería.	-
thesis.degree.grantor	Universidad de la República (Uruguay). Facultad de Ingeniería.	es
thesis.degree.name	Ingeniero en Computación.	es
dc.rights.licence	Licencia Creative Commons Atribución (CC - By 4.0)	es
Aparece en las colecciones:	Tesis de grado - Instituto de Computación

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
BLP24.pdf	Tesis de grado	4,33 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons