english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/42425 Cómo citar
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorChiruzzo, Luis-
dc.contributor.advisorGóngora, Santiago-
dc.contributor.authorBaladón, Alexis-
dc.contributor.authorLucas, Agustín-
dc.contributor.authorPardiñas, Victoria-
dc.date.accessioned2024-02-09T18:44:10Z-
dc.date.available2024-02-09T18:44:10Z-
dc.date.issued2024-
dc.identifier.citationBaladón, A., Lucas, A. y Pardiñas, V. Generación de datos sintéticos para traducción automática entre español y guaraní [en línea] Tesis de grado. Montevideo: Udelar. FI. INCO, 2024.es
dc.identifier.urihttps://hdl.handle.net/20.500.12008/42425-
dc.description.abstractEste proyecto trata el problema de la traducción automática entre español y guaraní, como un caso particular de traducción automática en una lengua de escasos recursos, investigando un enfoque de aumentado de datos como posible alternativa a la escasez de texto guaraní-español. En este contexto, nos enfocamos en la construcción de dos nuevos conjuntos de oraciones paralelas guaraní-español, obtenidos mediante el uso de gramáticas formales y la aplicación de técnicas de traducción basadas en reglas a un corpus monolingüe generado automáticamente y otro ya existente. Luego, experimentamos preentrenando modelos de traducción automática sobre estos nuevos datos, con el fin de determinar si los corpus generados mejoran el desempeño de los modelos, y evaluar la viabilidad y efectividad de esta metodología en el contexto de lenguas de escasos recursos. Hasta el momento son pocos los trabajos realizados de procesamiento de lenguaje natural para el guaraní, por lo que a su vez se busca expandir este repositorio con los nuevos conjuntos de datos y modelos entrenados. Para esto, creamos una gramática de rasgos en español a partir de datos etiquetados sintácticamente, con la que generamos más de 200.000 frases gramaticalmente correctas en español, junto a sus árboles sintácticos. Posteriormente, implementamos un mecanismo de traducción automática basada en reglas haciendo uso de técnicas de transferencia sintáctica desde español a guaraní, generando con este un corpus paralelo a partir de las oraciones obtenidas en español, y otro al aplicar estas técnicas al corpus monolingüe de Ancora. En cuanto a los modelos entrenados, utilizamos modelos de traducción automática neuronal, los cuales son a día de hoy el estado del arte en esta área. En particular, las arquitecturas utilizadas fueron transformer y seq2seq, las cuales fueron tratadas tanto con sus hiperparámetros por defecto como ajustados a través de métodos de búsqueda aleatoria y de grilla. Además, utilizamos métodos para evitar el sobreajuste, el problema de desvanecimiento y explosión de gradientes, y para aumentar la eficiencia computacional del entrenamiento. Como resultado, los modelos que obtuvieron un mejor desempeño lo hicieron preentrenando con un conjunto de datos formado por la concatenación de todos los corpus que generamos además de la Biblia, lo que sugiere la viabilidad de la metodología utilizada. Nuestro mejor modelo sigue una arquitectura seq2seq multicapa con celdas GRU sobre texto tokenizado con el método de unigramas. Además, siendo preentrenado logró superar resultados del traductor de Google de español al guaraní en el subconjunto de test del corpus de Jojajovai, al igual que obtener resultados competitivos desde guaraní a español.es
dc.format.extent125 p.es
dc.format.mimetypeapplication/pdfes
dc.language.isoeses
dc.publisherUdelar. FI.es
dc.rightsLas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)es
dc.subjectAprendizaje automáticoes
dc.subjectProcesamiento de lenguaje naturales
dc.subjectTraducción automática neuronales
dc.subjectTransferencia sintácticaes
dc.subjectGramática de rasgoses
dc.subjectAumentado de datoses
dc.subjectSeq2seqes
dc.subjectTransformeres
dc.subjectGooglees
dc.titleGeneración de datos sintéticos para traducción automática entre español y guaraní.es
dc.typeTesis de gradoes
dc.contributor.filiacionBaladón Alexis, Universidad de la República (Uruguay). Facultad de Ingeniería.-
dc.contributor.filiacionLucas Agustín, Universidad de la República (Uruguay). Facultad de Ingeniería.-
dc.contributor.filiacionPardiñas Victoria, Universidad de la República (Uruguay). Facultad de Ingeniería.-
thesis.degree.grantorUniversidad de la República (Uruguay). Facultad de Ingeniería.es
thesis.degree.nameIngeniero en Computación.es
dc.rights.licenceLicencia Creative Commons Atribución (CC - By 4.0)es
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
BLP24.pdfTesis de grado4,33 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons