english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/52698 Cómo citar
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorRosá, Aiala-
dc.contributor.advisorSastre, Ignacio-
dc.contributor.authorAlaniz Ferreira, Natalie Valentina-
dc.contributor.authorDíaz Rodríguez, Facundo-
dc.contributor.authorMartínez Acuña, Agustín Matías-
dc.date.accessioned2025-11-28T13:55:28Z-
dc.date.available2025-11-28T13:55:28Z-
dc.date.issued2025-
dc.identifier.citationAlaniz Ferreira, N., Díaz Rodríguez, F. y Martínez Acuña, A. Reconocimiento y extracción de entidades a partir de archivos del pasado reciente [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2025.es
dc.identifier.urihttps://hdl.handle.net/20.500.12008/52698-
dc.description.abstractEste proyecto de grado desarrolla un sistema para el reconocimiento y extracción de información (IE) a partir de documentos históricos del período dictatorial y predictatorial uruguayo, con el objetivo de aportar a los esfuerzos de memoria, verdad y justicia. La iniciativa se enmarca en el proyecto CRUZAR, que busca sistematizar, organizar y permitir el análisis de más de dos millones de documentos digitalizados provenientes del Archivo Berrutti y otros repositorios oficiales. El trabajo se centra en las dos primeras etapas del proceso de IE: Reconocimiento Óptico de Caracteres (OCR): Consiste en obtener transcripciones a partir de imágenes. Existen dificultades particulares del contexto: los documentos presentan zonas dañadas, disposiciones complejas y artefactos que dificultan la transcripción. Para esto se evaluaron LLMs multimodales, explorando su capacidad para mejorar la calidad de transcripción de los documentos. Además, se implementa una etapa de preprocesamiento que logra disminuir el tiempo de transcripción por documento y aumentar su calidad. Reconocimiento de Entidades Nombradas (NER): Esta tarea consiste en identificar y clasificar entidades mencionadas en los textos, como personas, lugares u organizaciones. Para esto se entrenaron modelos basados en BERT mediante ajuste fino (finetuning), adaptándolos a las particularidades del dominio. En muchos casos, este tipo de entrenamiento requiere una gran cantidad de datos etiquetados. Dado el tamaño reducido del conjunto de datos, se recurrió a LLMs para generar ejemplos sintéticos que imitan los existentes. Para aproximar mejor el contexto real, se añadió un módulo de ruido que simula los errores habituales de OCR. Finalmente, se comparó el desempeño de estrategias de entrenamiento tanto integradas como secuenciales, evaluándose mediante métricas de precisión, recall y F1 macro. Como resultado de la experimentación, para OCR se obtuvieron transcripciones de alta calidad respecto a las disponibles anteriormente, incluso en escenarios de imágenes dañadas o ruidosas, donde la herramienta por defecto muestra un rendimiento muy bajo. Esta última alcanzó valores de bleu de 0,68, 0,22 y 0,05 en documentos clasificados como de fácil, media o difícil transcripción, respectivamente. Mientras que utilizando llms multimodales se obtuvieron resultados superiores: BLEU de 0,85, 0,72 y 0,45 en los mismos conjuntos. En el caso de NER, el modelo BERT logra alcanzar 0,51 en F1 macro, un aumento significativo respecto al máximo alcanzado por proyectos anteriores (F1 macro de 0,26). El uso de datos sintéticos logra una mejora de F1 macro de 3 % en el conjunto de test. En conclusión, las mejores herramientas construidas superan al estado del arte actual de CRUZAR en ambas tareas, mostrando las capacidades de los modelos generativos generales para tareas específicas de IE en este dominio. A futuro, es posible seguir trabajando en modelos que mejoren la calidad de la transcripción o de la extracción de entidades, experimentando nuevos enfoques o mejorando la calidad de los ejemplos sintéticos. Por otro lado, los resultados actuales permiten continuar hacia etapas siguientes, como puede ser la extracción de eventos, la resolución de correferencias o la generación de un grafo de conocimiento que ayude a explorar patrones en los textos.es
dc.format.extent113 p.es
dc.format.mimetypeapplication/pdfes
dc.language.isoeses
dc.publisherUdelar.FI.es
dc.rightsLas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)es
dc.subjectPLNes
dc.subjectNERes
dc.subjectOCRes
dc.subjectGeneración de ejemplos sintéticoses
dc.subjectProyectos de Gradoes
dc.subjectComputaciónes
dc.titleReconocimiento y extracción de entidades a partir de archivos del pasado recientees
dc.typeTesis de gradoes
dc.contributor.filiacionAlaniz Ferreira Natalie Valentina, Universidad de la República (Uruguay). Facultad de Ingeniería.-
dc.contributor.filiacionDíaz Rodríguez Facundo, Universidad de la República (Uruguay). Facultad de Ingeniería.-
dc.contributor.filiacionMartínez Acuña Agustín Matías, Universidad de la República (Uruguay). Facultad de Ingeniería.-
thesis.degree.grantorUniversidad de la República (Uruguay). Facultad de Ingenieríaes
thesis.degree.nameIngeniero en Computaciónes
dc.rights.licenceLicencia Creative Commons Atribución (CC - By 4.0)es
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
ADM25.pdfTesis de grado5,17 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons