english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/52698 Cómo citar
Título: Reconocimiento y extracción de entidades a partir de archivos del pasado reciente
Autor: Alaniz Ferreira, Natalie Valentina
Díaz Rodríguez, Facundo
Martínez Acuña, Agustín Matías
Tutor: Rosá, Aiala
Sastre, Ignacio
Tipo: Tesis de grado
Palabras clave: PLN, NER, OCR, Generación de ejemplos sintéticos, Proyectos de Grado, Computación
Fecha de publicación: 2025
Resumen: Este proyecto de grado desarrolla un sistema para el reconocimiento y extracción de información (IE) a partir de documentos históricos del período dictatorial y predictatorial uruguayo, con el objetivo de aportar a los esfuerzos de memoria, verdad y justicia. La iniciativa se enmarca en el proyecto CRUZAR, que busca sistematizar, organizar y permitir el análisis de más de dos millones de documentos digitalizados provenientes del Archivo Berrutti y otros repositorios oficiales. El trabajo se centra en las dos primeras etapas del proceso de IE: Reconocimiento Óptico de Caracteres (OCR): Consiste en obtener transcripciones a partir de imágenes. Existen dificultades particulares del contexto: los documentos presentan zonas dañadas, disposiciones complejas y artefactos que dificultan la transcripción. Para esto se evaluaron LLMs multimodales, explorando su capacidad para mejorar la calidad de transcripción de los documentos. Además, se implementa una etapa de preprocesamiento que logra disminuir el tiempo de transcripción por documento y aumentar su calidad. Reconocimiento de Entidades Nombradas (NER): Esta tarea consiste en identificar y clasificar entidades mencionadas en los textos, como personas, lugares u organizaciones. Para esto se entrenaron modelos basados en BERT mediante ajuste fino (finetuning), adaptándolos a las particularidades del dominio. En muchos casos, este tipo de entrenamiento requiere una gran cantidad de datos etiquetados. Dado el tamaño reducido del conjunto de datos, se recurrió a LLMs para generar ejemplos sintéticos que imitan los existentes. Para aproximar mejor el contexto real, se añadió un módulo de ruido que simula los errores habituales de OCR. Finalmente, se comparó el desempeño de estrategias de entrenamiento tanto integradas como secuenciales, evaluándose mediante métricas de precisión, recall y F1 macro. Como resultado de la experimentación, para OCR se obtuvieron transcripciones de alta calidad respecto a las disponibles anteriormente, incluso en escenarios de imágenes dañadas o ruidosas, donde la herramienta por defecto muestra un rendimiento muy bajo. Esta última alcanzó valores de bleu de 0,68, 0,22 y 0,05 en documentos clasificados como de fácil, media o difícil transcripción, respectivamente. Mientras que utilizando llms multimodales se obtuvieron resultados superiores: BLEU de 0,85, 0,72 y 0,45 en los mismos conjuntos. En el caso de NER, el modelo BERT logra alcanzar 0,51 en F1 macro, un aumento significativo respecto al máximo alcanzado por proyectos anteriores (F1 macro de 0,26). El uso de datos sintéticos logra una mejora de F1 macro de 3 % en el conjunto de test. En conclusión, las mejores herramientas construidas superan al estado del arte actual de CRUZAR en ambas tareas, mostrando las capacidades de los modelos generativos generales para tareas específicas de IE en este dominio. A futuro, es posible seguir trabajando en modelos que mejoren la calidad de la transcripción o de la extracción de entidades, experimentando nuevos enfoques o mejorando la calidad de los ejemplos sintéticos. Por otro lado, los resultados actuales permiten continuar hacia etapas siguientes, como puede ser la extracción de eventos, la resolución de correferencias o la generación de un grafo de conocimiento que ayude a explorar patrones en los textos.
Editorial: Udelar.FI.
Citación: Alaniz Ferreira, N., Díaz Rodríguez, F. y Martínez Acuña, A. Reconocimiento y extracción de entidades a partir de archivos del pasado reciente [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2025.
Título Obtenido: Ingeniero en Computación
Facultad o Servicio que otorga el Título: Universidad de la República (Uruguay). Facultad de Ingeniería
Licencia: Licencia Creative Commons Atribución (CC - By 4.0)
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
ADM25.pdfTesis de grado5,17 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons