Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/20.500.12008/52698
Cómo citar
| Título: | Reconocimiento y extracción de entidades a partir de archivos del pasado reciente |
| Autor: | Alaniz Ferreira, Natalie Valentina Díaz Rodríguez, Facundo Martínez Acuña, Agustín Matías |
| Tutor: | Rosá, Aiala Sastre, Ignacio |
| Tipo: | Tesis de grado |
| Palabras clave: | PLN, NER, OCR, Generación de ejemplos sintéticos, Proyectos de Grado, Computación |
| Fecha de publicación: | 2025 |
| Resumen: | Este proyecto de grado desarrolla un sistema para el reconocimiento y extracción de información (IE) a partir de documentos históricos del período dictatorial y predictatorial uruguayo, con el objetivo de aportar a los esfuerzos de memoria, verdad y justicia. La iniciativa se enmarca en el proyecto CRUZAR, que busca sistematizar, organizar y permitir el análisis de más de dos millones de documentos digitalizados provenientes del Archivo Berrutti y otros repositorios oficiales.
El trabajo se centra en las dos primeras etapas del proceso de IE: Reconocimiento Óptico de Caracteres (OCR): Consiste en obtener transcripciones a partir de imágenes. Existen dificultades particulares del contexto:
los documentos presentan zonas dañadas, disposiciones complejas y artefactos que dificultan la transcripción. Para esto se evaluaron LLMs multimodales, explorando su capacidad para mejorar la calidad de transcripción de los documentos.
Además, se implementa una etapa de preprocesamiento que logra disminuir el tiempo de transcripción por documento y aumentar su calidad.
Reconocimiento de Entidades Nombradas (NER): Esta tarea consiste en identificar y clasificar entidades mencionadas en los textos, como personas, lugares u organizaciones. Para esto se entrenaron modelos basados en BERT mediante ajuste fino (finetuning), adaptándolos a las particularidades del dominio. En muchos casos, este tipo de entrenamiento requiere una gran cantidad de datos etiquetados. Dado el tamaño reducido del conjunto de datos, se recurrió a LLMs para generar ejemplos sintéticos que imitan los existentes. Para aproximar mejor el contexto real, se añadió un módulo de ruido que simula los errores habituales de OCR. Finalmente, se comparó el desempeño de estrategias de entrenamiento tanto integradas como secuenciales, evaluándose mediante métricas de precisión, recall y F1 macro. Como resultado de la experimentación, para OCR se obtuvieron transcripciones de alta calidad respecto a las disponibles anteriormente, incluso en escenarios de imágenes dañadas o ruidosas, donde la herramienta por defecto muestra un rendimiento muy bajo. Esta última alcanzó valores de bleu de 0,68, 0,22 y 0,05 en documentos clasificados como de fácil, media o difícil transcripción, respectivamente. Mientras que utilizando llms multimodales se obtuvieron resultados superiores: BLEU de 0,85, 0,72 y 0,45 en los mismos conjuntos.
En el caso de NER, el modelo BERT logra alcanzar 0,51 en F1 macro, un aumento significativo respecto al máximo alcanzado por proyectos anteriores (F1 macro de 0,26). El uso de datos sintéticos logra una mejora de F1 macro de 3 % en el conjunto de test.
En conclusión, las mejores herramientas construidas superan al estado del arte actual de CRUZAR en ambas tareas, mostrando las capacidades de los modelos generativos generales para tareas específicas de IE en este dominio.
A futuro, es posible seguir trabajando en modelos que mejoren la calidad de la transcripción o de la extracción de entidades, experimentando nuevos enfoques o mejorando la calidad de los ejemplos sintéticos. Por otro lado, los resultados actuales permiten continuar hacia etapas siguientes, como puede ser la extracción de eventos, la resolución de correferencias o la generación de un grafo de conocimiento que ayude a explorar patrones en los textos. |
| Editorial: | Udelar.FI. |
| Citación: | Alaniz Ferreira, N., Díaz Rodríguez, F. y Martínez Acuña, A. Reconocimiento y extracción de entidades a partir de archivos del pasado reciente [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2025. |
| Título Obtenido: | Ingeniero en Computación |
| Facultad o Servicio que otorga el Título: | Universidad de la República (Uruguay). Facultad de Ingeniería |
| Licencia: | Licencia Creative Commons Atribución (CC - By 4.0) |
| Aparece en las colecciones: | Tesis de grado - Instituto de Computación |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | ||
|---|---|---|---|---|---|
| ADM25.pdf | Tesis de grado | 5,17 MB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons