english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/26094 Cómo citar
Título: Procesamiento de Lenguaje Natural (PLN) para la reconstrucción de textos a partir de imágenes correspondientes a archivos históricos de la década del 70
Autor: Stabile, Javier
Fernandez, Ernesto
Fioritto, Federico
Título Obtenido: Ingeniero en Computación
Facultad o Servicio que otorga el Título: Universidad de la República (Uruguay). Facultad de Ingeniería
Tutor: Rosá, Aiala
Wonsever, Dina
Tipo: Tesis de grado
Palabras clave: Corrección de textos de baja calidad, Procesamiento de lenguaje natural, Traducción automática estadística, Modelos de lenguaje, LUISA
Fecha de publicación: 2020
Resumen: Durante los años 70’s y mediados de los 80’s, en Uruguay tuvo lugar la dictadura cívico-militar a través de un golpe de estado. A raíz de esto, los poderes del estado pasan a manos de militares, se pierden derechos y libertades por parte de la población, y ocurren detenciones políticas y desaparición de personas. Durante este periodo la documentación publica era muy limitada y no se conocían con claridad los hechos que ocurrían. Recientemente se liberaron numerosos documentos conservados en formato microfilm que han perdido calidad con los años transcurridos. Lo que genera dificultades para ser legibles al ser escaneados. El procesamiento de estos documentos es de suma importancia para la dilucidación de eventos ocurridos durante el periodo mencionado. Este proyecto se realizó en el marco de un proyecto más amplio de recuperación de archivos de texto, en formato imagen de escasa legibilidad. Se propone la aplicación de técnicas de Procesamiento de Lenguaje Natural (PLN) para la reconstrucción de textos a partir de imágenes correspondientes a archivos históricos de las décadas mencionadas anteriormente. Se cuenta con una importante base de imágenes escaneadas, algunos procesamientos realizados sobre estas imágenes y la transcripción manual del texto contenido en diferentes segmentos de un subconjunto de imágenes (proyecto LUISA). Se busca alcanzar diferentes objetivos como son mejorar los resultados de la herramienta que se usa para convertir imagen a texto (OCR), reconstruir como texto documentos enteros a partir de segmentos transcritos en forma manual, que se están generando mediante un proceso de anotación colaborativa, y por último, corregir mediante técnicas de PLN las extracciones de los textos escaneados y procesados por un OCR.
Editorial: Udelar.FI.
Citación: Stabile, J., Fernandez, E. y Fioritto, F. Procesamiento de Lenguaje Natural (PLN) para la reconstrucción de textos a partir de imágenes correspondientes a archivos históricos de la década del 70 [en línea]. Tesis de grado. Montevideo : Udelar. FI. INCO., 2020.
Licencia: Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
FFS20.pdfTesis de grado2,6 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons