english Icono del idioma   español Icono del idioma  

Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.12008/26094 How cite
Title: Procesamiento de Lenguaje Natural (PLN) para la reconstrucción de textos a partir de imágenes correspondientes a archivos históricos de la década del 70
Authors: Stabile, Javier
Fernandez, Ernesto
Fioritto, Federico
Obtained title: Ingeniero en Computación
University or service that grants the title: Universidad de la República (Uruguay). Facultad de Ingeniería
Tutor: Rosá, Aiala
Wonsever, Dina
Type: Tesis de grado
Keywords: Corrección de textos de baja calidad, Procesamiento de lenguaje natural, Traducción automática estadística, Modelos de lenguaje, LUISA
Issue Date: 2020
Abstract: Durante los años 70’s y mediados de los 80’s, en Uruguay tuvo lugar la dictadura cívico-militar a través de un golpe de estado. A raíz de esto, los poderes del estado pasan a manos de militares, se pierden derechos y libertades por parte de la población, y ocurren detenciones políticas y desaparición de personas. Durante este periodo la documentación publica era muy limitada y no se conocían con claridad los hechos que ocurrían. Recientemente se liberaron numerosos documentos conservados en formato microfilm que han perdido calidad con los años transcurridos. Lo que genera dificultades para ser legibles al ser escaneados. El procesamiento de estos documentos es de suma importancia para la dilucidación de eventos ocurridos durante el periodo mencionado. Este proyecto se realizó en el marco de un proyecto más amplio de recuperación de archivos de texto, en formato imagen de escasa legibilidad. Se propone la aplicación de técnicas de Procesamiento de Lenguaje Natural (PLN) para la reconstrucción de textos a partir de imágenes correspondientes a archivos históricos de las décadas mencionadas anteriormente. Se cuenta con una importante base de imágenes escaneadas, algunos procesamientos realizados sobre estas imágenes y la transcripción manual del texto contenido en diferentes segmentos de un subconjunto de imágenes (proyecto LUISA). Se busca alcanzar diferentes objetivos como son mejorar los resultados de la herramienta que se usa para convertir imagen a texto (OCR), reconstruir como texto documentos enteros a partir de segmentos transcritos en forma manual, que se están generando mediante un proceso de anotación colaborativa, y por último, corregir mediante técnicas de PLN las extracciones de los textos escaneados y procesados por un OCR.
Publisher: Udelar.FI.
Citation: Stabile, J., Fernandez, E. y Fioritto, F. Procesamiento de Lenguaje Natural (PLN) para la reconstrucción de textos a partir de imágenes correspondientes a archivos históricos de la década del 70 [en línea]. Tesis de grado. Montevideo : Udelar. FI. INCO., 2020.
License: Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Appears in Collections:Tesis de grado - Instituto de Computación

Files in This Item:
File Description SizeFormat  
FFS20.pdfTesis de grado2,6 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons