english Icono del idioma   español Icono del idioma  

Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.12008/33944 How cite
Title: Modelos Seq2Seq para la transcripción de documentos del Archivo Berrutti
Authors: Chavat Pérez, Felipe
Obtained title: Ingeniero en Computación
University or service that grants the title: Universidad de la República (Uruguay). Facultad de Ingeniería
Tutor: Garat, Diego
Moncecchi, Guillermo
Type: Tesis de grado
Keywords: Aprendizaje profundo, Arquitectura Seq2Seq, Archivo Berrutti, LUISA, OCR
Geographic coverage: Uruguay.
Issue Date: 2022
Abstract: Archivo Berrutti es el nombre que recibe un conjunto de documentos generados por las Fuerzas Armadas entre los años 1968 y 1985, años marcados por sucesos de terrorismo de Estado y la reciente dictadura Uruguaya (1973-1985). El Proyecto CRUZAR busca la sistematización de la versión digital del archivo, de forma de facilitar el estudio de la estructura y forma de accionar de los organismos represivos. Es en este marco que el proyecto LUISA (Leyendo Unidos para Interpretar loS Archivos) desarrolla herramientas para semi automatizar esta tarea, como la transcripción automática de las imágenes digitales a un formato procesable por sistemas de extracción de información. El presente trabajo enfoca su estudio en la evaluación de métodos de aprendizaje automático profundo orientado a la transcripción automática de imágenes del Archivo Berrutti, a partir de las transcripciones manuales obtenidas a través de la plataforma LUISA. En particular, se considera la arquitectura Seq2Seq, la cual fue desarrollada en principio para la traducción automática, pero que luego se aplicó a otros problemas, como el OCR, mostrando resultados que compiten con el estado del arte en el tema. El modelo implementado alcanza una tasa de error a nivel de caracteres —CER— del 28.10% frente al 23.74% obtenido por la última herramienta OCR usada por el equipo LUISA y el 52% obtenido por una herramienta anterior. Los resultados son promisorios y alientan a seguir avanzando en la implementación de nuevas características que mejoren el modelo.
Publisher: Udelar.FI
Citation: Chavat Pérez, F. Modelos Seq2Seq para la transcripción de documentos del Archivo Berrutti [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2022.
License: Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Appears in Collections:Tesis de grado - Instituto de Computación

Files in This Item:
File Description SizeFormat  
CHA22.pdfTesis de grado2,34 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons