english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/20294 Cómo citar
Título: Extracción de eventos en prensa escrita uruguaya del siglo XIX
Autor: Anzorena, Pablo
Laguarda, Manuel
Olivera, Bruno
Título Obtenido: Ingeniero en Computación
Facultad o Servicio que otorga el Título: Universidad de la República (Uruguay). Facultad de Ingeniería
Tutor: Motz, Regina
Tipo: Tesis de grado
Palabras clave: Sistema de extracción de eventos, Clusters de eventos, Prensa uruguaya, Python
Cobertura geográfica: Uruguay
Fecha de publicación: 2018
Resumen: En este proyecto, se plantea el diseño y la implementación de un sistema de extracción de eventos en prensa uruguaya del siglo XIX digitalizados en formato de imagen, generando clusters de eventos agrupados según su similitud semántica. La solución propuesta se divide en 4 módulos: módulo de preprocesamiento compuesto por el OCR y un corrector de texto, módulo de extracción de eventos implementado en Python y utilizando Freeling1, módulo de clustering de eventos implementado en Python utilizando Word Embeddings y por último el módulo de etiquetado de los clusters también utilizando Python. Debido a la cantidad de ruido en los datos que hay en los diarios antiguos, la evaluación de la solución se hizo sobre datos de prensa digital de la actualidad. Se evaluaron diferentes medidas a lo largo del proceso. Para la extracción de eventos se logró conseguir una Precisión y Recall de un 56% y 70% respectivamente. En el caso del módulo de clustering se evaluaron las medidas de Silhouette Coefficient, la Pureza y la Entropía, dando 0.01, 0.57 y 1.41 respectivamente. Finalmente se etiquetaron los clusters utilizando como etiqueta las secciones de los diarios de la actualidad, realizándose una evaluación del etiquetado.
Editorial: UR.FI.INCO
Citación: Anzorena, P, Laguarda, M y Olivera, B. Extracción de eventos en prensa escrita uruguaya del siglo XIX [en línea] Tesis de grado. Montevideo : UR.FI.INCO, 2018.
Licencia: Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND)
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
tg-anzorena-laguarda-olivera.pdf2,01 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons