Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/20.500.12008/20294
Cómo citar
Título: | Extracción de eventos en prensa escrita uruguaya del siglo XIX |
Autor: | Anzorena, Pablo Laguarda, Manuel Olivera, Bruno |
Tutor: | Motz, Regina |
Tipo: | Tesis de grado |
Palabras clave: | Sistema de extracción de eventos, Clusters de eventos, Prensa uruguaya, Python |
Fecha de publicación: | 2018 |
Resumen: | En este proyecto, se plantea el diseño y la implementación de un sistema de extracción de eventos en prensa uruguaya del siglo XIX digitalizados en formato de imagen, generando clusters de eventos agrupados según su similitud semántica. La solución propuesta se divide en 4 módulos: módulo de preprocesamiento compuesto por el OCR y un corrector de texto, módulo de extracción de eventos implementado en Python y utilizando Freeling1, módulo de clustering de eventos implementado en Python utilizando Word Embeddings y por último el módulo de etiquetado de los clusters también utilizando Python. Debido a la cantidad de ruido en los datos que hay en los diarios antiguos, la evaluación de la solución se hizo sobre datos de prensa digital de la actualidad. Se evaluaron diferentes medidas a lo largo del proceso. Para la extracción de eventos se logró conseguir una Precisión y Recall de un 56% y 70% respectivamente. En el caso del módulo de clustering se evaluaron las medidas de Silhouette Coefficient, la Pureza y la Entropía, dando 0.01, 0.57 y 1.41 respectivamente. Finalmente se etiquetaron los clusters utilizando como etiqueta las secciones de los diarios de la actualidad, realizándose una evaluación del etiquetado. |
Editorial: | UR.FI.INCO |
Citación: | Anzorena, P, Laguarda, M y Olivera, B. Extracción de eventos en prensa escrita uruguaya del siglo XIX [en línea] Tesis de grado. Montevideo : UR.FI.INCO, 2018. |
Título Obtenido: | Ingeniero en Computación |
Facultad o Servicio que otorga el Título: | Universidad de la República (Uruguay). Facultad de Ingeniería |
Licencia: | Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND) |
Cobertura geográfica: | Uruguay |
Aparece en las colecciones: | Tesis de grado - Instituto de Computación |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | ||
---|---|---|---|---|---|
tg-anzorena-laguarda-olivera.pdf | 2,01 MB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons