Identificación automática de tópicos para el Observatorio de Medios del Uruguay

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/35146 Cómo citar

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Moncecchi, Guillermo	-
dc.contributor.advisor	Prada, Juan José	-
dc.contributor.author	Carballal, Francisco	-
dc.contributor.author	Mauriz, Juan	-
dc.coverage.spatial	Uruguay.	es
dc.date.accessioned	2022-12-05T16:06:10Z	-
dc.date.available	2022-12-05T16:06:10Z	-
dc.date.issued	2022	-
dc.identifier.citation	Carballal, F. y Mauriz, J. Identificación automática de tópicos para el Observatorio de Medios del Uruguay [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2022.	es
dc.identifier.uri	https://hdl.handle.net/20.500.12008/35146	-
dc.description.abstract	Los medios de comunicación tienen un gran impacto sobre la determinación de los temas que la gente debate diariamente y cómo los interpreta. Es pertinente que se realicen investigaciones sistemáticas sobre la cobertura realizada por los medios de comunicación sobre diferentes temas y las prácticas discursivas utilizadas. Para cumplir este fin surge el Observatorio de Medios del Uruguay (OMU), como un proyecto llevado adelante por la Facultad de Información y Comunicación con apoyo de la Facultad de Ingeniería, ambas de la Universidad de la República. El presente trabajo se enmarca en el OMU, con el objetivo de aportar una solución automatizada a alguna de las tareas involucradas en el referido proyecto. En base a reuniones realizadas con su equipo, se decidió que el problema a resolver sea la detección automática de temas. Dentro del Procesamiento de Lenguaje Natural, la detección automática de temas se denomina Modelado de Tópicos. Es un problema de aprendizaje automático no supervisado, en el que se debe determinar cuáles son los tópicos, en lugar de disponer de categorías predefinidas y limitarse a clasificar noticias. La metodología más utilizada para abordarlo es Latent Dirichlet Allocation (LDA). En este trabajo se utilizó una variación reciente, denominada embedded topic modeling (ETM), que enriquece LDA con el uso de word embeddings. Se implementó en python una aplicación web que permite entrenar y utilizar modelos de ETM. Se puede inferir los tópicos presentes en un corpus de noticias y luego clasificar automáticamente otras noticias que se ingresen desde la interfaz web. Se evaluaron modelos de ETM utilizando un corpus de 20.000 noticias pertenecientes a La Diaria, mediante experimentos cualitativos y cuantitativos. Cualitativamente, los resultados son satisfactorios y se observan similitudes con lo reportado por los autores de la metodología, particularmente en la robustez frente a palabras que no agregan significado o contenido específico (como artículos, preposiciones y algunas palabras comunes). Cuantitativamente, utilizando métricas de desempeño se pudo determinar la cantidad óptima de tópicos para el corpus.	es
dc.format.extent	52 p.	es
dc.format.mimetype	application/pdf	es
dc.language.iso	es	es
dc.publisher	Udelar.FI	es
dc.rights	Las obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)	es
dc.subject	Procesamiento de lenguaje natural	es
dc.subject	Aprendizaje automático	es
dc.subject	Modelado de tópicos	es
dc.subject	Latent Dirichlet Allocation	es
dc.subject	Word embeddings	es
dc.subject	Análisis de noticias	es
dc.title	Identificación automática de tópicos para el Observatorio de Medios del Uruguay	es
dc.type	Tesis de grado	es
dc.contributor.filiacion	Carballal Francisco, Universidad de la República (Uruguay). Facultad de Ingeniería	-
dc.contributor.filiacion	Mauriz Juan, Universidad de la República (Uruguay). Facultad de Ingeniería	-
thesis.degree.grantor	Universidad de la República (Uruguay). Facultad de Ingeniería	es
thesis.degree.name	Ingeniero en Computación	es
dc.rights.licence	Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)	es
Aparece en las colecciones:	Tesis de grado - Instituto de Computación

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
CM22.pdf	Tesis de grado	2,53 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons