Extracción de fuentes de opinión a partir de textos de prensa uruguaya

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/52370 Cómo citar

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Rosá, Aiala	-
dc.contributor.advisor	Prada, Juan José	-
dc.contributor.author	Espíndola, Cindy	-
dc.date.accessioned	2025-11-07T16:28:35Z	-
dc.date.available	2025-11-07T16:28:35Z	-
dc.date.issued	2024	-
dc.identifier.citation	Espíndola, C. Extracción de fuentes de opinión a partir de textos de prensa uruguaya [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2024.	es
dc.identifier.uri	https://hdl.handle.net/20.500.12008/52370	-
dc.description.abstract	En documentos de prensa escrita frecuentemente se incluyen opiniones emitidas por los principales involucrados, ya sean personas u organizaciones. Es por esto que resulta de utilidad poder realizar un procesamiento automático de documentos de prensa para detectar estas opiniones y sus fuentes. En este trabajo se tiene como foco una parte del proceso de extracción de esta información: la identificación de las fuentes de opinión. Se modela la tarea como una clasificación de secuencias, procesando cada oración y etiquetando las palabras conforme pertenecen o no a la(s) fuente(s) de opinión en caso de existir. Se hizo uso de la arquitectura Transformer y modelos existentes basados en lenguaje español, realizando un fine tuning con nuevos ejemplos para ajustar estos modelos a la tarea mencionada. Se realizó la comparación entre el uso del modelo de lenguaje para el español habitualmente utilizado, BETO, y un modelo generado específicamente a partir de documentos de prensa uruguaya, ROUBERTA. Como parte de la evaluación, además se consideraron varias alternativas cambiando algunos de sus hiperparámetros. Por otro lado, se utilizó un modelo de lenguaje generativo open source para realizar algunas pruebas con el fin de evaluar si es posible prescindir del entrenamiento con un conjunto anotado en forma manual, para en su lugar utilizar prompts con un conjunto muy limitado de ejemplos. Esto dio como resultado respuestas poco predecibles y dificultades por parte del modelo para cumplir con la tarea y formato establecidos. Se pudo comprobar que, de las opciones vistas con ambos modelos a los cuales se aplicó fine tuning, se obtienen resultados relativamente similares. Los resultados evaluados sobre el conjunto de testeo presentaron una medida F exacta de 81.1 % con los modelos basados en ROUBERTA y 75.4 % con los modelos basados en BETO. Esto demuestra que, a pesar de haber tenido un corpus de datos significativamente menor durante su preentrenamiento, el utilizar un modelo preentrenado con el mismo dominio específico de la tarea a realizar permite obtener muy buenos resultados.	es
dc.format.extent	50 p.	es
dc.format.mimetype	application/pdf	es
dc.language.iso	es	es
dc.publisher	Udelar. FI.	es
dc.rights	Las obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)	es
dc.subject	Transformers	es
dc.subject	Extracción de opiniones	es
dc.subject	Sequence labelling	es
dc.subject	Procesamiento de lenguaje natural	es
dc.title	Extracción de fuentes de opinión a partir de textos de prensa uruguaya	es
dc.type	Tesis de grado	es
dc.contributor.filiacion	Espíndola Cindy, Universidad de la República (Uruguay). Facultad de Ingeniería.	-
thesis.degree.grantor	Universidad de la República (Uruguay). Facultad de Ingeniería	es
thesis.degree.name	Licenciado en Computación	es
dc.rights.licence	Licencia Creative Commons Atribución (CC - By 4.0)	es
Aparece en las colecciones:	Tesis de grado - Instituto de Computación

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Esp24.pdf	Tesis de grado	1,97 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons