english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/48614 Cómo citar
Título: Te ahorré un click : Caracterización y detección automática de clickbait en español.
Autor: Mordecki Fernández, Gabriel
Tutor: Couto, Javier
Moncecchi, Guillermo
Tipo: Tesis de maestría
Palabras clave: Clickbait, Definición de Clickbait, Detección de Clickbait, Procesamiento de Lenguaje Natural, Clasificación de Texto, Conjunto de Datos, Español, Noticias, Redes Sociales
Fecha de publicación: 2024
Resumen: El clickbait es un fenómeno muy frecuente en las noticias en Internet: es una forma de titulación y presentación de las noticias que busca captar la atención de los lectores para generar más tráfico, relegando la función de informar a un segundo plano. Sin embargo, no existe un consenso sobre qué es exactamente; las definiciones suelen confundirlo con otros fenómenos similares como el sensacionalismo e incluso son contradictorias entre sí. En esta tesis argumento que la teoría de la brecha de información de Loewenstein, que explica que la curiosidad surge cuando una persona se hace consciente de una diferencia entre la información que conoce y la que no, es el concepto clave para distinguir el clickbait y propongo una nueva definición: El clickbait es un método para generar avances de noticias, especialmente online, que consiste en omitir deliberadamente parte de la información con el objetivo de generar curiosidad mediante una brecha de información y así atraer la atención de los lectores y conseguir que hagan click. Presento un nuevo enfoque en la creación de conjuntos de datos sobre detección automática de clickbait. Los trabajos anteriores abordan el problema de la subjetividad de la decisión confiando en criterios externos o mediante el promedio de múltiples anotaciones. En su lugar, propongo criterios específicos que abordan varios de los casos límite y logran reducir la subjetividad de la anotación. En esta tesis presento y describo TA1C (por Te Ahorré Un Click ): el primer conjunto de datos de detección de clickbait disponible en español. Se trata de 3.500 tweets de 18 medios con buena reputación en español, manualmente anotados siguiendo los criterios establecidos alcanzando un acuerdo entre tres anotadores de Fleiss’ κ de 0,825. Utilizando TA1C implementé diversos métodos para la detección de clickbait, logrando un modelo que obtiene un 0.93 de precisión promedio (average precision) y 0.87 de F1-score sobre la clase positiva. Presento tres abordajes, el primero basado en aprendizaje automático clásico, con características elaboradas manualmente adaptando al español las presentes en la literatura y aportando algunas nuevas. Un segundo abordaje con modelos de aprendizaje profundo, haciendo fine-tuning de transformers. Finalmente, un método híbrido que toma los vectores generados por los transformers y los combina con las características de los modelos clásicos para luego aplicar una Regresión Logística y es la que logra los mejores resultados.
Editorial: Udelar. FI.
Citación: Mordecki Fernández, G. Te ahorré un click : Caracterización y detección automática de clickbait en español [en línea] Tesis de maestría. Montevideo : Udelar. FI. INCO : PEDECIBA. Área Informática, 2024.
ISSN: 1688-2806
Título Obtenido: Magíster en Informática
Facultad o Servicio que otorga el Título: Universidad de la República (Uruguay). Facultad de Ingeniería
Licencia: Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Aparece en las colecciones: Tesis de posgrado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
Mor24.pdfTesis de maestría6,42 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons