english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/41687 Cómo citar
Título: Estudio de sesgos en representaciones vectoriales de palabras.
Autor: Cánepa Romero, María Fernanda
Lagomarsino Etchandy, Sebastián
Título Obtenido: Ingeniero en Computación.
Facultad o Servicio que otorga el Título: Universidad de la República (Uruguay). Facultad de Ingeniería.
Tutor: Rosá, Aiala
Etcheverry, Lorena
Cabana, Álvaro
Tipo: Tesis de grado
Palabras clave: Word embeddings, Sesgo, Procesamiento del lenguaje natural, PLN
Fecha de publicación: 2023
Resumen: Este proyecto se centró en el análisis de sesgos regionales en representaciones vectoriales de palabras (word embeddings) en el contexto del Río de la Plata. El objetivo principal fue explorar si los modelos de word embeddings entrenados en español reflejan sesgos específicos de esta área geográfica y cultural. El proyecto se llevó a cabo en dos etapas, la creación y ajuste de modelos de word embeddings y la evaluación de estos utilizando diversas pruebas. Para abordar este objetivo, se utilizó la biblioteca gensim de procesamiento de lenguaje natural y se crearon modelos de word embeddings con Word2Vec y Fasttext. También se ajustaron modelos existentes de word embeddings al español rioplatense, con la intención de capturar de manera más precisa las particularidades léxicas y semánticas de esta región. El corpus de entrenamiento y ajuste fue formado por textos de noticias de Uruguay y Argentina. Además, se diseñaron y adaptaron al español pruebas de evaluación de word embeddings. Estas pruebas se utilizaron para evaluar el rendimiento de los modelos, para identificar su capacidad de reflejar el léxico y los matices del Río de la Plata tratando de identificar el uso de palabras típicas de la región, y por último, para determinar o no la presencia de sesgos en los modelos. Las pruebas de sesgo se realizaron bajo los subespacios de estudio del género binario (femenino-masculino), la raza (blanca-negra) y el concepto de colonización (colonizado-colonizador). En el análisis no se llegó a una conclusión definitiva sobre la existencia de sesgos específicos del Río de la Plata en los modelos de word embeddings. Sin embargo, uno de los logros significativos de este proyecto fue la creación de un conjunto de pruebas adaptadas al español para evaluar sesgos. Este recurso puede ser de utilidad para investigaciones futuras que busquen abordar cuestiones de sesgo en modelos de word embeddings en idioma español.
Editorial: Udelar. FI.
Citación: Cánepa Romero, M. y Lagomarsino Etchandy, S. Estudio de sesgos en representaciones vectoriales de palabras [en línea] Tesis de grado. Montevideo: Udelar. FI. INCO, 2023.
Licencia: Licencia Creative Commons Atribución (CC - By 4.0)
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
CL23.pdfTesis de grado29,67 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons