english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/41687 Cómo citar
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorRosá, Aiala-
dc.contributor.advisorEtcheverry, Lorena-
dc.contributor.advisorCabana, Álvaro-
dc.contributor.authorCánepa Romero, María Fernanda-
dc.contributor.authorLagomarsino Etchandy, Sebastián-
dc.date.accessioned2023-12-06T19:13:21Z-
dc.date.available2023-12-06T19:13:21Z-
dc.date.issued2023-
dc.identifier.citationCánepa Romero, M. y Lagomarsino Etchandy, S. Estudio de sesgos en representaciones vectoriales de palabras [en línea] Tesis de grado. Montevideo: Udelar. FI. INCO, 2023.es
dc.identifier.urihttps://hdl.handle.net/20.500.12008/41687-
dc.description.abstractEste proyecto se centró en el análisis de sesgos regionales en representaciones vectoriales de palabras (word embeddings) en el contexto del Río de la Plata. El objetivo principal fue explorar si los modelos de word embeddings entrenados en español reflejan sesgos específicos de esta área geográfica y cultural. El proyecto se llevó a cabo en dos etapas, la creación y ajuste de modelos de word embeddings y la evaluación de estos utilizando diversas pruebas. Para abordar este objetivo, se utilizó la biblioteca gensim de procesamiento de lenguaje natural y se crearon modelos de word embeddings con Word2Vec y Fasttext. También se ajustaron modelos existentes de word embeddings al español rioplatense, con la intención de capturar de manera más precisa las particularidades léxicas y semánticas de esta región. El corpus de entrenamiento y ajuste fue formado por textos de noticias de Uruguay y Argentina. Además, se diseñaron y adaptaron al español pruebas de evaluación de word embeddings. Estas pruebas se utilizaron para evaluar el rendimiento de los modelos, para identificar su capacidad de reflejar el léxico y los matices del Río de la Plata tratando de identificar el uso de palabras típicas de la región, y por último, para determinar o no la presencia de sesgos en los modelos. Las pruebas de sesgo se realizaron bajo los subespacios de estudio del género binario (femenino-masculino), la raza (blanca-negra) y el concepto de colonización (colonizado-colonizador). En el análisis no se llegó a una conclusión definitiva sobre la existencia de sesgos específicos del Río de la Plata en los modelos de word embeddings. Sin embargo, uno de los logros significativos de este proyecto fue la creación de un conjunto de pruebas adaptadas al español para evaluar sesgos. Este recurso puede ser de utilidad para investigaciones futuras que busquen abordar cuestiones de sesgo en modelos de word embeddings en idioma español.es
dc.format.extent106 p.es
dc.format.mimetypeapplication/pdfes
dc.language.isoeses
dc.publisherUdelar. FI.es
dc.rightsLas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)es
dc.subjectWord embeddingses
dc.subjectSesgoes
dc.subjectProcesamiento del lenguaje naturales
dc.subjectPLNes
dc.titleEstudio de sesgos en representaciones vectoriales de palabras.es
dc.typeTesis de gradoes
dc.contributor.filiacionCánepa Romero María Fernanda, Universidad de la República (Uruguay). Facultad de Ingeniería.-
dc.contributor.filiacionLagomarsino Etchandy Sebastián, Universidad de la República (Uruguay). Facultad de Ingeniería.-
thesis.degree.grantorUniversidad de la República (Uruguay). Facultad de Ingeniería.es
thesis.degree.nameIngeniero en Computación.es
dc.rights.licenceLicencia Creative Commons Atribución (CC - By 4.0)es
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
CL23.pdfTesis de grado29,67 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons