english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/50781 Cómo citar
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorEtcheverry, Lorena-
dc.contributor.advisorMarotta, Adriana-
dc.contributor.authorBuero, Nicolás-
dc.contributor.authorSimoncelli, Agustina-
dc.contributor.authorMaglione, Raúl-
dc.date.accessioned2025-07-28T15:16:25Z-
dc.date.available2025-07-28T15:16:25Z-
dc.date.issued2025-
dc.identifier.citationBuero, N, Simoncelli, A y Maglione, R. Descubrimiento y exploración en repositorios de datos [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2025.es
dc.identifier.urihttps://hdl.handle.net/20.500.12008/50781-
dc.description.abstractEl número de repositorios que contienen datos potencialmente útiles para futuros análisis ha crecido de manera significativa en los últimos años. Si bien este incremento ofrece grandes oportunidades, también presenta desafíos significativos, especialmente en términos de tiempo y recursos que muchas veces se destinan a la preparación y recuperación de datos en lugar de centrarse en su análisis e interpretación. El descubrimiento y la exploración de datos es un desafío, ya que requiere identificar varios conjuntos de datos interrelacionados dentro de enormes repositorios, donde los conjuntos de datos a menudo fueron producidos de manera independiente, y pueden incluir heterogeneidades como nombres de atributos o formatos de valores inconsistentes. Además, en muchos casos los metadatos existentes no son adecuados o suficientes, por lo que identificar qué conjuntos de datos pueden ser relevantes es una tarea costosa y que demanda esfuerzo. Este trabajo tiene como objetivo realizar un relevamiento de las propuestas y herramientas disponibles para abordar los problemas de descubrimiento y exploración de datos, para aplicarlas sobre un repositorio de datos específico: el Catálogo de Datos Abiertos de Uruguay. Este catálogo cuenta con aproximadamente 2500 conjuntos de datos publicados en distintos dominios, con formatos, niveles de especificación de metadatos y contenidos muy variados. Para este propósito, se implementó un sistema que integra herramientas existentes enfocadas en la búsqueda, navegación y anotación de conjuntos de datos. Estas herramientas infieren tanto relaciones sintácticas entre columnas de distintos conjuntos de datos, así como relaciones semánticas. Además, utilizando los resultados de las herramientas y el contexto específico de cada conjunto de datos, se empleó un gran modelo de lenguaje (LLM por sus siglas en inglés) para generar automáticamente un archivo de metadata con descripciones enriquecidas de las tablas y sus columnas, proporcionando así una representación más clara y significativa de la información contenida en los datos. Los resultados se integraron en un grafo de conocimiento que permite ejecutar consultas avanzadas, y con el uso de herramientas de visualización, permite navegar interactivamente por las relaciones sintácticas y semánticas entre los datos. Finalmente, para los usuarios sin conocimientos técnicos en lenguajes de consulta, se implementó un enfoque basado en Retrieval-Augmented Generation (RAG), que permite realizar consultas en lenguaje natural de manera precisa y contextualizada. Todas las herramientas utilizadas fueron evaluadas mediante experimentos diseñados para distintos escenarios de uso, ajustando hiperparámetros y calculando diversas métricas de evaluación para analizar su efectividad.es
dc.format.extent97 p.es
dc.format.mimetypeapplication/pdfes
dc.language.isoeses
dc.publisherUdelar. FI.es
dc.rightsLas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)es
dc.subjectData Lakees
dc.subjectMetadataes
dc.subjectDescubrimiento de datoses
dc.subjectExploración de datoses
dc.titleDescubrimiento y exploración en repositorios de datos.es
dc.typeTesis de gradoes
dc.contributor.filiacionBuero Nicolás, Universidad de la República (Uruguay). Facultad de Ingeniería.-
dc.contributor.filiacionSimoncelli Agustina, Universidad de la República (Uruguay). Facultad de Ingeniería.-
dc.contributor.filiacionMaglione Raúl, Universidad de la República (Uruguay). Facultad de Ingeniería.-
thesis.degree.grantorUniversidad de la República (Uruguay). Facultad de Ingenieríaes
thesis.degree.nameIngeniero en Computaciónes
dc.rights.licenceLicencia Creative Commons Atribución (CC - By 4.0)es
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
BSM25.pdfTesis de grado2,18 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons