Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/20.500.12008/50781
Cómo citar
Título: | Descubrimiento y exploración en repositorios de datos. |
Autor: | Buero, Nicolás Simoncelli, Agustina Maglione, Raúl |
Tutor: | Etcheverry, Lorena Marotta, Adriana |
Tipo: | Tesis de grado |
Palabras clave: | Data Lake, Metadata, Descubrimiento de datos, Exploración de datos |
Fecha de publicación: | 2025 |
Resumen: | El número de repositorios que contienen datos potencialmente útiles para futuros análisis ha crecido de manera significativa en los últimos años. Si bien este incremento ofrece grandes oportunidades, también presenta desafíos significativos, especialmente en términos de tiempo y recursos que muchas veces se destinan a la preparación y recuperación de datos en lugar de centrarse en su análisis e interpretación. El descubrimiento y la exploración de datos es un desafío, ya que requiere identificar varios conjuntos de datos interrelacionados dentro de enormes repositorios, donde los conjuntos de datos a menudo fueron producidos de manera independiente, y pueden incluir heterogeneidades como nombres de atributos o formatos de valores inconsistentes. Además, en muchos casos los metadatos existentes no son adecuados o suficientes, por lo que identificar qué conjuntos de datos pueden ser relevantes es una tarea costosa y que demanda esfuerzo. Este trabajo tiene como objetivo realizar un relevamiento de las propuestas y herramientas disponibles para abordar los problemas de descubrimiento y exploración de datos, para aplicarlas sobre un repositorio de datos específico: el Catálogo de Datos Abiertos de Uruguay. Este catálogo cuenta con aproximadamente 2500 conjuntos de datos publicados en distintos dominios, con formatos, niveles de especificación de metadatos y contenidos muy variados.
Para este propósito, se implementó un sistema que integra herramientas existentes enfocadas en la búsqueda, navegación y anotación de conjuntos de datos. Estas herramientas infieren tanto relaciones sintácticas entre columnas de distintos conjuntos de datos, así como relaciones semánticas. Además, utilizando los resultados de las herramientas y el contexto específico de cada conjunto de datos, se empleó un gran modelo de lenguaje (LLM por sus siglas en inglés) para generar automáticamente un archivo de metadata con descripciones enriquecidas de las tablas y sus columnas, proporcionando así una representación más clara y significativa de la información contenida en los datos. Los resultados se integraron en un grafo de conocimiento que permite ejecutar consultas avanzadas, y con el uso de herramientas de visualización, permite navegar interactivamente por las relaciones sintácticas y semánticas entre los datos. Finalmente, para los usuarios sin conocimientos técnicos en lenguajes de consulta, se implementó un enfoque basado en Retrieval-Augmented Generation (RAG), que permite realizar consultas en lenguaje natural de manera precisa y contextualizada. Todas las herramientas utilizadas fueron evaluadas mediante experimentos diseñados para distintos escenarios de uso, ajustando hiperparámetros y calculando diversas métricas de evaluación para analizar su efectividad. |
Editorial: | Udelar. FI. |
Citación: | Buero, N, Simoncelli, A y Maglione, R. Descubrimiento y exploración en repositorios de datos [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2025. |
Título Obtenido: | Ingeniero en Computación |
Facultad o Servicio que otorga el Título: | Universidad de la República (Uruguay). Facultad de Ingeniería |
Licencia: | Licencia Creative Commons Atribución (CC - By 4.0) |
Aparece en las colecciones: | Tesis de grado - Instituto de Computación |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | ||
---|---|---|---|---|---|
BSM25.pdf | Tesis de grado | 2,18 MB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons