english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/51015 Cómo citar
Título: Calidad de datos basada en contexto en Data Lakes.
Autor: De León, José Pedro
Tutor: Marotta, Adriana
Serra, Flavia
Tipo: Tesis de grado
Palabras clave: Big Data, Data Lake, Calidad de Datos, Contexto de los Datos
Fecha de publicación: 2025
Resumen: En la actualidad, el uso de tecnologías de Big Data se ha vuelto cada vez más presente en diversos sectores, llevando a que las empresas deban basar sus estrategias en decisiones tomadas a partir de grandes volúmenes de datos. A medida que crece la dependencia en estos sistemas, también se vuelve fundamental contar con herramientas y estrategias que permitan evaluar la calidad de los datos utilizados, ya que una mala calidad puede generar análisis erróneos y afectar el valor obtenido de los datos. Sin embargo, el estudio sistemático de la calidad de los datos en entornos de Big Data sigue siendo limitado y representa un área de investigación en desarrollo. Este proyecto se basa en dos trabajos previos: el proyecto de grado de (Cortés, 2024), que propone una arquitectura genérica de Big Data con capacidades de gestión de la calidad de los datos, y la tesis de doctorado de (Serra, 2024), que propone el modelado del contexto de los datos y la definición de modelos de calidad de datos que consideran el modelo de contexto. En este trabajo se unifican ambas propuestas, brindando la capacidad de incorporar modelos de contexto al proceso de gestión de calidad de los datos, en la arquitectura genérica de Big Data. Para ello, se realiza un análisis sobre la incidencia de los componentes de contexto sobre los datos en las distintas zonas del Data Lake, a través del cual se identifica un nuevo componente de contexto, denominado “Data Lineage”. En base a este análisis, se proponen modificaciones al modelo de metadatos de la arquitectura, especificando las nuevas entidades y relaciones necesarias para poder representar modelos de contexto y modelos de calidad de datos basados en ellos. Para demostrar la viabilidad de nuestra propuesta, se diseñó e implementó una prueba de concepto, utilizando el DBMS de bases de datos de grafos Neo4j, para la implementación de los metadatos de calidad de datos y de contexto.
Editorial: Udelar. FI.
Citación: De León, J. Calidad de datos basada en contexto en Data Lakes [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2025.
Título Obtenido: Ingeniero en Computación
Facultad o Servicio que otorga el Título: Universidad de la República (Uruguay). Facultad de Ingeniería
Licencia: Licencia Creative Commons Atribución (CC - By 4.0)
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
Del25.pdfTesis de grado8,09 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons