english Icono del idioma   español Icono del idioma  

Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.12008/47306 How to cite
Title: Metadata-based Provenance.
Authors: Mullin, Agustín
Tutor: Motz, Regina
Type: Tesis de maestría
Descriptors: METADATOS
Issue Date: 2015
Abstract: Data provenance is the pervasive problem of explaining how a datum was created or used. Doing so has many challenges, such as understanding and agreeing what data and processes are and assigning them identifiers (aggravated in a distributed environment), capturing provenance information, and all this done in a transparent manner. We present an analysis of these and in consequence develop our major contribution, a framework for provenance capture and recording based on metadata in a distributed and heterogeneous environment. Our solution is based on a conceptual data model, which facilitates the integration of provenance information originated in different systems. Thus, it is possible to construct a data provenance graph which relates data produced in different systems. The framework defines roles and responsibilities to achieve data provenance, as well as an identification scheme for data and transformations and for resolving the location for data items. We also present an implementation of the provenance repository. Our approach consists in reviewing the literature for existing solutions, to construct first a common definition of provenance and a common conceptual data model for provenance based on the reviewed works, and then develop our framework based on this conceptual model. We have also performed an analysis of the characteristics of the systems offering provenance and the type of provenance they o er, in order to obtain more general principles, what to the best of our knowledge is not analysed by any work. We also make explicit some of the working hypothesis which are commonly implicit. What is more, we offer an analysis of the problem of offering data provenance in a distributed environment with diverse technologies. In particular, when using Hadoop (the industry standard for big data management) and the different tools of its ecosystem, new challenges arise, which we analyse and take into account in the design of our framework.

Proveniencia de datos es el problema de explicar cómo un dato fue creado o usado. Al hacerlo se plantean muchos desafíos, como ser entender y acordar qué son los datos y los procesos que los crean y asignarles identificadores (problemas agravados en un ambiente distribuido), capturar la información de proveniencia, y sobre todo, hacer todo esto de forma transparente. Presentamos un análisis de estos desafíos y a continuación desarrollamos la mayor contribución de la tesis, un framework para la captura y registro de la proveniencia basado en metadatos para un ambiente distribuido y heterogéneo. Nuestra solución está basada en un modelo conceptual de datos, que facilita la integración de información de proveniencia originada en diferentes sistemas. Por lo tanto es posible construir un grafo de proveniencia que vincule datos producidos en diferentes sistemas. El framework define roles y responsabilidades para obtener la proveniencia de los datos. Define también un sistema para la identificación de los datos y las transformaciones que los producen así como para resolver la ubicación de los datos. También se presenta una propuesta de implementación para el repositorio de la proveniencia. Nuestro enfoque consiste en relevar la literatura para analizar soluciones ya existentes, para primero construir una definición común de proveniencia y un modelo conceptual de datos para proveniencia basados en los trabajos relevados, y luego desarrollar nuestro framework basado en este modelo conceptual. Hemos hecho un análisis de las características de los sistemas que ofrecen proveniencia y del tipo de proveniencia que ofrecen, con el objetivo de obtener principios generales, lo que a lo mejor de nuestro conocimiento no es analizado por ningún trabajo. También hacemos explícitas algunas de las hipótesis de trabajo que son comúnmente implícitas. Además, presentamos un análisis del problema de ofrecer proveniencia de datos en un entorno distribuido con tecnologías diversas. En particular, cuando se utiliza Hadoop (el estándar de la industria para el almacenamiento y procesamiento de grandes volúmenes de datos) y las diferentes herramientas de su ecosistema, surgen nuevos retos, que analizamos y tomamos en cuenta en el diseño de nuestro framework.
Publisher: Udelar.FI
Citation: Mullin, A. Metadata-based Provenance [en línea]. Tesis de maestría. Montevideo: Udelar. FI. INCO : PEDECIBA. Área Informática, 2015.
ISSN: 1688-2792
Obtained title: Magíster en Informática
University or service that grants the title: Universidad de la República (Uruguay). Facultad de Ingeniería.
License: Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Appears in Collections:Tesis de posgrado - Instituto de Computación

Files in This Item:
File Description SizeFormat  
Mul15.pdfTesis de maestría1,12 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons