Please use this identifier to cite or link to this item:
https://hdl.handle.net/20.500.12008/47306
How to cite
Title: | Metadata-based Provenance. |
Authors: | Mullin, Agustín |
Tutor: | Motz, Regina |
Type: | Tesis de maestría |
Descriptors: | METADATOS |
Issue Date: | 2015 |
Abstract: | Data provenance is the pervasive problem of explaining how a datum was created
or used. Doing so has many challenges, such as understanding and agreeing
what data and processes are and assigning them identifiers (aggravated in a distributed
environment), capturing provenance information, and all this done in
a transparent manner. We present an analysis of these and in consequence develop
our major contribution, a framework for provenance capture and recording
based on metadata in a distributed and heterogeneous environment. Our solution
is based on a conceptual data model, which facilitates the integration
of provenance information originated in different systems. Thus, it is possible
to construct a data provenance graph which relates data produced in different
systems. The framework defines roles and responsibilities to achieve data provenance,
as well as an identification scheme for data and transformations and for
resolving the location for data items. We also present an implementation of the
provenance repository. Our approach consists in reviewing the literature for existing solutions, to construct first a common definition of provenance and a common conceptual
data model for provenance based on the reviewed works, and then develop our
framework based on this conceptual model. We have also performed an analysis
of the characteristics of the systems offering provenance and the type of provenance
they o er, in order to obtain more general principles, what to the best of
our knowledge is not analysed by any work. We also make explicit some of the
working hypothesis which are commonly implicit. What is more, we offer an analysis of the problem of offering data provenance in a distributed environment with diverse technologies. In particular, when using Hadoop (the industry standard for big data management) and the different tools of its ecosystem, new challenges arise, which we analyse and take into account in the design of our framework. Proveniencia de datos es el problema de explicar cómo un dato fue creado o usado. Al hacerlo se plantean muchos desafíos, como ser entender y acordar qué son los datos y los procesos que los crean y asignarles identificadores (problemas agravados en un ambiente distribuido), capturar la información de proveniencia, y sobre todo, hacer todo esto de forma transparente. Presentamos un análisis de estos desafíos y a continuación desarrollamos la mayor contribución de la tesis, un framework para la captura y registro de la proveniencia basado en metadatos para un ambiente distribuido y heterogéneo. Nuestra solución está basada en un modelo conceptual de datos, que facilita la integración de información de proveniencia originada en diferentes sistemas. Por lo tanto es posible construir un grafo de proveniencia que vincule datos producidos en diferentes sistemas. El framework define roles y responsabilidades para obtener la proveniencia de los datos. Define también un sistema para la identificación de los datos y las transformaciones que los producen así como para resolver la ubicación de los datos. También se presenta una propuesta de implementación para el repositorio de la proveniencia. Nuestro enfoque consiste en relevar la literatura para analizar soluciones ya existentes, para primero construir una definición común de proveniencia y un modelo conceptual de datos para proveniencia basados en los trabajos relevados, y luego desarrollar nuestro framework basado en este modelo conceptual. Hemos hecho un análisis de las características de los sistemas que ofrecen proveniencia y del tipo de proveniencia que ofrecen, con el objetivo de obtener principios generales, lo que a lo mejor de nuestro conocimiento no es analizado por ningún trabajo. También hacemos explícitas algunas de las hipótesis de trabajo que son comúnmente implícitas. Además, presentamos un análisis del problema de ofrecer proveniencia de datos en un entorno distribuido con tecnologías diversas. En particular, cuando se utiliza Hadoop (el estándar de la industria para el almacenamiento y procesamiento de grandes volúmenes de datos) y las diferentes herramientas de su ecosistema, surgen nuevos retos, que analizamos y tomamos en cuenta en el diseño de nuestro framework. |
Publisher: | Udelar.FI |
Citation: | Mullin, A. Metadata-based Provenance [en línea]. Tesis de maestría. Montevideo: Udelar. FI. INCO : PEDECIBA. Área Informática, 2015. |
ISSN: | 1688-2792 |
Obtained title: | Magíster en Informática |
University or service that grants the title: | Universidad de la República (Uruguay). Facultad de Ingeniería. |
License: | Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Appears in Collections: | Tesis de posgrado - Instituto de Computación |
This item is licensed under a Creative Commons License