Please use this identifier to cite or link to this item:
https://hdl.handle.net/20.500.12008/47343
How to cite
Title: | Context-aware data quality management. |
Authors: | Serra Sosa, Flavia Mariné |
Tutor: | Marcel, Patrick Marotta, Adriana Peralta, Verónika |
Type: | Tesis de doctorado |
Keywords: | Calidad de Datos, Gestión de Calidad de Datos,, Modelado de Contexto, Metodología de Calidad de Datos consciente del Contexto, Revisión Sistemática de la Literatura, Data Quality, Data Quality Management, Context Modeling, Context-aware Data Quality Methodology, Systematic Literature Review |
Issue Date: | 2024 |
Abstract: | The importance of data context analysis during data quality (DQ) assessment was shown many decades ago. Even nowadays this need is widely accepted. Early approaches and surveys defined DQ as fitness for use and showed the influence of context on DQ. According to the literature, most activities of data quality management (DQM) are influenced by the context. Many methodologies address DQM, a complex task made up of several stages, where DQ measurement, DQ assessment and DQ improvement activities are carried out. However, very few of these methodologies consider the context of the data at hand (the data whose quality is assessed), and when they do, context is addressed only at their initial stages. Accordingly, very few DQ methodologies found in the literature refer to the analysis of data context, and none of them define or model it. In general, very few proposals for context modeling can be found in DQ literature. This Thesis addresses two major research questions i) How to define context for DQ? and ii) How to include the context in the activities of a DQM methodology? Dealing with the first question, a Systematic Literature Review (SLR) has been conducted for investigating how context is taken into account in proposals for DQM. The SLR results allowed us to identify an urgent need for context modeling and management, which is essential to propose general solutions for DQM. Therefore, a specification of the data context for DQ would be the first step towards its formalization.
This Thesis proposes a Context Model tailored for DQM. This model includes a set of components: application domain, users types, tasks at hand, data filtering, DQ and systems requirements, business rules, general metadata, DQ metadata, and other data (the latter are data related to the assessed data). These components emerge from the results of the SLR. In addition, we present a DQ model defined by a hierarchy of DQ concepts, namely DQ dimension, DQ factor, DQ metric and DQ method is presented. Finally, we define the relationships between these DQ concepts and the previously identified context components. Based on these relationships, this Thesis proposes a context-aware DQ model. Finally, we present an example in which we specify the context-aware DQ model. In order to address the second question, this Thesis also proposes a Context-aware DQM methodology (CaDQM) with three phases: DQ planning, DQ assessment and DQ improvement. Each phase is defined by a set of stages that propose DQM activities. CaDQM exploits the influence of context in most DQM activities. In particular, context components are identified at the first phase, updated at the second one, and used at all phases of CaDQM. This methodology not only arises from different DQ research projects, where observations about organizations and users needs were made, but also from the evidence collected from the state of the art. Specifically, it is inspired by DQ methodologies that analyze data context at their initial stages. Finally, we present the findings obtained in four case studies carried out with different datasets (using artificial and real data), whose participants had different levels of expertise in the DQ area. We discovered three relevant findings: i) the application of a DQM methodology results in more guided DQ activities, which imply more efficient execution times, ii) the DQ model definition stage is reported to be the most context-dependent, and iii) the DQ model obtained considering the context is defined deeper and more detailed. Hace ya muchas décadas que se demostró la importancia que tiene el análisis del contexto de los datos durante la evaluación de la calidad de datos (CD). Inclusive hoy día esta necesidad es ampliamente aceptada. Los primeros enfoques definieron CD como fitness for use, lo que se traduce al español como “aptitud para el uso”, y han mostrado la influencia del contexto sobre la CD. De acuerdo con la literatura, la mayoría de las actividades de gestión de la calidad de los datos (GCD) están influenciadas por el contexto de los datos. Muchas metodologías abordan la GCD, una tarea compleja que está compuesta de varias etapas, donde se llevan a cabo las actividades de medición, evaluación y/o mejora de la CD. Sin embargo, muy pocas de estas metodologías consideran el contexto de los datos evaluados (denominados data at hand en inglés), y cuando lo hacen, el contexto se aborda sólo en sus etapas iniciales. En consecuencia, muy pocas metodologías de CD encontradas en la literatura refieren al análisis del contexto de los datos, y ninguna de ellas lo define o modela. En general, muy pocas propuestas sobre modelado de contexto pueden ser identificadas en la literatura de CD. Esta Tesis aborda dos grandes preguntas de investigación: i) ¿Cómo definir el contexto para CD? y ii) ¿Cómo incluir el contexto en las actividades de una metodología de GCD? Para abordar la primer pregunta se realizó una Revisión Sistemática de la Literatura (SLR, del inglés Systematic Literature Review ), para investigar cómo se tiene en cuenta el contexto en propuestas de GCD. Los resultados de la SLR nos permitieron identificar una necesidad urgente de modelado y gestión del contexto, que es esencial para proponer soluciones generales para GCD. Por tanto, una especificación del contexto de datos para CD sería el primer paso hacia su formalización. Esta Tesis propone un modelo de contexto (Context Model ) diseñado para GCD. Dicho modelo, incluye un conjunto de componentes: el dominio de aplicación, los tipos de usuarios, la tarea, los requerimientos de filtrado de datos, de CD y del sistema, las reglas de negocio, los metadatos generales y de CD, y otros datos (este último representa datos relacionados con los datos evaluados). Estos componentes surgen de los resultados de la SLR. Además, presentamos un modelo de CD definido por una jerarquía de conceptos: dimensión, factor, métrica y método. Finalmente, definimos las relaciones entre estos conceptos de CD y los componentes del contexto previamente identificados. A partir de estas relaciones, esta Tesis propone un modelo de CD consciente del contexto (Context-aware DQ Model ). Finalmente, presentamos un ejemplo en el cual especificamos el modelo de CD contextual. Para abordar la segunda pregunta, esta Tesis también propone una metodología de GCD consciente del contexto (CaDQM, de su nombre en inglés, Context-aware DQM Methodology), con tres fases: planificación de la CD, evaluación de la CD y mejora de la CD. Cada fase está definida por un conjunto de etapas que proponen actividades de GCD. Esta metodología explota la influencia del contexto en la mayoría de las actividades de GCD. En particular, los componentes del contexto son identificados en la primera fase, se actualizan en la segunda fase y se usan en las tres fases de CaDQM. Esta metodología no sólo surge de diferentes proyectos de investigación de CD, donde se realizaron observaciones sobre las necesidades de las organizaciones y usuarios, sino también de la evidencia recolectada del estado del arte. Específicamente, CaDQM está inspirada en metodologías de CD que analizan el contexto de los datos en sus etapas iniciales. Finalmente, presentamos los hallazgos obtenidos en cuatro casos de estudio, realizados con diferentes conjuntos de datos (utilizando datos artificiales y reales), cuyos participantes tenían diferentes niveles de experiencia en el área de CD. Destacamos tres hallazgos relevantes: i) la aplicación de una metodología de GCD da como resultado actividades de CD más guiadas, lo que implica tiempos de ejecución más eficientes, ii) la etapa de definición del modelo de CD es reportada como la más dependiente del contexto, y iii) el modelo de CD obtenido considerando el contexto es definido de manera más profunda y detallada. |
Description: | Tesis realizada en la Universidad de la República en cotutela con la Universidad de Tours de Francia. |
Citation: | Serra Sosa, F. Context-aware data quality management [en línea] Tesis de doctorado. Montevideo : Udelar. FI. INCO : PEDECIBA. Área Informática; Tours : Université de Tours, 2024. |
ISSN: | 1688-2776 |
Obtained title: | Doctor en Informática. |
University or service that grants the title: | Universidad de la República (Uruguay). Facultad de Ingeniería. Université de Tours |
License: | Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Appears in Collections: | Tesis de posgrado - Instituto de Computación |
Files in This Item:
File | Description | Size | Format | Available from | ||
---|---|---|---|---|---|---|
Ser24.pdf | Tesis de doctorado | 9,59 MB | Adobe PDF | View/Open | Request a copy | 2027-12-31 |
This item is licensed under a Creative Commons License