english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/24212 Cómo citar
Título: Implementación de un algoritmo de anonimización para la plataforma de datos masivos de Plan Ceibal
Autor: Serra Oddo, Bruno
Rosolino Ruétalo, Diego
Rivas Masullo, María Soledad
Título Obtenido: Ingeniero en Computación
Facultad o Servicio que otorga el Título: Universidad de la República (Uruguay). Facultad de Ingeniería
Tutor: Etcheverry, Lorena
Giménez, Eduardo
Tipo: Tesis de grado
Palabras clave: Privacidad, Datos Personales, Entornos distribuidos, Spark, Big Data
Cobertura geográfica: Uruguay
Fecha de publicación: 2020
Resumen: En la actualidad, cada vez más información es compartida entre distintas organizaciones con distintos fines, como por ejemplo, para extraer estadísticas que permitan tomar ciertas decisiones, dar soporte a investigaciones científicas o para ser utilizados en modelos de Aprendizaje Automático. Cuando esta información refiere a datos personales, es donde se torna fundamental que la privacidad de estos se preserve. Dado que gestiona los datos de los niños, niñas y docentes uruguayos, el Plan Ceibal posee un especial interés en el escenario descripto. Es con el objetivo de brindar una herramienta que permita a la organización anonimizar los datos personales que posee, que el presente proyecto estudia algunos aspectos de la anonimización de datos en el contexto de Big Data, abordando el problema de escalabilidad que tienen hoy en día las técnicas de anonimización para entornos centralizados. Para ello, se exponen distintas técnicas, mencionando en cada una los enfoques que estas utilizan. Además, se brinda una descripción detallada del marco tecnológico del entorno distribuido utilizado y se proporciona la implementación de un algoritmo de anonimización basado en la técnica k-anonymity junto con una comparación de resultados en un ambiente distribuido y uno centralizado, utilizando PySpark como interfaz de comunicación con Spark. Se concluye exponiendo los desafíos que enfrenta el responsable del proceso de anonimización de datos, así como también las dificultades que enfrenta al momento de aplicar una de estas técnicas con el fin de mantener la mayor utilidad de los datos posible al mismo tiempo que se preserva su privacidad.
Editorial: Udelar.FI
Citación: Serra Oddo, B., Rosolino Ruétalo, D. y Rivas Masullo, M. Implementación de un algoritmo de anonimización para la plataforma de datos masivos de Plan Ceibal [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2020.
Licencia: Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Aparece en las colecciones: Tesis de grado - Instituto de Computación

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
SRR20.pdfTesis de grado2,54 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons