english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/41011 Cómo citar
Título: PredGenIA : Transformers para Predicción Genómica.
Autor: Castro, Graciana
Hoffman, Romina
Musitelli, Mateo
Título Obtenido: Ingeniero Electricista e Ingeniero en Sistemas de Comunicación
Facultad o Servicio que otorga el Título: Universidad de la República (Uruguay). Facultad de Ingeniería.
Tutor: Fariello, María Inés
Lecumberry, Federico
Tipo: Tesis de grado
Palabras clave: Predicción Genómica, SNPs, Genotipo, Fenotipo, Redes Neuronales, Transformers
Fecha de publicación: 2023
Resumen: Se define el genotipo como la descripción del material físico real conformado por el ADN de un organismo y el fenotipo como cualquier característica observable del organismo (Rival, et al.). La predicción genómica busca predecir un determinado fenotipo de un individuo a partir del genotipo. Para eso, se cuenta con una base de datos genotípicos a los que se les asocia el fenotipo a predecir. Al ser los datos genotípicos una secuencia de letras, se puede tomar cada secuencia como si fuera un enunciado y las bases que lo componen (adenina (A), timina (T), citosina (C) y guanina (G)) las palabras que lo forman. Debido al reciente auge de las redes neuronales bidireccionales para el trabajo en Procesamiento de Lenguaje Natural (“Natural Languaje Processing”, NLP), surge la interrogante de si estos algoritmos, como las redes neuronales, redes neuronales recurrentes o Transformers, son igualmente eficientes en dominios que comparten similitudes en términos de estructuras de datos. En este proyecto, se plantea el objetivo de entrenar un modelo para predicción genómica basado en Transformers. Se toma como secuencia de entrada el genotipo de individuos de una especie haploide para comparar su desempeño con el de los modelos más utilizados en esta área, haciendo énfasis en comprender el funcionamiento del modelo. ¿Obtiene el modelo mejores resultados que los modelos ya existentes? Además, ¿es capaz de identificar las porciones importantes de esta secuencia, para realizar la predicción deseada? Para esta investigación se realizó un estudio del algoritmo Transformers, su funcionamiento y aplicaciones en el campo del NLP. Comprendido esto, se procedió a realizar el análisis de cómo adaptar un algoritmo de Transformers para su funcionamiento con datos genómicos de levadura con el objetivo de predecir el crecimiento de los individuos en distintos ambientes. Se estudió el modelo GPTransformers, propuesto por Jubair et al., 2021, en el cual se propone una estructura de Transformers basada solamente en el Encoder, debido a que para la predicción de un fenotipo es necesario contar con el conocimiento de la estructura local del ADN, la cual es determinada por este módulo. Se realizó el preprocesamiento de la base de datos de levadura, búsqueda de hiperparámetros óptimos y entrenamiento del modelo realizando validación cruzada. Se simularon dos fenotipos (lineal y nolinealmente) a partir de los genotipos que componen la base de datos, con los que se buscó evaluar cómo funciona el modelo con este tipo de datos. Luego se entrenaron modelos para realizar predicciones del crecimiento de levadura en los ambientes Lactato y Lactosa. También se realizaron predicciones conjuntas (Multitrait) para Lactato y Lactosa a la vez. Se concluyó en base a los resultados obtenidos, que el algoritmo de Transformers, basado en mecanismos de atención, presenta resultados prometedores para el campo de la predicción genómica.
Editorial: Udelar.FI.
Citación: Castro, G., Hoffman, R. y Musitelli, M. PredGenIA : Transformers para Predicción Genómica [en línea]. Tesis de grado. Montevideo : Udelar. FI. IIE, 2023.
Licencia: Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Aparece en las colecciones: Tesis de grado - Instituto de Ingeniería Eléctrica

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
CHM23.pdfTesis de grado6,93 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons