Optimización de la tokenización y representación vectorial de encabezados HTTP para detección de ataques web

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/54811 Cómo citar

Título:	Optimización de la tokenización y representación vectorial de encabezados HTTP para detección de ataques web
Autor:	Campo Nario, Joaquín Daneri Dini, Mateo Hernán
Tutor:	Betarte, Gustavo Martinez, Rodrigo
Tipo:	Tesis de grado
Palabras clave:	Detección de anomalías, HTTP, Seguridad web, Preprocesamiento estructural, Representación dual, Ensemble
Fecha de publicación:	2026
Resumen:	Las solicitudes HTTP/1.1 constituyen una de las mayores superficies de ataque en aplicaciones web. Vulnerabilidades como HTTP request smuggling, inyección CRLF y suplantación de cabeceras explotan ambigüedades en la forma en que distintos componentes de la cadena de procesamiento interpretan un mismo mensaje. Los cortafuegos de aplicaciones web basados en reglas estáticas presentan limitaciones frente a la evolución constante de las técnicas de evasión y, en muchos entornos de producción, no se dispone de colecciones representativas de ataques para entrenar modelos supervisados. Este trabajo presenta NeuralShield, un marco experimental para la detección de anomalías en solicitudes HTTP/1.1 que aborda de forma explícita la dualidad sintáctico-semántica del protocolo y opera en régimen de una sola clase, aprendiendo exclusivamente a partir de tráfico legítimo. La propuesta se articula en tres etapas. En primer lugar, se propone una taxonomía de cinco familias de anomalías estructurales observables en el paquete HTTP, derivada del análisis de las especificaciones del protocolo y de la investigación ofensiva. A partir de esta taxonomía se diseña un pipeline de preprocesamiento de doce pasos deterministas, organizado en tres fases (normalización, extracción de indicadores y serialización canónica), que opera bajo principios de idempotencia y no destructividad. En segundo lugar, sobre el artefacto canónico producido por el pipeline se construyen dos vistas complementarias: una vista sintáctica basada en TF-IDF con reducción PCA, que captura regularidades léxicas y estructurales, y una vista semántica basada en embeddings de SecBERT, que modela el significado funcional del tráfico. Cada vista alimenta un detector de anomalías no supervisado adaptado a sus supuestos estadísticos: LOF para la vista sintáctica y distancia de Mahalanobis para la semántica. Finalmente, las puntuaciones de ambos detectores se combinan mediante una fusión ponderada. La evaluación experimental sobre tres conjuntos de datos de referencia (CSIC-2010, PKDD-2007 y SR_BH-2020) demuestra que el preprocesamiento estructural mejora de forma consistente la separabilidad entre tráfico legítimo y anómalo en las seis configuraciones de representación y detector evaluadas, con ganancias de hasta 0,283 en AUC. El análisis de complementariedad confirma que las vistas sintáctica y semántica capturan dimensiones distintas de la normalidad, con correlaciones entre 0,17 y 0,33. El ensemble ponderado supera a ambos detectores individuales en los tres conjuntos de datos, alcanzando valores de AUC de 0,861, 0,780 y 0,928, respectivamente.
Descripción:	Usuario experto : Amanda Riverol.
Editorial:	Udelar. FI.
Citación:	Campo Nario, J. y Daneri Dini, M. Optimización de la tokenización y representación vectorial de encabezados HTTP para detección de ataques web [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2026.
Título Obtenido:	Ingeniero en Computación
Facultad o Servicio que otorga el Título:	Universidad de la República (Uruguay). Facultad de Ingeniería
Licencia:	Licencia Creative Commons Atribución - No Comercial (CC - By-NC 4.0)
Aparece en las colecciones:	Tesis de grado - Instituto de Computación

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
CD26.pdf	Tesis de grado	1,56 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons