Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/20.500.12008/54811
Cómo citar
| Título: | Optimización de la tokenización y representación vectorial de encabezados HTTP para detección de ataques web |
| Autor: | Campo Nario, Joaquín Daneri Dini, Mateo Hernán |
| Tutor: | Betarte, Gustavo Martinez, Rodrigo |
| Tipo: | Tesis de grado |
| Palabras clave: | Detección de anomalías, HTTP, Seguridad web, Preprocesamiento estructural, Representación dual, Ensemble |
| Fecha de publicación: | 2026 |
| Resumen: | Las solicitudes HTTP/1.1 constituyen una de las mayores superficies de ataque en aplicaciones web. Vulnerabilidades como HTTP request smuggling, inyección CRLF y suplantación de cabeceras explotan ambigüedades en la forma en que distintos componentes de la cadena de procesamiento interpretan un
mismo mensaje. Los cortafuegos de aplicaciones web basados en reglas estáticas presentan limitaciones frente a la evolución constante de las técnicas de evasión y, en muchos entornos de producción, no se dispone de colecciones representativas de ataques para entrenar modelos supervisados.
Este trabajo presenta NeuralShield, un marco experimental para la detección de anomalías en solicitudes HTTP/1.1 que aborda de forma explícita la dualidad sintáctico-semántica del protocolo y opera en régimen de una sola clase, aprendiendo exclusivamente a partir de tráfico legítimo. La propuesta se
articula en tres etapas. En primer lugar, se propone una taxonomía de cinco familias de anomalías estructurales observables en el paquete HTTP, derivada del análisis de las especificaciones del protocolo y de la investigación ofensiva.
A partir de esta taxonomía se diseña un pipeline de preprocesamiento de doce pasos deterministas, organizado en tres fases (normalización, extracción de indicadores y serialización canónica), que opera bajo principios de idempotencia y no destructividad. En segundo lugar, sobre el artefacto canónico producido
por el pipeline se construyen dos vistas complementarias: una vista sintáctica basada en TF-IDF con reducción PCA, que captura regularidades léxicas y estructurales, y una vista semántica basada en embeddings de SecBERT, que modela el significado funcional del tráfico. Cada vista alimenta un detector de anomalías no supervisado adaptado a sus supuestos estadísticos: LOF para la vista sintáctica y distancia de Mahalanobis para la semántica. Finalmente, las puntuaciones de ambos detectores se combinan mediante una fusión ponderada.
La evaluación experimental sobre tres conjuntos de datos de referencia (CSIC-2010, PKDD-2007 y SR_BH-2020) demuestra que el preprocesamiento estructural mejora de forma consistente la separabilidad entre tráfico legítimo y anómalo en las seis configuraciones de representación y detector evaluadas, con ganancias de hasta 0,283 en AUC. El análisis de complementariedad confirma que las vistas sintáctica y semántica capturan dimensiones distintas de la normalidad, con correlaciones entre 0,17 y 0,33. El ensemble ponderado supera a ambos detectores individuales en los tres conjuntos de datos, alcanzando valores de AUC de 0,861, 0,780 y 0,928, respectivamente. |
| Descripción: | Usuario experto : Amanda Riverol. |
| Editorial: | Udelar. FI. |
| Citación: | Campo Nario, J. y Daneri Dini, M. Optimización de la tokenización y representación vectorial de encabezados HTTP para detección de ataques web [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2026. |
| Título Obtenido: | Ingeniero en Computación |
| Facultad o Servicio que otorga el Título: | Universidad de la República (Uruguay). Facultad de Ingeniería |
| Licencia: | Licencia Creative Commons Atribución - No Comercial (CC - By-NC 4.0) |
| Aparece en las colecciones: | Tesis de grado - Instituto de Computación |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | ||
|---|---|---|---|---|---|
| CD26.pdf | Tesis de grado | 1,56 MB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons