Optimización de la tokenización y representación vectorial de encabezados HTTP para detección de ataques web

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/54811 Cómo citar

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Betarte, Gustavo	-
dc.contributor.advisor	Martinez, Rodrigo	-
dc.contributor.author	Campo Nario, Joaquín	-
dc.contributor.author	Daneri Dini, Mateo Hernán	-
dc.date.accessioned	2026-05-07T15:31:21Z	-
dc.date.available	2026-05-07T15:31:21Z	-
dc.date.issued	2026	-
dc.identifier.citation	Campo Nario, J. y Daneri Dini, M. Optimización de la tokenización y representación vectorial de encabezados HTTP para detección de ataques web [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2026.	es
dc.identifier.uri	https://hdl.handle.net/20.500.12008/54811	-
dc.description	Usuario experto : Amanda Riverol.	es
dc.description.abstract	Las solicitudes HTTP/1.1 constituyen una de las mayores superficies de ataque en aplicaciones web. Vulnerabilidades como HTTP request smuggling, inyección CRLF y suplantación de cabeceras explotan ambigüedades en la forma en que distintos componentes de la cadena de procesamiento interpretan un mismo mensaje. Los cortafuegos de aplicaciones web basados en reglas estáticas presentan limitaciones frente a la evolución constante de las técnicas de evasión y, en muchos entornos de producción, no se dispone de colecciones representativas de ataques para entrenar modelos supervisados. Este trabajo presenta NeuralShield, un marco experimental para la detección de anomalías en solicitudes HTTP/1.1 que aborda de forma explícita la dualidad sintáctico-semántica del protocolo y opera en régimen de una sola clase, aprendiendo exclusivamente a partir de tráfico legítimo. La propuesta se articula en tres etapas. En primer lugar, se propone una taxonomía de cinco familias de anomalías estructurales observables en el paquete HTTP, derivada del análisis de las especificaciones del protocolo y de la investigación ofensiva. A partir de esta taxonomía se diseña un pipeline de preprocesamiento de doce pasos deterministas, organizado en tres fases (normalización, extracción de indicadores y serialización canónica), que opera bajo principios de idempotencia y no destructividad. En segundo lugar, sobre el artefacto canónico producido por el pipeline se construyen dos vistas complementarias: una vista sintáctica basada en TF-IDF con reducción PCA, que captura regularidades léxicas y estructurales, y una vista semántica basada en embeddings de SecBERT, que modela el significado funcional del tráfico. Cada vista alimenta un detector de anomalías no supervisado adaptado a sus supuestos estadísticos: LOF para la vista sintáctica y distancia de Mahalanobis para la semántica. Finalmente, las puntuaciones de ambos detectores se combinan mediante una fusión ponderada. La evaluación experimental sobre tres conjuntos de datos de referencia (CSIC-2010, PKDD-2007 y SR_BH-2020) demuestra que el preprocesamiento estructural mejora de forma consistente la separabilidad entre tráfico legítimo y anómalo en las seis configuraciones de representación y detector evaluadas, con ganancias de hasta 0,283 en AUC. El análisis de complementariedad confirma que las vistas sintáctica y semántica capturan dimensiones distintas de la normalidad, con correlaciones entre 0,17 y 0,33. El ensemble ponderado supera a ambos detectores individuales en los tres conjuntos de datos, alcanzando valores de AUC de 0,861, 0,780 y 0,928, respectivamente.	es
dc.format.extent	86 p.	es
dc.format.mimetype	application/pdf	es
dc.language.iso	es	es
dc.publisher	Udelar. FI.	es
dc.rights	Las obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)	es
dc.subject	Detección de anomalías	es
dc.subject	HTTP	es
dc.subject	Seguridad web	es
dc.subject	Preprocesamiento estructural	es
dc.subject	Representación dual	es
dc.subject	Ensemble	es
dc.title	Optimización de la tokenización y representación vectorial de encabezados HTTP para detección de ataques web	es
dc.type	Tesis de grado	es
dc.contributor.filiacion	Campo Nario Joaquín, Universidad de la República (Uruguay). Facultad de Ingeniería.	-
dc.contributor.filiacion	Daneri Dini Mateo Hernán, Universidad de la República (Uruguay). Facultad de Ingeniería.	-
thesis.degree.grantor	Universidad de la República (Uruguay). Facultad de Ingeniería	es
thesis.degree.name	Ingeniero en Computación	es
dc.rights.licence	Licencia Creative Commons Atribución - No Comercial (CC - By-NC 4.0)	es
Aparece en las colecciones:	Tesis de grado - Instituto de Computación

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
CD26.pdf	Tesis de grado	1,56 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons