english Icono del idioma   español Icono del idioma  

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/51249 Cómo citar
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.authorAcevedo, Emiliano-
dc.contributor.authorRocamora, Martín-
dc.contributor.authorFuentes, Magdalena-
dc.date.accessioned2025-08-22T17:49:49Z-
dc.date.available2025-08-22T17:49:49Z-
dc.date.issued2025-
dc.identifier.citationAcevedo, E., Rocamora, M. y Fuentes, M. Domain adaptation method and modality gap impact in audio-text models for prototypical sound classification [en línea]. EN: Interspeech 2025, Rotterdam, The Netherlands, 17-21 aug. 2025, pp. 1328-1332. DOI: 10.21437/Interspeech.2025-886.es
dc.identifier.urihttps://www.interspeech2025.org/home-
dc.identifier.urihttps://hdl.handle.net/20.500.12008/51249-
dc.description.abstractAudio-text models are widely used in zero-shot environmental sound classification as they alleviate the need for annotated data. However, we show that their performance severely drops in the presence of background sound sources. Our analysis reveals that this degradation is primarily driven by SNR levels of background soundscapes, and independent of background type. To address this, we propose a novel method that quantifies and integrates the contribution of background sources into the classification process, improving performance without requiring model retraining. Our domain adaptation technique enhances accuracy across various backgrounds and SNR conditions. Moreover, we analyze the modality gap between audio and text embeddings, showing that narrowing this gap improves classification performance. The method generalizes effectively across state-of-the-art prototypical approaches, showcasing its scalability and robustness for diverse environments.es
dc.description.urihttps://www.isca-archive.org/interspeech_2025/acevedo25_interspeech.html#es
dc.format.extent5 p.es
dc.format.mimetypeapplication/pdfes
dc.language.isoenes
dc.publisherISCA - International Speech Communication Association.es
dc.relation.ispartofInterspeech 2025, Rotterdam, The Netherlands, 17-21 aug. 2025, pp. 1328-1332.es
dc.rightsLas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)es
dc.subjectAudio-text modelses
dc.subjectModality gapes
dc.subjectDomain adaptationes
dc.subjectZero-shot sound classificationes
dc.titleDomain adaptation method and modality gap impact in audio-text models for prototypical sound classification.es
dc.typePonenciaes
dc.contributor.filiacionAcevedo Emiliano, Universidad de la República (Uruguay). Facultad de Ingeniería.-
dc.contributor.filiacionRocamora Martín, Universidad de la República (Uruguay). Facultad de Ingeniería.-
dc.contributor.filiacionFuentes Magdalena, New York University, USA-
dc.rights.licenceLicencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)es
dc.identifier.doi10.21437/Interspeech.2025-886-
udelar.academic.departmentProcesamiento de Señaleses
udelar.investigation.groupProcesamiento de Audio (GPA)es
Aparece en las colecciones: Publicaciones académicas y científicas - Instituto de Ingeniería Eléctrica

Ficheros en este ítem:
Fichero Descripción Tamaño Formato   
ARF25.pdfVersión publicada405,38 kBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons