Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/20.500.12008/45254
Cómo citar
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.author | Alonso-Jiménez, Pablo | - |
dc.contributor.author | Pepino, Leonardo | - |
dc.contributor.author | Batlle-Roca, Roser | - |
dc.contributor.author | Zinemanas, Pablo | - |
dc.contributor.author | Bogdanov, Dmitry | - |
dc.contributor.author | Serra, Xavier | - |
dc.contributor.author | Rocamora, Martín | - |
dc.date.accessioned | 2024-08-09T13:37:01Z | - |
dc.date.available | 2024-08-09T13:37:01Z | - |
dc.date.issued | 2024 | - |
dc.identifier.citation | Alonso-Jiménez, P., Pepino, L., Batlle-Roca, R. y otros. Leveraging pre-trained autoencoders for interpretable prototype learning of music audio [Preprint] Publicado en : IEEE ICASSP 2024 Workshop on Explainable AI for Speech and Audio (XAI-SA), 15 apr. 2024, pp. 1-5. | es |
dc.identifier.uri | https://hdl.handle.net/20.500.12008/45254 | - |
dc.description.abstract | We present PECMAE an interpretable model for music audio classification based on prototype learning. Our model is based on a previous method, APNet, which jointly learns an autoencoder and a prototypical network. Instead, we propose to decouple both training processes. This enables us to leverage existing self-supervised autoencoders pre-trained on much larger data (EnCodecMAE), providing representations with better generalization. APNet allows prototypes’ reconstruction to waveforms for interpretability relying on the nearest training data samples. In contrast, we explore using a diffusion decoder that allows reconstruction without such dependency. We evaluate our method on datasets for music instrument classification (Medley-Solos-DB) and genre recognition (GTZAN and a larger in-house dataset), the latter being a more challenging task not addressed with prototypical networks before. We find that the prototype-based models preserve most of the performance achieved with the autoencoder embeddings, while the sonification of prototypes benefits understanding the behavior of the classifier. | es |
dc.description.sponsorship | Ministerio de Ciencia, Innovación y Universidades (España) y Agencia Estatal de Investigación (AEI). | es |
dc.format.extent | 5 p. | es |
dc.format.mimetype | application/pdf | es |
dc.language.iso | en | es |
dc.rights | Las obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014) | es |
dc.subject | Prototypical learning | es |
dc.subject | Self-supervised learning | es |
dc.subject | Music audio classification | es |
dc.subject | Interpretable AI | es |
dc.title | Leveraging pre-trained autoencoders for interpretable prototype learning of music audio. | es |
dc.type | Preprint | es |
dc.contributor.filiacion | Alonso-Jiménez Pablo, Universidad Pompeu Fabra, España. | - |
dc.contributor.filiacion | Pepino Leonardo, CONICET-UBA, Argentina. | - |
dc.contributor.filiacion | Batlle-Roca Roser, Universidad Pompeu Fabra, España. | - |
dc.contributor.filiacion | Zinemanas Pablo, Universidad Pompeu Fabra, España. | - |
dc.contributor.filiacion | Bogdanov Dmitry, Universidad Pompeu Fabra, España. | - |
dc.contributor.filiacion | Serra Xavier, Universidad Pompeu Fabra, España. | - |
dc.contributor.filiacion | Rocamora Martín, Universidad de la República (Uruguay). Facultad de Ingeniería. | - |
dc.rights.licence | Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) | es |
Aparece en las colecciones: | Publicaciones académicas y científicas - Instituto de Ingeniería Eléctrica |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | ||
---|---|---|---|---|---|
APBZBSR24.pdf | Preprint | 235,33 kB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons