Leveraging pre-trained autoencoders for interpretable prototype learning of music audio.

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/45254 Cómo citar

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Alonso-Jiménez, Pablo	-
dc.contributor.author	Pepino, Leonardo	-
dc.contributor.author	Batlle-Roca, Roser	-
dc.contributor.author	Zinemanas, Pablo	-
dc.contributor.author	Bogdanov, Dmitry	-
dc.contributor.author	Serra, Xavier	-
dc.contributor.author	Rocamora, Martín	-
dc.date.accessioned	2024-08-09T13:37:01Z	-
dc.date.available	2024-08-09T13:37:01Z	-
dc.date.issued	2024	-
dc.identifier.citation	Alonso-Jiménez, P., Pepino, L., Batlle-Roca, R. y otros. Leveraging pre-trained autoencoders for interpretable prototype learning of music audio [Preprint] Publicado en : IEEE ICASSP 2024 Workshop on Explainable AI for Speech and Audio (XAI-SA), 15 apr. 2024, pp. 1-5.	es
dc.identifier.uri	https://hdl.handle.net/20.500.12008/45254	-
dc.description.abstract	We present PECMAE an interpretable model for music audio classification based on prototype learning. Our model is based on a previous method, APNet, which jointly learns an autoencoder and a prototypical network. Instead, we propose to decouple both training processes. This enables us to leverage existing self-supervised autoencoders pre-trained on much larger data (EnCodecMAE), providing representations with better generalization. APNet allows prototypes’ reconstruction to waveforms for interpretability relying on the nearest training data samples. In contrast, we explore using a diffusion decoder that allows reconstruction without such dependency. We evaluate our method on datasets for music instrument classification (Medley-Solos-DB) and genre recognition (GTZAN and a larger in-house dataset), the latter being a more challenging task not addressed with prototypical networks before. We find that the prototype-based models preserve most of the performance achieved with the autoencoder embeddings, while the sonification of prototypes benefits understanding the behavior of the classifier.	es
dc.description.sponsorship	Ministerio de Ciencia, Innovación y Universidades (España) y Agencia Estatal de Investigación (AEI).	es
dc.format.extent	5 p.	es
dc.format.mimetype	application/pdf	es
dc.language.iso	en	es
dc.rights	Las obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)	es
dc.subject	Prototypical learning	es
dc.subject	Self-supervised learning	es
dc.subject	Music audio classification	es
dc.subject	Interpretable AI	es
dc.title	Leveraging pre-trained autoencoders for interpretable prototype learning of music audio.	es
dc.type	Preprint	es
dc.contributor.filiacion	Alonso-Jiménez Pablo, Universidad Pompeu Fabra, España.	-
dc.contributor.filiacion	Pepino Leonardo, CONICET-UBA, Argentina.	-
dc.contributor.filiacion	Batlle-Roca Roser, Universidad Pompeu Fabra, España.	-
dc.contributor.filiacion	Zinemanas Pablo, Universidad Pompeu Fabra, España.	-
dc.contributor.filiacion	Bogdanov Dmitry, Universidad Pompeu Fabra, España.	-
dc.contributor.filiacion	Serra Xavier, Universidad Pompeu Fabra, España.	-
dc.contributor.filiacion	Rocamora Martín, Universidad de la República (Uruguay). Facultad de Ingeniería.	-
dc.rights.licence	Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)	es
Aparece en las colecciones:	Publicaciones académicas y científicas - Instituto de Ingeniería Eléctrica

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
APBZBSR24.pdf	Preprint	235,33 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons