Evaluating disentangled representations for controllable music generation

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/55007 Cómo citar

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Ibáñez-Martínez, Laura	-
dc.contributor.author	Nkama, Chukwuemeka	-
dc.contributor.author	Poltronieri, Andrea	-
dc.contributor.author	Serra, Xavier	-
dc.contributor.author	Rocamora, Martín	-
dc.date.accessioned	2026-05-14T11:43:31Z	-
dc.date.available	2026-05-14T11:43:31Z	-
dc.date.issued	2026	-
dc.identifier.citation	Ibáñez-Martínez, L., Nkama, C., Poltronieri, A. y otros. Evaluating disentangled representations for controllable music generation [Preprint]. Publicado en: CASSP 2026 - 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 03-08 may. 2026, pp. 15092-15096. DOI: 10.1109/ICASSP55912.2026.11461451.	es
dc.identifier.uri	https://hdl.handle.net/20.500.12008/55007	-
dc.description.abstract	Recent approaches in music generation rely on disentangled representations, often labeled as structure and timbre or local and global, to enable controllable synthesis. Yet the underlying properties of these embeddings remain underexplored. In this work, we evaluate such disentangled representations in a set of music audio models for controllable generation using a probing-based framework that goes beyond standard downstream tasks. The selected models reflect diverse un-supervised disentanglement strategies, including inductive biases, data augmentations, adversarial objectives, and staged training procedures. We further isolate specific strategies to analyze their effect. Our analysis spans four key axes: informativeness, equivariance, invariance, and disentanglement, which are assessed across datasets, tasks, and controlled transformations. Our findings reveal inconsistencies between intended and actual semantics of the embeddings, suggesting that current strategies fall short of producing truly disentangled representations, and prompting a re-examination of how controllability is approached in music generation.	es
dc.description.sponsorship	Este trabajo ha recibido el apoyo de IA y Música : Cátedra en Inteligencia Artificial y Música (TSI-100929-2023-1), financiado por la Secretaría de Estado de Digitalización e Inteligencia Artificial y la Unión Europea (Next Generation EU), e IMPA : Multimodal AI for Audio Processing (PID2023-152250OB-I00), financiado por el Ministerio de Ciencia, Innovación y Universidades del Gobierno español, la Agencia Estatal de Investigación (AEI) y cofinanciado por la Unión Europea.	es
dc.format.extent	5 p.	es
dc.format.mimetype	application/pdf	es
dc.language.iso	en	es
dc.rights	Las obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)	es
dc.subject	Disentangled representations	es
dc.subject	Controllable music generation	es
dc.subject	Evaluation framework	es
dc.title	Evaluating disentangled representations for controllable music generation	es
dc.type	Preprint	es
dc.contributor.filiacion	Ibáñez-Martínez Laura, Universitat Pompeu Fabra, Barcelona, Spain	-
dc.contributor.filiacion	Nkama Chukwuemeka, Universitat Pompeu Fabra, Barcelona, Spain	-
dc.contributor.filiacion	Poltronieri Andrea, Universitat Pompeu Fabra, Barcelona, Spain	-
dc.contributor.filiacion	Serra Xavier, Universitat Pompeu Fabra, Barcelona, Spain	-
dc.contributor.filiacion	Rocamora Martín, Universidad de la República (Uruguay). Facultad de Ingeniería.	-
dc.rights.licence	Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)	es
Aparece en las colecciones:	Publicaciones académicas y científicas - Instituto de Ingeniería Eléctrica

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
INPSR26.pdf	Preprint	184,91 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons