Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/20.500.12008/51720
Cómo citar
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.author | Plaja-Roglans, Genís | - |
dc.contributor.author | Serra, Xavier | - |
dc.contributor.author | Rocamora, Martín | - |
dc.date.accessioned | 2025-09-23T18:00:15Z | - |
dc.date.available | 2025-09-23T18:00:15Z | - |
dc.date.issued | 2025 | - |
dc.identifier.citation | Plaja-Roglans, G., Serra, X. y Rocamora, M. Leveraging Carnatic live recordings for singing voice separation using regression-guided latent diffusion [en línea]. EN: 26th International Society for Music Information Retrieval Conference, ISMIR 2025, Daejeon, Korea, 21-25 sep. 2025, pp. 1-9. | es |
dc.identifier.uri | https://ismir2025.ismir.net/ | - |
dc.identifier.uri | https://hdl.handle.net/20.500.12008/51720 | - |
dc.description.abstract | Diffusion models have demonstrated potential to separate individual sources from music mixtures in a generative fashion, enabling a new solution for this challenging problem. However, existing works require clean multi-stem data, which is scarce for several repertoires, consequently compromising generalization. We explore the potential of generative modeling to perform weakly-supervised singing voice separation for Carnatic Music, a music repertoire for which large quantities of multi-stem recordings with bleeding between sources have been collected from live performances. We pre-train a latent diffusion model to perform preliminary vocal separation conditioning on the corresponding mixture. Then, using a regressive model which is separately trained on a clean, smaller, and out-of-domain dataset, we estimate the level of bleeding in the preliminary separations and use that information to guide the diffusion model toward generating cleaner samples. The objective and perceptual evaluations show the potential of the proposed generative system for Carnatic vocal separation. Code, weights, and further materials are available online https://github.com/genisplaja/ldm-carnatic-separation. | es |
dc.description.sponsorship | Este trabajo cuenta con el apoyo de IA y Música: Cátedra en Inteligencia Artificial y Música (TSI-100929-2023-1), financiado por la Secretaría de Estado de Digitalización e In- teligencia Artificial, y la Unión Europea-Next Gen- eración UE, en el marco del programa Cátedras ENIA 2022 para la creación de cátedras universidad-empresa en IA, y IMPA: IA multimodal para procesamiento de audio (PID2023- 152250OB-I00), financiado por el Ministerio de Ciencia, In- Novación y Universidades del Gobierno español, la Agencia Estatal de Investigación (AEI) y cofinanciado por la Unión Europea. | es |
dc.description.uri | https://github.com/genisplaja/ldm-carnatic-separation | es |
dc.format.extent | 9 p. | es |
dc.format.mimetype | application/pdf | es |
dc.language.iso | en | es |
dc.publisher | ISMIR | es |
dc.relation.ispartof | 26th International Society for Music Information Retrieval Conference, ISMIR 2025, Daejeon, Korea, 21-25 sep. 2025, pp. 1-9. | es |
dc.rights | Las obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014) | es |
dc.subject | Carnatic music | es |
dc.subject | Live recordings | es |
dc.subject | Singing voice separation | es |
dc.subject | Regression-guided latent diffusion | es |
dc.title | Leveraging Carnatic live recordings for singing voice separation using regression-guided latent diffusion | es |
dc.type | Ponencia | es |
dc.contributor.filiacion | Plaja-Roglans Genís, Universitat Pompeu Fabra. | - |
dc.contributor.filiacion | Serra Xavier, Universitat Pompeu Fabra. | - |
dc.contributor.filiacion | Rocamora Martín, Universidad de la República (Uruguay). Facultad de Ingeniería. | - |
dc.rights.licence | Licencia Creative Commons Atribución (CC - By 4.0) | es |
udelar.academic.department | Procesamiento de Señales | es |
udelar.investigation.group | Procesamiento de Audio (GPA) | es |
Aparece en las colecciones: | Publicaciones académicas y científicas - Instituto de Ingeniería Eléctrica |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | ||
---|---|---|---|---|---|
PSR25a.pdf | Versión publicada | 658,74 kB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons