Urban sound & sight : Dataset and benchmark for audio-visual urban scene understanding

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/31397 Cómo citar

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Fuentes, Magdalena	-
dc.contributor.author	Steers, Bea	-
dc.contributor.author	Zinemanas, Pablo	-
dc.contributor.author	Rocamora, Martín	-
dc.contributor.author	Bondi, Luca	-
dc.contributor.author	Wilkins, Julia	-
dc.contributor.author	Shi, Qianyi	-
dc.contributor.author	Hou, Yao	-
dc.contributor.author	Das, Samarjit	-
dc.contributor.author	Serra, Xavier	-
dc.contributor.author	Bello, Juan Pablo	-
dc.date.accessioned	2022-05-03T12:01:35Z	-
dc.date.available	2022-05-03T12:01:35Z	-
dc.date.issued	2022	-
dc.identifier.citation	Fuentes, M., Steers, B., Zinemanas, P. y otros. Urban sound & sight : Dataset and benchmark for audio-visual urban scene understanding [en línea]. EN: ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Singapore, 23-27 may, pp 141-145. Piscataway, NJ : IEEE, 2022. DOI 10.1109/ICASSP43922.2022.9747644	es
dc.identifier.uri	https://ieeexplore.ieee.org/document/9747644	-
dc.identifier.uri	https://hdl.handle.net/20.500.12008/31397	-
dc.description.abstract	Automatic audio-visual urban traffic understanding is a growing area of research with many potential applications of value to industry, academia, and the public sector. Yet, the lack of well-curated resources for training and evaluating models to research in this area hinders their development. To address this we present a curated audio-visual dataset, Urban Sound & Sight (Urbansas), developed for investigating the detection and localization of sounding vehicles in the wild. Urbansas consists of 12 hours of unlabeled data along with 3 hours of manually annotated data, including bounding boxes with classes and unique id of vehicles, and strong audio labels featuring vehicle types and indicating off-screen sounds. We discuss the challenges presented by the dataset and how to use its annotations for the localization of vehicles in the wild through audio models.	es
dc.format.mimetype	application/pdf	es
dc.language.iso	en	es
dc.publisher	IEEE	es
dc.relation.ispartof	ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Singapore, 23-27 may 2022, pp. 141-145.	es
dc.rights	Las obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)	es
dc.subject	Location awareness	es
dc.subject	Training	es
dc.subject	Industries	es
dc.subject	Annotations	es
dc.subject	Conferences	es
dc.subject	Signal processing	es
dc.subject	Benchmark testing	es
dc.subject	Audio-visual	es
dc.subject	Urban research	es
dc.subject	Traffic	es
dc.subject	Dataset	es
dc.title	Urban sound & sight : Dataset and benchmark for audio-visual urban scene understanding	es
dc.type	Ponencia	es
dc.contributor.filiacion	Fuentes Magdalena, New York University, New York, NY	-
dc.contributor.filiacion	Steers Bea, New York University, New York, NY	-
dc.contributor.filiacion	Zinemanas Pablo, Universitat Pompeu Fabra, Barcelona, Spain	-
dc.contributor.filiacion	Rocamora Martín, Universidad de la República (Uruguay). Facultad de Ingeniería.	-
dc.contributor.filiacion	Bondi Luca, Bosch Research, Pittsburgh, PA, USA	-
dc.contributor.filiacion	Wilkins Julia, New York University, New York, NY	-
dc.contributor.filiacion	Shi Qianyi, New York University, New York, NY	-
dc.contributor.filiacion	Hou Yao, New York University, New York, NY	-
dc.contributor.filiacion	Das Samarjit, Bosch Research, Pittsburgh, PA, USA	-
dc.contributor.filiacion	Serra Xavier, Universitat Pompeu Fabra, Barcelona, Spain	-
dc.contributor.filiacion	Bello Juan Pablo, New York University, New York, NY	-
dc.rights.licence	Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)	es
dc.identifier.doi	10.1109/ICASSP43922.2022.9747644	-
udelar.academic.department	Procesamiento de Señales	-
udelar.investigation.group	Procesamiento de Audio	-
Aparece en las colecciones:	Publicaciones académicas y científicas - Instituto de Ingeniería Eléctrica

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
FSZRBWSHDSB22.pdf	Camera-Ready	5,55 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons