响应式网站建设推荐乐云践新,定西市小企业网站建设建设,辽阳制作网站,建设代刷网站前言#xff1a;在本专栏的系列博文中#xff0c;我将包含声学场景识别、声音事件检测、声源位置估计等利用机器学习或深度学习技术进行研究的、基于声音信号的相关工作成为“声音计算”。
本篇博文主要介绍与声音计算相关的两个近些年持续跟进的挑战赛#xff1a;DCASE和L…前言在本专栏的系列博文中我将包含声学场景识别、声音事件检测、声源位置估计等利用机器学习或深度学习技术进行研究的、基于声音信号的相关工作成为“声音计算”。
本篇博文主要介绍与声音计算相关的两个近些年持续跟进的挑战赛DCASE和L3DAS。
一、DCASE
声音携带着大量关于我们日常环境和发生在其中的物理事件的信息。我们可以感知我们所处的声音场景(繁忙的街道、办公室等)并识别单个声源(路过的汽车、脚步声等)。研究自动提取、识别这些信息的信号处理方法具有广泛的应用场景例如基于音频内容搜索多媒体制造情境感知移动设备、机器人、汽车等以及智能监测系统利用声学信息识别环境中的活动。然而要可靠地识别真实声景中的声音场景和单个声源仍然需要大量的研究。在真实声景中多个声音经常同时出现并且极易受到环境的干扰。这些因素都导致了基于声音信号进行广泛的场景应用还存在诸多的难题。
DCASE: detection and classification of acoustic scenes and events
地址 DCASE
DCASE 为该领域内的权威挑战赛包含多个子任务包括声学场景分类Acoustic Scene Classification、异常声音检测Anomalous Sound Detection、声音事件检测与定位Sound Event Localization and Detection、带有弱标签的声音事件检测 Sound Event Detection with Weak Labels 、生物声学事件检测Bioacoustic Event Detection、音频字幕和基于语言的音频检索Automated Audio Captioning and Language-Based Audio Retrieval、拟音合成Foley Sound Synthesis——DCASE2023该挑战赛每年的任务设置基本一致而在数据集丰富度和难度上持续迭代。 二、L3DAS
L3DAS23: Learning 3D Audio Sources for Audio-Visual Extended Reality
Signal Processing Grand Challenge at IEEE ICASSP 2023
地址L3DAS - Learning 3D Audio Sources
该挑战赛依托于 IEEE ICASSP (声音计算领域内的旗舰会议CCF-B相对而言DCASE现没有依附任何会议仅有小范围的一个workshop)从2021年开始每年举办一次。
L3DAS项目旨在为开发用于3D音频分析的深度学习算法提供新的3D音频数据集和软件工具包。为此该项目将专注于各种沉浸式音频任务如声音事件检测和定位、声源分离、语音识别、语音增强、音频超分辨率、声学场景分类、声学回声消除和降噪等。使用3D录音麦克风收集的数据将通过Python开发的用户友好框架提供给音频研究社区。
该挑战赛氛围两个子任务语音增强Speech Enhancement、声音事件检测与定位3D Sound Event Localization and Detection。
该项挑战赛第二个任务(SELD)与DCASE2022及以前的SELD任务有所不同其面向的是声音事件的三维定位即球坐标表示下的方向角-俯仰角-声源距离而DCASE仅关注声源角度估计。但是在最新一轮的挑战赛中(DCASE2023)其子任务3SELD也提供了除角度外的距离信息但是在评估模型表现时暂时还是仅关注角度估计的表现。 总结DCASE系列挑战赛的子任务设置更加丰富相关组织次数更多但是目前还没有相关的学术会议支持仅有workshopL3DAS是近些年2021发布的挑战赛依托于ICASSP会议关注语音增强和声音事件检测与定位两个任务。
两项挑战赛的举办时间是错开的可都参与。