尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
最近,由快手音視訊技術部聯合義大利羅馬第一大學(Sapienza University of Rome, Italy),在國際音頻頂級會議 ICASSP 2022 上發起的深度3D音頻信號處理挑戰賽(L3DAS22:Machine Learning for 3D Audio Signal Processing)成就正式發布。此次比賽共有來自全球近50支學術界和工業界團隊報名,比賽成果將在今年5月 ICASSP 2022 大會的 Special Session 長進行分享。
作為第一屆L3DAS21比賽的冠軍,快手音視訊技術部音頻算法團隊在深度學習的音頻信號處理方向上持續探索。此次團隊聯合義大利羅馬第一大學發起挑戰賽,旨在提供一個通用的數據集和公平的測試平臺,促進真實場景下3D深度音頻信號處理核心技術的研究。基於深度學習的3D音頻信號處理技術引起學術界和工業界廣泛關註,在虛擬和真實會議、遊戲開發、音樂制作,自動駕駛及監控等領域深入應用。相較於單通道音頻,3D音頻攜帶的增量三維聲源方位資訊,有助於提升語音和情感識別、聲源分離、語音增強和去噪,以及聲學回聲清除算法的效果。
本次挑戰賽共設置了兩個任務:
任務一:多通道3D語音增強任務,專註於辦公場景下的實時語音增強需求。
任務二:真實場景下特定聲源檢測和定位任務,專註於自動駕駛、監控等應用場景。
經過近三個月的激烈角逐,挑戰賽結果正式出爐。任務一中,卡耐基梅隆大學、百度和騰訊分列前三名;中科院聲學所、重慶郵電大學和新加坡ForteMedia分列任務二的前三名。同時,快手將為每個任務的前兩名團隊提供豐厚獎金。此次挑戰賽數據集模擬了40,000餘個3D環境,提供了2組 Ambisonics 格式的3D錄音。參賽團隊的成就通過語音可懂度指標(Short-Time Objective Intelligibility, STOI)和單詞錯誤率(Word Error Rate, WER)兩個指標進行綜合評定。
圖1:任務一: 語音增強比賽成就
圖2:任務二:聲源檢測及定位比賽成就
快手音視訊技術部匯聚了音頻領域頂尖人才,結合快手業務推進了前沿算法的應用和落地,深入實時語音通訊、音頻音效及後處理、音頻內容理解、音頻編解碼、音頻硬件等多個領域。團隊成員在IEEE ICASSP、Interspeech、ACM/IEEE TALSP等頂級學術會議和期刊上,均有發表系列學術論文,並多次斬獲音頻挑戰賽冠軍。
快手定義的「音視訊」不局限於畫面觀感,更強調「視」「聽」統一的極致體驗。在不同場景中,快手音視訊技術部通過將豐富的音頻處理能力與視訊處理能力相結合,自動形成算法決策,為用戶呈現真正的視聽盛宴。對於前沿技術,團隊將持續投入研發與探索,保持領先,以應對更為豐富多元的應用場景。
比賽官網:https://www.l3das.com/icassp2022/results.html