尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
計算機視覺(CV)是AI領域一大吸金賽道,也由此產生了商湯、雲從、依圖、曠視這樣的「圖像四小龍」。而這四小龍之一的「依圖科技」卻率先拓寬邊界,踏入語音和自然語言處理(NLP)行業。
12月11日,依圖發布了依圖短語音聽寫API、和微軟Azure推出依圖語音開放平台,並和華為發布了「智能語音聯合解決方案」。
其實早在2016年,當計算機視覺公司剛開始吸引投資人注意時,語音識別就開始規模化場景落地。現如今,百度、騰訊、京東、小米紛紛發布智能音箱,各種手機搭載語音交互,智能翻譯工具、智能客服等語音類產品層出不窮。
那麼,相比同類產品,依圖語音技術的比較優勢和市場空間會在哪里?在未來產品化落地上,依圖會有怎樣的規劃?圍繞這些問題,36氪獨家專訪了依圖科技首席創新官,前Google Research Scientist呂昊博士。
依圖科技首席創新官呂昊博士
確實,這個時間點進入語音行業挑戰重重,一則先發優勢不再,二則市場擁擠,科大訊飛、BAT大廠紛紛入局,從技術上升到平台生態,市場空間看似餘地不多。
對此,呂昊表示:依圖團隊對國內現有的語音識別技術都做了調研,發現在不少場景下,語音識別效果並不理想,例如通話過程中的聲音轉寫準確率低、遠距離的聲音采集識別效果差、語料數據積累不足等。因此,依圖會從這些可優化空間入手,對模型算法進行打磨,提升識別率,降低字錯率。
在語音識別領域,15%的字錯率是一條紅線,超過則基本不具備可讀性,而低於3%則是可以被認為具備類人的語音識別能力。然而,在實際說話過程中,人的語速、語氣、口音、語態等都會影響識別準確度。此外,不同於英文,中文複雜的語言元素,以及同音不同意等問題為語音識別帶來了更大的挑戰。那麼依圖如何應對呢?
呂昊告訴36氪:當前業內缺乏系統性的標準測試和測試集,對於語音識別缺乏體驗和比較的工具,為提升識別準確率,依圖團隊搜集了大量真實對話數據,以及專業類、生活類的細分語料庫,基於此,依圖提出了自己多維度、多場景的測試數據集,由此來對模型算法進行訓練和測試。
據悉,在基於全球最大中文開源數據庫的AISHELL-2的測試中,依圖短語音聽寫的字錯率為3.71%,官方稱領先原業內領先者科大訊飛約20%。在近場聊天、語音節目、電話、遠場、混響等不同環境中,依圖的語音識別技術平均字錯率在6.36%。加入其它公開測試集,和依圖 新髮布的測試集(涵蓋50小時,60萬字)後,字錯率為6.39%,官方稱領先科大訊飛約13%。
基於不同數據測試集上,依圖語音識別技術的準確率表現
其實,如果想做到真正意義上的語音交互,語音只是一部分,更重要的則是對語義的理解。如果我們把語音技術比作人的嘴巴和耳朵,用於表達和獲取;那麼語義理解則是人的大腦,能夠幫助信息處理和解析。在語義理解方面,依圖同樣在進行技術積累。
呂昊表示:雖然此次是從語音切入,但是團隊一直是語音、語義兩線並行。2017年時,依圖就曾將自然語言處理(NLP)技術用於AI+醫療解決方案,結合自建的臨床中文知識圖譜,對醫學文本等多模態數據進行解析和信息提取。今年,依圖的論文更入選NLP頂會EMNLP 2018,針對計算機語言學核心問題之一的指代理解提出全新數據集PreCo並對外開放。
此前,在視覺領域,依圖已經在安防、醫療、金融、零售等領域有了產品化、商業化積累。對於是否會將語音技術遷移於這些領域,呂昊回應:這一階段仍舊以技術積累為主,依圖在開放平台上提供了自有的API和模型算法,一方面可以經由市場驗證算法質量,另一方面可以由此接近不同行業和場景。
據官方信息,依圖與微軟聯合發布的語音開放平台基於Azure Cloud,將依圖的語音識別技術能力開放給廣泛第三方應用開發者使用。依圖和華為聯合發布的「智能語音聯合解決方案」則依托於依圖語音開放平台及華為全棧全場景Ascend系列晶片和面向數據中心側的Atlas 300AI加速卡,形成軟硬一體化解決方案。
在未來,依圖計劃陸續開放長語音轉寫API、實時語音轉寫API等。正如呂昊所說:希望為第三方應用開發者在語音領域提供多一個語音技術選擇。
筆者認為:結合自有的CV技術積累,依圖或許可在多模態情感識別和計算領域發力,融合視覺、語音等多重數據,全方位提升機器的感知能力。在商業化層面,雖然當下的依圖語音技術開放平台仍舊以技術積累為重心,但依托CV積累的的B端用戶,為企業級客戶提供語音解決方案只是時間早晚問題。
————
我是鄭銦,36氪超人學院創始學員,關注AI、AR/VR、物聯網、邊緣計算、半導體,項目交流請加微信zhengbaobao097825,註明公司、職位、姓名。
超人學院相信早期生態推動社會變革,使命是為早期生態培養領袖人才,詳情請戳36氪想要為進入創投圈的年輕人做一所「超人學院」,你來不來