尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
智東西(公眾號:zhidxcom)
編 | 王穎
導語:IBM提出分布式處理架構ASR,將語音識別訓練時間從一周縮短至11.5小時。
智東西4月11日消息,IBM將在5月的ICASSP會議上公布新型AI語音模型處理架構ASR,大量縮短語音識別訓練時間。
IBM在最 新髮表的論文《分布式深度學習自動語音識別策略》(Distributed Deep Learning Strategies for Automatic Speech Recognition)中提出了一種分布式處理架構(ASR),該架構可以在流行的開放源代碼基準測試(Switchboard)上將訓練提速15倍,而且不會損失準確性。
論文的作者表示,ASR部署在包含多個顯卡的系統上,可以將培訓時間總計從幾周減少到幾天。這項工作計劃於下個月在IEEE國際聲學,語音和信號處理會議(ICASSP)會議上公布。
一、分布式深度學習加速算法
IBM團隊的解決方案需要提高批量大小,即可以一次處理的樣本數量,但不是不加選擇地處理,否則將對準確性產生負面影響。他們將批量大小增加到2560個,同時應用一種稱為異步分散並行隨機梯度下降(ADPSGD)的分布式深度學習技術。
正如研究人員解釋的那樣,大多數深度學習模型要麼採用同步優化方法,這種方法受到慢系統的不成比例的影響;要麼採用基於參數服務器(PS)的異步方法,這種方法往往導致模型不夠精確。 相比之下,IBM去年在論文中首次詳述的ADPSGD是異步和分散的,保證了模型準確性的基線水平,並為某些類型的優化問題提供了加速。
在測試中,該論文的作者表示,ADPSGD縮短了ASR作業的運行時間,從單個V100圖形處理器上的一周縮短到32圖形處理器系統上的11.5小時。ADPSGD留給未來工作算法的時間,可以處理更大的批量和系統優化更強大的硬件。
IBM研究人員張偉、崔曉東和Brian Kingsbury在博文中寫道:「在半天內完成一項培訓工作是可取的,因為它使研究人員能夠快速迭代開發新算法,也可以使開發人員快速調整現有模型以適應他們的應用,特別是在需要大量語音來做到穩健性和可用性所需的高精度時的情況下。」
二、複雜模型訓練更需縮短時間
機器學習訓練中,需要克服的持續性的挑戰,是可靠、強大且可概括的語音識別。傳統上,訓練自然語言理解模型需要包含數千小時語音和數百萬(甚至數十億)字的語料庫,更不用說在合理的時間範圍內處理它們的強大硬件了。
張偉、崔曉東和Brian Kingsbury介紹,訓練像蘋果的Siri、Google智能助理和亞馬遜的Alexa那樣的自動語音識別系統,需要複雜的編碼系統將語音轉換為深度學習系統和解碼系統能夠理解的功能,將輸出轉換成人類可讀的文本。更複雜模型系統使大規模訓練更加困難。
論文發布會議鏈接:https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=3910
原文來自:VentureBeat