亞馬遜AI開始用於定制聲音！讓肯德基老爺爺說南部英語

2020-02-06 尋夢園科技 367 Views

亞馬遜AI開始用於定制聲音！讓肯德基老爺爺說南部英語科技第1張

智東西（公眾號：zhidxcom）

編 | 王穎

智東西2月5日消息，亞馬遜推出品牌聲音（Brand Voice）定制服務，可將文本轉換為語音，為客戶提供聲音定制。

AI模型只需進行幾個小時的訓練就可以定制獨特的品牌聲音，這項工作如果由配音演員來完成則需要十幾個小時。

肯德基加拿大分公司和澳大利亞國民銀行已經開始與亞馬遜合作，在語音服務中使用了定制的品牌聲音。

一、聲音定制，品牌形象也有獨特風格

亞馬遜AI語音轉換總監Rafal Kuklinski和高級產品經理Ankit Dhawan在博客中解釋了品牌聲音定制服務。不同公司通過定制獨特的品牌聲音，強調出產品和服務的特性，與其他品牌做出區分。

亞馬遜的相關負責人表示，他們已經與肯德基加拿大分公司合作，為肯德基的品牌形象桑德上校設計了美國南部英語口音，並在亞馬遜Alexa應用程序中開始使用。

亞馬遜還為澳大利亞國民銀行設計了澳大利亞英語語音，國民銀行已將聯繫中心遷移到了亞馬遜全管道雲聯繫中心產品Amazon Connect中。

二、AI語音轉換，配音時間縮短十倍

去年年底，亞馬遜在一份研究論文中詳細介紹了其在人工智能產生的語音方面的工作。研究人員在論文中描述了一種系統，該系統可以通過幾小時的培訓掌握一種語言風格。而專業的配音演員完成培訓則需要幾十個小時。

亞馬遜的AI模型由兩個部分組成。第一個是生成神經網路，它可以將音素序列轉換為聲譜圖序列，聲音隨時間的變化使得頻譜可以用肉眼清晰的觀察到它的變化。第二個是將這些頻譜圖轉換為連續音頻信號的聲碼器。

展開全文

這種AI模型訓練方法，將大量中性風格的語音數據與所需補充數據相結合，通過一種能夠區分語音元素的AI系統幾個小時的訓練，生成風格獨特的聲音。

亞馬遜內部已經開始使用這種模型為Alexa生成新的聲音。

這種技術具有很強的商業價值。從前由配音工作者負責錄制的交互語音響應系統，可能為公司培訓視頻提供的電子學習腳本，都可以用這種模型來代替。

品牌聲音合成可以通過減少輔助錄制和接聽的方式提高配音演員更工作效率，使他們騰出更多時間從事創造性的工作。

三、AI語音轉換競爭激烈，大公司技術領先

借助品牌聲音及其他文本語音轉換服務，亞馬遜和Google這兩家國際巨頭已經在語音領域脫穎而出。

Google最近在其Cloud Text-to-Speech服務中推出了31種AI合成的WaveNet語音和24個新的雲文本到語音服務標準語音。

微軟也通過Azure語音服務API提供了三種AI生成的預覽語音和75種標準語音。

亞馬遜品牌聲音定制服務將與Voicery等多家初創公司的產品展開競爭。

Voicery為客戶提供定制數字語音服務，聽起來很像人的聲音。印度班加羅爾的DeepSync公司提供的也是類似的語音轉換服務。文本轉換語音技術初創公司iSpeech也擁有類似的語音工具，Modulate、Respeecher、Resemble AI、Descript。

原文來自：VentureBeat

About 尋夢園

尋夢園是台灣最大的聊天室及交友社群網站。致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。擁有數百間不同的聊天室，讓您隨時隨地都能找到志同道合的好友！