亞馬遜推出神經文檔轉換語音，通過增加自然性改善語音質量

2019-07-31 尋夢園科技 180 Views

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

為了不被Google的WaveNet所超越，亞馬遜今天宣布在亞馬遜波利（Amazon Polly）推出神經文本轉語音和新聞播音員風格播報。

正如亞馬遜網路服務技術傳播者Julien Simon在博客文章中指出的那樣，通過增加自然性和表現力，神經文本轉語音可以顯著改善語音質量。

新聞廣播員的風格的意思是，使新聞文章和博客文章等內容的敘述聽起來「更加真實」，西蒙說，這是由神經文本到語音的潛在機器學習算法做到的。他寫道:「多虧了波莉和新聞播報員的風格，(聽眾們)可以享受高質量的文章閱讀，聽起來就像他們在電視或廣播上聽到的那樣。」

《環球郵報》(The Globe and Mail)、甘尼特(Gannett)、藍蟾蜍(BlueToad)、蒂姆傳媒(TIM Media)、大英百科全書(Encyclopedia Britannica)、非盈利的ed-tech公司CommonLit和遊戲開發商Volley等客戶已經開始使用Polly提供的新聞播報風格。今年1月，亞馬遜(Amazon)悄悄將其推廣到支持alexa的設備上，用於每日簡報和維基百科片段解說。

news scaster style支持兩種英語語音，而Neural Text-To-Speech支持11種語音，包括3種美國英語語音和8種美國英語語音。這兩種方法都可以在實時和批處理模式下工作，目前可以在美國東部(弗吉尼亞州)、美國西部(俄勒岡州)和歐洲(愛爾蘭)AWS地區訪問它們。

從第一次語音請求（標準或NTTS）開始，前12個月每月最多100萬個神經文本到語音的語音是免費的，多出的部分就需要另付費了。

使用人工智能生成類人語言

去年末亞馬遜在一份詳細的工作神經語音研究報告中，描述了一個可以學習新的說話風格的系統，僅僅需幾個小時的訓練，完全可以取代一個配音演員以特定風格進行的數十小時的閱讀。

Amazon的AI模型由兩個組件組成。第一個是轉換音素的序列的生成神經網路，即與另一個區分開一個字，如聲音的感知上不同的單元，或視覺隨著時間變化的聲音頻譜。第二個是聲碼器，將這些頻譜圖轉換為連續的音頻信號。

音素到譜圖解釋器網路是一個序列到序列的網路，這意味著它並不僅僅從相應的輸入計算輸出，而是考慮它在輸出序列中的位置。除了「風格編碼」之外，亞馬遜的科學家還用音素序列和相應的譜圖序列對其進行了訓練，後者識別出了訓練示例中使用的特定說話風格。接下來，該模型的輸出被輸入一個聲碼器，該聲碼器可以從任何說話者那里獲取光譜圖，無論他們在訓練期間是否被看到。

最終的結果就是一種人工智能模型訓練方法，它結合了大量中性風格的語音數據和幾個小時所需風格的補充數據，以及一種能夠區分語音元素的人工智能系統。亞馬遜TTS研究團隊的高級經理安德魯•布林在之前的一篇博客文章中寫道:「能夠教會Alexa根據客戶的要求來調整自己的說話風格，這為她提供了一種新的、令人愉快的體驗，這在以前是不可想像的。」

憑借神經文本轉換語音和新聞播報器的風格，亞馬遜與Google展開了有效的競爭。Google在2月份推出了31個新的WaveNet語音和24個新的標準語音，在其雲文本轉換語音服務中(使WaveNet語音總數達到57個)。它的另一個競爭對手是微軟，微軟在預覽版中提供了三種人工智能生成的語音，並通過Azure語音服務API提供了75種標準語音。

>亞馬遜推出神經文本轉換語音，通過增加自然性改善語音質量

亞馬遜

About 尋夢園

尋夢園是台灣最大的聊天室及交友社群網站。致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。擁有數百間不同的聊天室，讓您隨時隨地都能找到志同道合的好友！

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

更多文章