亞馬遜推出神經文檔轉換語音,通過增加 自然性改善語音質量

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

亞馬遜推出神經文檔轉換語音,通過增加 自然性改善語音質量 科技 第1張

為了不被Google的WaveNet所超越,亞馬遜今天宣布在亞馬遜波利(Amazon Polly)推出神經文本轉語音和新聞播音員風格播報。

正如亞馬遜網路服務技術傳播者Julien Simon在博客文章中指出的那樣,通過增加自然性和表現力,神經文本轉語音可以顯著改善語音質量。

新聞廣播員的風格的意思是,使新聞文章和博客文章等內容的敘述聽起來「更加真實」,西蒙說,這是由神經文本到語音的潛在機器學習算法做到的。他寫道:「多虧了波莉和新聞播報員的風格,(聽眾們)可以享受高質量的文章閱讀,聽起來就像他們在電視或廣播上聽到的那樣。」

《環球郵報》(The Globe and Mail)、甘尼特(Gannett)、藍蟾蜍(BlueToad)、蒂姆傳媒(TIM Media)、大英百科全書(Encyclopedia Britannica)、非盈利的ed-tech公司CommonLit和遊戲開發商Volley等客戶已經開始使用Polly提供的新聞播報風格。今年1月,亞馬遜(Amazon)悄悄將其推廣到支持alexa的設備上,用於每日簡報和維基百科片段解說。

news scaster style支持兩種英語語音,而Neural Text-To-Speech支持11種語音,包括3種美國英語語音和8種美國英語語音。這兩種方法都可以在實時和批處理模式下工作,目前可以在美國東部(弗吉尼亞州)、美國西部(俄勒岡州)和歐洲(愛爾蘭)AWS地區訪問它們。

從第一次語音請求(標準或NTTS)開始,前12個月每月最多100萬個神經文本到語音的語音是免費的,多出的部分就需要另付費了。

使用人工智能生成類人語言

去年末亞馬遜在一份詳細的工作神經語音研究報告中,描述了一個可以學習新的說話風格的系統,僅僅需幾個小時的訓練,完全可以取代一個配音演員以特定風格進行的數十小時的閱讀。

Amazon的AI模型由兩個組件組成。第一個是轉換音素的序列的生成神經網路,即與另一個區分開一個字,如聲音的感知上不同的單元,或視覺隨著時間變化的聲音頻譜。第二個是聲碼器,將這些頻譜圖轉換為連續的音頻信號。

音素到譜圖解釋器網路是一個序列到序列的網路,這意味著它並不僅僅從相應的輸入計算輸出,而是考慮它在輸出序列中的位置。除了「風格編碼」之外,亞馬遜的科學家還用音素序列和相應的譜圖序列對其進行了訓練,後者識別出了訓練示例中使用的特定說話風格。接下來,該模型的輸出被輸入一個聲碼器,該聲碼器可以從任何說話者那里獲取光譜圖,無論他們在訓練期間是否被看到。

最終的結果就是一種人工智能模型訓練方法,它結合了大量中性風格的語音數據和幾個小時所需風格的補充數據,以及一種能夠區分語音元素的人工智能系統。亞馬遜TTS研究團隊的高級經理安德魯•布林在之前的一篇博客文章中寫道:「能夠教會Alexa根據客戶的要求來調整自己的說話風格,這為她提供了一種新的、令人愉快的體驗,這在以前是不可想像的。」

憑借神經文本轉換語音和新聞播報器的風格,亞馬遜與Google展開了有效的競爭。Google在2月份推出了31個新的WaveNet語音和24個新的標準語音,在其雲文本轉換語音服務中(使WaveNet語音總數達到57個)。它的另一個競爭對手是微軟,微軟在預覽版中提供了三種人工智能生成的語音,並通過Azure語音服務API提供了75種標準語音。

>亞馬遜推出神經文本轉換語音,通過增加 自然性改善語音質量

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!