合成川普的西班牙語演講,新研究實現跨語言語音克隆 | 一周AI最火論文

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

摘要:在最近的一篇論文中,Google AI研究人員證明,數據增強也可以應用於未標記的數據,用來推進半監督學習。研究人員還介紹了深度模型推廣(DEMOGEN)數據集,包括756個訓練深度模型,以及他們在CIFAR-10和CIFAR-100數據集上的訓練和測試性能。

合成川普的西班牙語演講,新研究實現跨語言語音克隆 | 一周AI最火論文 科技 第1張

大數據文摘專欄作品

作者:Christopher Dossman

編譯:conrad、Jiaxu、雲舟

嗚啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly欄目又和大家見面啦!

AI ScholarWeekly是AI領域的學術專欄,致力於為你帶來最新潮、最全面、最深度的AI學術概覽,一網打盡每周AI學術的前沿資訊。

每周更新,做AI科研,每周從這一篇開始就夠啦!

本周關鍵詞:半監督學習、語音合成、語音克隆、機器人

本周熱門學術研究

奈米光子介質在人工神經干涉中的應用

本文中,學者們介紹了一種奈米光子神經介質,可以執行相當於人工神經計算的複雜和非線性模式映射。具體而言,他們的工作證明了通過奈米光子介質的光波能夠執行人工神經計算,測試集的精度約為84%。

許多現有的光學神經計算技術通過利用分層前饋網路遵循數字ANN的架構。但是對於新的奈米光子神經介質(NNM),研究人員表明,通過利用光學反射,可以超越分層前饋網路的范例,以連續和無層的方式做到人工神經計算。

複雜信息是輸入光的波前編碼。該介質轉換波前可以做到複雜的計算任務,例如圖像識別。在輸出端,光能集中在明確定義的位置,例如,可以將其解釋為圖像中物體的身份。這些計算媒體可以小到幾十個波長,並提供超高的計算密度。他們利用亞波長散射體做到複雜的輸入/輸出映射,超越了傳統奈米光子器件的功能。

一段時間以來,AI社區一直在尋找減少神經網路訓練和推理所需的內存和功耗的方法。與傳統方法不同,NNM非常具有前景,因為它的能耗最低。

該方法的固有並行性可以顯著提高計算速度。結合超高計算密度,NNM方法可用作各種信息設備中的模擬預處理單元。

原文:shorturl.at/sJPS4

合成川普的西班牙語演講,新研究實現跨語言語音克隆 | 一周AI最火論文 科技 第2張

無監督數據增強(UDA),做到更高效,更連續的半監督學習

在最近的一篇論文中,Google AI研究人員證明,數據增強也可以應用於未標記的數據,用來推進半監督學習。他們的方法,即所謂的無監督數據增強或UDA,能夠促進模型預測在未標記的樣本和增強的未標記樣本之間保持一致。

在評估方面,UDA取得了出色的成果。例如,在IMDb文本分類數據集中,UDA僅使用20個標記樣本做到了4.20的錯誤率,超過了在25,000個標記樣本上訓練的傳統模型。

在標準的半監督學習基準CIFAR-10和SVHN上,UDA優於所有前述方法,CIFAR-10的錯誤率為2.7%,僅有4,000個樣本,SVHN的錯誤率為2.85%,只有250個樣本。

合成川普的西班牙語演講,新研究實現跨語言語音克隆 | 一周AI最火論文 科技 第3張

UDA也適用於像ImageNet這樣的大型數據集。當使用標記組的10%進行訓練時,UDA將前1/前5精度從55.1/77.3%提高到68.7/88.5%。對於具有130萬額外未標記數據的完整ImageNet,UDA進一步將性能從78.3/94.4%提升至79.0/94.5%。

這項工作表明,可以應用數據增強來增強半監督學習。對於半監督學習方法的數據稀缺,這一方法非常有效。此外,即使有大規模數據,UDA也能提供強勁的收益。

為了避免UDA過度擬合,研究人員提出了一種稱為TSA的技術,用於存在大量未標記數據的情況。這種學習已被證明與數據提升相匹配並且令人驚訝地超越了監督學習。

代碼:

原文:

增強神經網路的泛化

Google AI的研究人員建議在網路層使用標準化的邊際分配作為推廣差距的預測因子。在對邊際分布與概括之間的關係進行實證研究後,他們證明了距離的正確歸一化和邊際分布的一些基本統計可以準確地預測廣義差距。

研究人員還介紹了深度模型推廣(DEMOGEN)數據集,包括756個訓練深度模型,以及他們在CIFAR-10和CIFAR-100數據集上的訓練和測試性能。這些模型是CNN和ResNet-32的變體,具有不同的流行正則化技術和超參數設置,從而引發了廣泛的泛化行為。例如,在CIFAR-10上訓練的CNN模型的測試精度範圍為60%至90.5%,一般化差距為1%至35%。

合成川普的西班牙語演講,新研究實現跨語言語音克隆 | 一周AI最火論文 科技 第4張

這項工作為AI社區提供了一個用於研究泛化的工具。它還鼓勵進一步研究隱藏層中的泛化間隙預測器和邊緣分布。

數據集:

原文:

多語言語音合成和跨語言語音克隆

學者們提出了一種基於Tacotron(中文語音合成)的多人多種語言文本到語音(TTS)的合成算法,能夠在多種語言中生成高質量的語音。模型結構採用基於注意力機制的序列到序列模型,根據輸入文本序列生成倒譜梅頻(log-mel,來自MFCC梅爾頻率倒譜系數)圖幀序列。

合成川普的西班牙語演講,新研究實現跨語言語音克隆 | 一周AI最火論文 科技 第5張

該模型是通過使用音位輸入表示來設計的,以激勵跨語言的模型容量共享。它還包含了一個對抗性的損失,以幫助理清它的說話者表示。通過對每種語言的多名使用者進行訓練,加入自動編碼輸入,並在訓練期間來幫助穩定注意力,從而進一步擴大了訓練規模。

該模型對三種語言的高質量語音合成和語音訓練的跨語言傳輸具有重要的應用潛力。例如,不需要任何雙語或並行語言的訓練,它就能夠使用英語使用者的聲音合成流利的西班牙語。此外,該模型在學習說外語的同時還會適量調節口音。

它可以擴展並利用大量低質的訓練數據,來支持更多的使用者和語言。

原文:https://arxiv.org/abs/1907.04448

機器人物聯網的分析、挑戰與解決方案

機器人物聯網(IoRT)是一種新引入的理論,旨在定義機器人在物聯網場景中的綜合運用。物聯網和機器人研究領域的研究現在已經緊密地聯繫在一起了,不能再分別看待。

合成川普的西班牙語演講,新研究實現跨語言語音克隆 | 一周AI最火論文 科技 第6張

它們的緊密聯繫使兩個研究領域走到了一起,研究人員只有合作才能推動這兩個領域的進步。本文試圖將這兩個領域結合在一起,提供了關於互聯網機器人的一個概述,分析和挑戰,可能的解決方案。該研究探討了IoRT架構、智能空間集成以及機器人應用等問題。

當兩個或兩個以上的領域緊密聯繫在一起時,將它們的研究和開發結合起來,並快速推進它們就變得至關重要。機器人和物聯網結合的時代已經到來,目的是幫助研究人員共同努力,推動相關理論、模型和應用的發展。

它們的綜合運用將有助於促進研究,這些研究可用於幫助開發更多更好的應用,例如家庭自動化、衛生健康、交通、物流等。

原文:https://arxiv.org/abs/1907.03817

其他爆款論文

英國研究人員發布了一個開源的大型合成點雲數據集以幫助研究:

回顧現有的三維分類、目標檢測和分割的深度學習技術:

準確、簡單、實時的在線三維多目標跟蹤基線系統:

一種新的記憶和高效計算的深度學習模型:

AI新聞

一旦談到需要人工幫助審核內容時,人工智能就顯得力不從心了:

AI如何改變商業模式:

《星際爭霸2》玩家現在可以在戰網上與DeepMind’s 的AI匹配交戰了:

合成川普的西班牙語演講,新研究實現跨語言語音克隆 | 一周AI最火論文 科技 第7張
專欄作者介紹

Christopher Dossman是Wonder Technologies的首席數據科學家,在北京生活5年。他是深度學習系統部署方面的專家,在開發新的AI產品方面擁有豐富的經驗。除了卓越的工程經驗,他還教授了1000名學生了解深度學習基礎。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/

志願者介紹

後台回復「志願者」加入我合成川普的西班牙語演講,新研究實現跨語言語音克隆 | 一周AI最火論文 科技 第8張合成川普的西班牙語演講,新研究實現跨語言語音克隆 | 一周AI最火論文 科技 第9張合成川普的西班牙語演講,新研究實現跨語言語音克隆 | 一周AI最火論文 科技 第10張

>合成特朗普的西班牙語演講,新研究做到跨語言語音克隆 | 一周AI最火論文

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!