Google Brain推出語音辨認新技能、臉部臉色辨認助力貿易再成長

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接

加入LINE好友

Google Brain推出語音識別新技術、面部表情識別助力商業再發展

大數據文摘專欄作品

作者：Christopher Dossman

編譯：fuma、雲舟

嗚啦啦啦啦啦啦啦大家好，本周的AI Scholar Weekly欄目又和大家見面啦！

AI Scholar Weekly是AI領域的學術專欄，致力於為你帶來最新潮、最全面、最深度的AI學術概覽，一網打盡每周AI學術的前沿資訊。

周一更新，做AI科研，每周從這一篇開始就夠啦！

本周關鍵詞：語音識別、環境聲音分類、CNN、臉部表情識別

本周熱門學術研究

Google Brain推出語音識別新技術、面部表情識別助力商業再發展

語音自動識別技術：SpecAugment

受先前語音和視覺領域增強成功的啟發，Google Brain最近提出了SpecAugment，一種數據增強方法，它操作輸入音頻的對數mel光譜圖，而不是原始音頻本身。

SpecAugment方法不但非常簡單，計算成本也很低，因為它直接作用於對數mel光譜圖，而不需要額外的數據。這種簡單的方法非常有用，並使研究人員能夠訓練端到端的監聽參與和拼寫ASR網路。

通過使用簡單的手工策略增加訓練集，即使沒有語言模型的幫助，研究人員也能夠在端到端的LAS網路上獲得librispeech 960h和Switchboard 300h超越混合系統的性能。它優於複雜的混合系統，通過使用更大的網路和更長的訓練時間，SpecAugment能夠達到最先進的效果。

Google Brain推出語音識別新技術、面部表情識別助力商業再發展

潛在效果及應用

全球自動語音識別（ASR）市場預計在2016年至2024年間以超過15%的復合年增長率增長。隨著先進電子設備的飛速使用，人們對開發尖端功能和效率的需求越來越大，這樣的功能和效率提高了應用的ASR精度。

SpecAugment顯著提高了ASR的性能，並可能成為人工智能工程師驅動下一代ASR應用程序所需的必要條件，這些應用程序包括機器人、交互式語音響應、自定義詞典、視頻遊戲、語音驗證、家用電器等。

原文：

https://arxiv.org/pdf/1904.08779.pdf

使用一維CNN的端到端環境聲音分類模型

加拿大的一組研究人員最近提出了一個端到端的一維CNN環境聲音分類模型。根據音頻信號的長度，該模型由3-5個卷積層組成。與許多傳統方法做到二維表示的傳統模型不同，這一模型是直接從音頻波形中學習分類器。

Google Brain推出語音識別新技術、面部表情識別助力商業再發展

在對包含8732個音頻樣本的數據集進行評估時，新方法演示了幾種相關的分類器表示，其結果超越了現有的基於二維實例和二維CNN的最優效果。

此外，在環境聲音分類方面，該模型比大多數其他CNN體系結構的參數都要少，與傳統的二維體系結構相比，平均精度要高出11%到27%。

潛在應用及效果

根據這篇論文的評價結果，該方法在提供高度魯棒的環境聲音分類應用上具有很好的應用前景。

對於初學者來說，它的效率很高，與傳統的2D CNN相比，它只需要很少的訓練數據（後者需要數百萬個訓練參數）。它還做到了最先進的性能，可以通過做到滑動窗口處理任意長度的音頻信號。最後，它緊湊的體系結構大大降低了計算成本。

原文：

https://arxiv.org/abs/1904.08990v1

基於深度學習的臉部表情識別研究

研究人員最近開發和訓練了一種基於臉部表情識別的CNN，並探討了其分類機制。這一方法採用反卷積可視化方法，將CNN的極值點投影回原始圖像的像素空間。他們還設計了距離函數來測量臉部特徵單元的存在與CNN特徵圖上最大響應值之間的距離。

Google Brain推出語音識別新技術、面部表情識別助力商業再發展

CNN特徵圖是通過比較特徵圖中所有臉部特徵元素的最大距離和臉部特徵元素之間的映射關係來確定的，如果距離較大，則對臉部特徵變得敏感。在訓練過程中，研究人員驗證了該方法對人臉動作單元的檢測能力，做到了人臉表情識別。

潛在應用及效果

臉部表情識別是測試任何內容、產品或服務的最佳方法之一，這些內容、產品或服務可能引起情緒喚醒和臉部反應，因此，該方法可以應用於即時檢測臉部表情、編碼臉部表情和識別情緒狀態。

包括消費者神經科學、神經行銷、多媒體廣告、心理學研究、臨床心理學、心理治療、人工社會代理（avatar）工程在內的許多應用都可以從研究中受益匪淺。

原文：

https://arxiv.org/abs/1904.09737v1

機器學習在網路安全上的應用 – 當今問題，挑戰和數據集

新髮布的研究提出了一些機器學習的挑戰，研究人員需要處理這些挑戰才能成功地將機器學習應用於網路安全。

其中一個重要問題是對惡意軟件的分類和檢測。識別惡意程序並不容易，因為攻擊者常常會使用多態，模擬，壓縮和混淆來逃避檢測。不僅如此，一些其他同樣嚴峻的問題也引起了廣泛擔憂，比如說該領域專家過少，導致標記樣本不夠，大量標籤錯誤，數據集不平衡，識別惡意來源非常困難等等。

獲取數據集：由於解決網路安全問題的一個主要障礙是缺乏適當的數據集，研究人員提供了獲得數據集的途徑，使學術界能夠調查問題並提出應對挑戰的方法。他們還提出了一種通過旋轉生成標籤的方法，為網路安全中缺乏標籤的常見問題提供了解決方案。

潛在應用及效果

研究人員認為，機器學習在網路安全中的應用可以提升。他們還認為，網路社區有責任幫助機器學習社區在這一領域變得更加活躍。

目前，我們還是缺乏足夠合格且經驗豐富的網路安全分析師來最大限度地減少全球網路攻擊。

為了獲得對可用數據集的訪問權限，研究人員只需要聯繫[email protected]並附上「訪問數據請求」。

原文：

https://arxiv.org/abs/1812.07858v3

用於連續圖分類的新模型

ML學者提出了一種簡單、靈活但功能強大的方法來處理ML中的圖，該方法使用擴展的持久性圖來做到高效的圖結構編碼。具體來說，這一方法在計算擴展持久性圖中使用熱核特徵以快速、有效地進行圖結構總結。

此外，他們建立在最近的神經網路點雲結構之上定義了擴展持久性圖的架構，該架構集成性強且易於使用。

Google Brain推出語音識別新技術、面部表情識別助力商業再發展

他們通過在幾個圖形數據集上驗證它證明了新方法的有效性。雖然所提出的架構比其對應的架構簡單得多，但結果表明它可以在幾個圖形分類任務上做到最先進的結果。

潛在應用及效果

這對於許多真實世界的圖表分類數據集來說確實是個好消息，例如網路鏈接數據，社交網路，分子結構，地理地圖等。此外，該架構對非結構化數據非常有用，包括用於進一步分析所可能需要的圖像和文本圖形表格建模。

原文：

https://arxiv.org/abs/1904.09378v1

其他爆款論文

一種新的基於深度學習的模型證明了它對去噪數據的有用性，並允許從噪聲數據中精確逼近導數。

https://arxiv.org/pdf/1904.09406v1.pdf

BERT令人驚訝的跨語言效果。

https://arxiv.org/abs/1904.09077v1

一種簡單，易於做到但有效的方法，不需要進行廣泛的重新訓練，並且可以跨域進行良好的泛化，以做到少數自然語言生成（NLG）。

https://arxiv.org/pdf/1904.09521v1.pdf

使用BERT生成文本的自動評估指標，可以更好地與人類判斷相關聯，並優於現有指標。

https://arxiv.org/abs/1904.09675v1

基於點雲檢索的上下文信息三維注意力圖學習新模型。

https://arxiv.org/abs/1904.09793v1

AI新聞

AI能幫我們寫出更好的法律嗎？

https://www.forbes.com/sites/kalevleetaru/2019/04/24/could-ai-help-us-write-better-laws/#153d0ec95529

推薦算法主宰世界。

https://www.wired.com/story/how-recommendation-algorithms-run-the-world/

這個機器可以讀心，也可以交談

https://www.wired.com/story/machine-reads-your-mind-talks/

TensorFlow推出了MLIR來加快編譯速度，簡化機器學習模型的硬件優化。

https://www.infoworld.com/article/3390659/tensorflow-unveils-mlir-for-faster-machine-learning.html

2019-2025醫療保健應用全球人工智能市場報告。

https://www.marketwatch.com/press-release/artificial-intelligence-for-healthcare-applications-market-2019-global-trends-size-share-status-swot-analysis-and-forecast-to-2025-2019-04-24?mod=mw_quote_news

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接

更多文章