中國高校結合語音和臉部數據讓人工智能「察言觀色」準確率高達 62%

2019-01-17 尋夢園科技 524 Views

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接

一些人工智能研究人員長期以來的一個目標是，開發出一種系統，可以僅根據人的語音和臉部抽搐來對人的情緒進行分類。像 Affectiva 這樣的公司正在朝著這一方向發力。該公司最近推出了一款產品，可以通過掃描駕駛員的臉部和聲音來監控他們的情緒。但由於語言和肌肉運動的細微差別，仍存在相當大的挑戰。

不過，中國科學技術大學的研究人員聲稱已取得進展。本周在預印本服務器 Arxiv.org 上發表的一篇論文中，他們描述了一個人工智能系統，該系統能夠在流行基準上以最高水平的精度識別一個人的情感狀態。

” 自動情感識別 ( AER ) 是一項具有挑戰性的任務，因為它具有抽象的概念和多種情感表達方式。” 他們寫道， ” 受到人類認知過程的啟發，自然而然地在 AER 中同時利用音頻和視覺信息 …… 整個管道可以在神經網路中完成。”

該團隊的 AI 系統的一部分包括音頻處理算法，通過語音頻譜圖 ( 聲音頻率隨時間變化的視覺展示 ) 作為輸入，幫助整個 AI 模型回歸與情感最相關的區域。第二個組件通過兩個計算層運行人臉視頻幀：一個基本的人臉檢測算法和三個 ” 最先進的 ” 人臉識別網路 ” 微調 “，使它們與 ” 情緒相關 “。這是一個比起聽起來更棘手的事情 – 正如論文的作者所指出的，並非所有的框架都對情緒狀態有同等作用，因此他們不得不實施一種能夠突顯重要框架的注意機制。

在從所有四種臉部識別算法中提取特徵 ( 即，可測量的特徵 ) 之後，它們與語音特徵融合以 ” 深度捕捉 ” 它們之間的關聯，用於最終的情緒預測。這是最後一步。

為了 ” 教會 ” 人工智能模型對情緒進行分類，該團隊輸入了 AFEW8.0 提供的 653 視頻和相應音頻片段。AFEW8.0 是一個電影和電視節目數據庫，用於 EmotiW2018 的音視頻子挑戰。它堅持自己的觀點，在 383 個樣本的驗證集中，成功地從 7 個選項中對情緒進行分類—— ” 憤怒 “、” 厭惡 “、” 恐懼 “、” 快樂 “、” 中立 “、” 悲傷 ” 和 ” 驚訝 ” ——準確率約為 62.48%。此外，研究人員證明其視頻幀分析受音頻信號的影響 ; 換句話說，人工智能系統在進行預測時考慮了語音和臉部表情之間的關係。

也就是說，當模型與 ” 厭惡 “、” 驚訝 ” 和其他 ” 弱 ” 表情或容易與其他情緒混淆的情緒作鬥爭時，模型傾向於表現出 ” 明顯 ” 特徵的情緒，如 ” 憤怒 “、” 快樂 ” 和 ” 中立 “。盡管如此，它的性能幾乎與之前使用五種視覺模型和兩種音頻模型的方法相當。

” 與最先進的方法相比，” 研究人員寫道，” [ 我們 ] 提出的方法可以用單一模型獲得可比較的結果，在多個模型上取得新的里程碑。”

人工智能

About 尋夢園

尋夢園是台灣最大的聊天室及交友社群網站。致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。擁有數百間不同的聊天室，讓您隨時隨地都能找到志同道合的好友！

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接

更多文章