中國高校結合語音和臉部數據讓人工智能「察言觀色」 準確率高達 62%

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

一些人工智能研究人員長期以來的一個目標是,開發出一種系統,可以僅根據人的語音和臉部抽搐來對人的情緒進行分類。像 Affectiva 這樣的公司正在朝著這一方向發力。該公司最近推出了一款產品,可以通過掃描駕駛員的臉部和聲音來監控他們的情緒。但由於語言和肌肉運動的細微差別,仍存在相當大的挑戰。

不過,中國科學技術大學的研究人員聲稱已取得進展。本周在預印本服務器 Arxiv.org 上發表的一篇論文中,他們描述了一個人工智能系統,該系統能夠在流行基準上以最高水平的精度識別一個人的情感狀態。

” 自動情感識別 ( AER ) 是一項具有挑戰性的任務,因為它具有抽象的概念和多種情感表達方式。” 他們寫道, ” 受到人類認知過程的啟發,自然而然地在 AER 中同時利用音頻和視覺信息 …… 整個管道可以在神經網路中完成。”

該團隊的 AI 系統的一部分包括音頻處理算法,通過語音頻譜圖 ( 聲音頻率隨時間變化的視覺展示 ) 作為輸入,幫助整個 AI 模型回歸與情感最相關的區域。第二個組件通過兩個計算層運行人臉視頻幀:一個基本的人臉檢測算法和三個 ” 最先進的 ” 人臉識別網路 ” 微調 “,使它們與 ” 情緒相關 “。這是一個比起聽起來更棘手的事情 – 正如論文的作者所指出的,並非所有的框架都對情緒狀態有同等作用,因此他們不得不實施一種能夠突顯重要框架的注意機制。

在從所有四種臉部識別算法中提取特徵 ( 即,可測量的特徵 ) 之後,它們與語音特徵融合以 ” 深度捕捉 ” 它們之間的關聯,用於最終的情緒預測。這是最後一步。

為了 ” 教會 ” 人工智能模型對情緒進行分類,該團隊輸入了 AFEW8.0 提供的 653 視頻和相應音頻片段。AFEW8.0 是一個電影和電視節目數據庫,用於 EmotiW2018 的音視頻子挑戰。它堅持自己的觀點,在 383 個樣本的驗證集中,成功地從 7 個選項中對情緒進行分類—— ” 憤怒 “、” 厭惡 “、” 恐懼 “、” 快樂 “、” 中立 “、” 悲傷 ” 和 ” 驚訝 ” ——準確率約為 62.48%。此外,研究人員證明其視頻幀分析受音頻信號的影響 ; 換句話說,人工智能系統在進行預測時考慮了語音和臉部表情之間的關係。

也就是說,當模型與 ” 厭惡 “、” 驚訝 ” 和其他 ” 弱 ” 表情或容易與其他情緒混淆的情緒作鬥爭時,模型傾向於表現出 ” 明顯 ” 特徵的情緒,如 ” 憤怒 “、” 快樂 ” 和 ” 中立 “。盡管如此,它的性能幾乎與之前使用五種視覺模型和兩種音頻模型的方法相當。

” 與最先進的方法相比,” 研究人員寫道,” [ 我們 ] 提出的方法可以用單一模型獲得可比較的結果,在多個模型上取得新的里程碑。”

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!