誤把光頭當足球 AI視力差不僅僅因為訓練少

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

編者按

近幾年,人工智慧發展迅猛,應用領域不斷拓展。但在各領域大展身手的同時,AI「翻車」案例也頻上熱搜,基於此,本版今開設「AI·成長的煩惱」欄目,聚焦AI「翻車」的那些事兒,剖析現象、分析原因、探討解決之道,同時期待它的成長。

球賽結束後,球迷要求裁判戴帽子或假髮,大概是史無前例了。

10月底,蘇格蘭球迷經歷了一場「難忘」的足球賽。在因弗內斯對陣艾爾聯的蘇格蘭足球冠軍聯賽上,無論球員傳球還是帶球進攻,場邊的AI照相機都視而不見,反而不離不棄跟著一名邊裁,時不時來張「C位」特寫。原來,AI照相機誤將這名裁判的光頭識別成足球,所以瘋狂追了一整場。

在家觀看這場90分鐘比賽的球迷,大部分時間不是看球,而是在圍觀光頭。不少網友打趣:這場球賽實打實地「看了一個寂寞」。

為什麼AI照相機會把光頭看成了足球?為避免AI犯類似失誤,我們需要做些什麼?出現「翻車」事件,能就此認為AI「弱爆」了嗎?

來自光頭裁判的無意識「挑釁」

從直接參與體育賽事到記錄運動員表現,再到直播比賽現場、分析運動員健康狀況,AI正成為體育界的寵兒。幾個月前,巴塞隆納足球俱樂部(巴薩)還攜手視訊技術公司Pixellot,打造了人工智慧教練解決方案。

沒想到,在體育界一路高歌猛進的AI,這次出人意料地遭遇了一名光頭邊裁無意識的「挑釁」。由於這名邊裁光頭太亮,加之陽光照射,AI照相機根本分不清哪個是球,哪個是頭。此前,因弗內斯隊表示,他們使用的AI跟蹤技術,可以將直播畫面清晰地傳輸到每一位季票購買者家中,讓因新冠肺炎疫情而無法前往主場的球迷不錯過任何一場比賽。

據悉,此次比賽直播使用的照相機正是與巴薩合作的Pixellot所提供的多照相機系統。該系統由英偉達的圖形處理器(NVIDIA GPU)提供動力支持,捕獲的視訊分辨率可達8K。這些照相機可以安裝在固定位置,無需照相機操作員進行操控。為捕獲關鍵時刻畫面,Pixellot收集了數十萬個小時的體育視訊,用於在本地工作站的NVIDIA GPU上訓練其算法。

擁有海量的可用數據,使用了深度學習算法,加上高性能GPU計算加持,具備推進AI前行的三大動力,Pixellot的這款AI照相機為何「翻車」呢?

活動結束後,相幹俱樂部和制造照相頭的技術公司進行了反思,問題似乎非常清楚:足球的大小、形狀與人的腦袋差不多,加上陽光直射,讓AI照相頭陷入了「迷茫」。因弗內斯隊回應稱已知曉了問題,並且將為下一場比賽進行改進,給觀眾帶來更好的體驗,希望這種情況不會再發生。

Pixellot公司也表示解決這個問題並不難。現有的目標檢測與追蹤技術已比較成熟,Pixellot在設計階段沒考慮到光頭的影響,需要收集一些足球和光頭的數據對算法進行微調,以排除來自光頭的干擾。

有技術人員表示,在訓練直播球賽的AI照相機時,需要的不僅「這是球」數據集,還需要一個「這不是球」數據集。光頭、足夠亮的白鞋、燈光、比賽場地旁訓練場上的球、球員用來熱身的球,都是訓練AI時需要考慮的干擾因素。

AI「視力差」才是常態

盡管可以通過加大數據「投喂量」,加強訓練和改進算法改善AI照相機性能,但有專業人士認為,隨著AI應用場景逐步拓展,此類「翻車」事件還將長期存在。

「AI‘翻車’是常態,不‘翻車’才奇怪。」北京大學資訊科學技術學院教授、北京智源人工智慧研究院院長黃鐵軍接受科技日報記者採訪時直言。

黃鐵軍認為,表面上看,這次AI照相機出現失誤可能是因為前期訓練不夠,但最主要的原因是現在的計算機識別系統還只是用特定的數據訓練出來的,例如在上述例子中,使用大量足球視訊訓練的神經網路在識別足球方面已超越人類,但卻忽視了這個網路對光頭更敏感,對

沒見過的對象胡亂識別或「視而不見」,這種問題普遍存在。

機器視覺就是將視覺感知賦予機器,使機器具有和生物視覺系統類似的場景感知能力,涉及到光學成像、圖像處理、分析與識別、執行等多個組成部分。

「把照相機作為AI的‘眼睛’,在現實場景中,讓AI像人眼一樣去識別足球和光頭,還有很長的路要走。」黃鐵軍表示。

什麼時候能走完這條路,甚至實現AI之眼超越人眼?

這取決於機器視覺何時彌合與生物視覺的差距。「顱骨之中的大腦通過三百多萬根神經纖維實時感知外部世界,其中每隻眼睛後面就有一百多萬根。」黃鐵軍表示,「發展至今天的機器視覺,與花費億萬年進化而來的生物視覺系統相比,還是小巫見大巫。」

人眼適應性很強,能在龐雜及變化的環境中識別目標,具有高級智能,能運用邏輯分析、推理能力去識別變化中的目標,並總結規律。而反觀機器視覺,雖然可以利用人工智慧神經網路技術,但不能很好識別變化的目標,受硬件條件制約,目前一般的圖像采集系統色彩分辨能力較差。

「與生物視覺神經網路相比,人工智慧的視覺神經網路在結構、規模上相距甚遠,所以功能也要差很多。」黃鐵軍表示,「在現實應用中,機器視覺‘翻車’不是偶然事件,把光頭識別成足球,只是個案,類似問題其實大量存在。」

黃鐵軍說:「這一次,技術提供方可以把光頭誤認為足球的漏洞補上,但還有更多的漏洞,用對抗性圖片訓練騙過人臉識別系統只是揭開機器視覺不足的冰山一角。」

不同技術路線在賽跑

「基於深度學習的機器視覺在圖像識別等方面取得重大進展,但並未真正解決感知問題。」黃鐵軍認為,深度學習遠未抓住人類視覺系統的龐雜性。

深度學習建立在圖像和視訊大數據的訓練基礎上,和主動感知動態世界的生物視覺相距甚遠,而且仍未脫離算力需求。例如,如果把視訊幀率從30提高到3萬,深度學習的算力就需要提高1000倍。

而生物神經網路是脈沖神經網路,更適合完成視覺資訊處理。黃鐵軍認為,借鏡生物視覺系統的神經網路結構和資訊加工機理,建立一套新的類腦視覺資訊處理理論和技術,是重啟機器視覺的希望所在。

專家表示,發展人工機器視覺,目前有兩條主要技術路線,一是通過收集更多數據、增加數據量,加大訓練力度,構造出強大的智能系統;二是模仿生物神經系統,照葫蘆畫瓢,將生物神經系統的結構甚至機理搞清楚,以此為基礎發展未來智能。

黃鐵軍認為,第二條路徑要比第一條路徑更有效。「短時間來看,第一條更易取得成果。但長遠來看,從生物神經網路入手更為直接,實現目標也更有把握。」

目前,AI學界多數支持第一條路徑,即通過「大數據+大算力」的方式,發展機器視覺在內的人工智慧。黃鐵軍踏上少數人走的那條路,是因為他堅信生物視覺神經網路有巨大潛能可以挖掘。「生物大腦是億萬年進化的產物,是最好的先驗結構。強大智能必須依托龐雜結構,站在進化肩膀上,看似艱難,實則最快。」

「計算機科學之父」圖靈早就表達過對生物大腦的推崇。1943年初,香農提議,可以把「文化的東西」灌輸給電子大腦,圖靈有一次在大庭廣眾之下反駁:「不,我對建造一顆強大的大腦不感興趣,我想要的不過是一顆尋常的大腦,跟美國電報電話公司董事長的腦袋瓜差不多即可。」

發展機器視覺,抑或是人工智慧,是重起爐灶,是模仿生物神經網路,還是另有他法?暫無定論。在不同的賽道上,人工智慧都在加速前進。

盡管AI「翻車」案例不在少數,比如GoogleAI眼部疾病診斷系統的實用性在泰國大打折扣,騰訊AI翻譯在2018年博鰲論壇上鬧出笑話。但AI時代正加速到來,勢不可擋。

「必須承認,AI確實解決了不少現實問題,它將逐步替代人的部分功能。但不能過分誇大,它距離我們想像中的智能還有很多不足,還需要更多突破。」黃鐵軍說,要保持開放的思維,跨越「實驗模擬」與「真實世界」之間的鴻溝,AI技術發展任重而道遠。 (實習記者 代小佩)

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!