CNCC2018 分論壇(12) | 教計算機學會「認人」,靠的是什麼?

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

10月25日—27日,中國規格最高、規模最大的計算領域盛會——2018中國計算機大會(CNCC2018)在杭州舉辦。此次CNCC不僅大咖雲集(近400位國內外計算機領域知名專家、企業家到會演講),而且成色極佳(15個特邀報告、3個大會論壇,60個技術論壇,20場特色活動)。

作為官方授權的合作自媒體,讀芯術根據記者現場采寫報導,將把主論壇和多個分論壇的精彩內容奉上,歡迎各位圍觀!這些文章均是從上萬字的現場手抄記錄中節選出來的精華,100%乾貨濃縮,專供參會走神、打瞌睡、會議浮躁症同學飲用!

全文共2765字,預計學習時長5分鐘

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

計算機視覺是一項熱門的計算機技術研究領域。近年來,隨著深度學習、人臉識別、物體識別、圖像分割和三維重建等技術的快速發展,算法性能大幅度提升,計算機視覺在視頻分析、視頻監控、視覺檢索和創作等領域擁有廣大的應用前景,但是在實際的行業場景中還有很多挑戰有待解決。

現在就跟隨芯君一起,看看計算機視覺行業的多名專家是如何看待這些挑戰與新的應用的。

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

戴宇榮:讓計算機「看」短視頻

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

人物小貼士:

戴宇榮,騰訊優圖實驗室研發總監,香港科技大學計算機科學與工程學系的客席副教授。2009年於新加坡國立大學博士畢業。主要從事「深度學習」算法與計算機視覺,圖像與視頻理解等相關研發工作。

隨著深度學習技術快速發展,計算機視覺在圖像和視頻理解有了很大的進步。戴宇榮以微視短視頻識別場景作為案例,向我們生動形象地展示了如何在現實場景中解決各種實際問題。

「對於圖像視頻的理解方式,是我們現在競爭的有力手段。大家可以明顯地看到,現在短視頻軟件可謂是眾生雲集。」據非正式統計,短視頻App在安卓商店上市已有657個了。「每分鐘網路上新上傳的視頻高達400小時,面對如此龐大的工作量,人工標註視頻內容顯然不可能解決問題,為了更好地提高用戶在使用App時的舒適感,使用AI視覺處理技術理解視頻內容是必然趨勢。」由此,戴宇榮從場景人臉和人體理解、行為理解、內容審核和圖像處理器四個方面詳細地介紹了騰訊優圖實驗室目前所掌握的全面圖像視頻理解技術。

戴宇榮表示,現在運用AI視覺處理技術已經可以做到微視分類標籤自動生成了,這種技術不僅有效地減少了人工審核的成本,更為重要的是它的準確率已經高達96%。「我們主要是運用大數據和深入學習,搜集的標籤高達千類以上,並且更新速度很快,經常針對時下流行的短視頻數據進行優化。」另外,微視善於利用明星效應,到目前為止,已經可以識別來自八大領域的6152位明星了。

雖然目前AI視覺處理技術已經取得了不錯的成果,可是這種技術還不夠完善。舉個例子,優圖標籤庫有很多標籤,所以可能導致AI對某些視頻的標籤定義模糊。比如一個還沒學會走路的小孩子,我們應該給他貼上嬰兒標籤還是幼兒標籤呢?針對這個問題,戴宇榮說:「我們要先從目標檢測開始,即知道這里面有什麼,然後再分析是不是人類,他在哪兒,他在幹什麼。根據這個模型方案,我們基本可以保證標籤的分類正確率。」總之,在全庫視頻採用AI標註後,節省人力達90%以上,節省人力超過1000人。

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

危夷晨:雲、端、芯上的視覺計算

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

人物小貼士:

危夷晨,計算機視覺領域的資深專家,發表頂會和期刊論文40餘篇。Google scholar論文引用5000餘次, h-index 為28。擁有10餘項美國專利。科研成果被轉化到多個微軟產品,包括Xbox Kinect,Windows Hello,Bing, Office, Hololens,Microsoft Cognitive Service,微軟小冰等。

「視覺的識別已經有很悠久的歷史,直到今天,我們才看到它可以初步運行。」人們很早期的想法是把圖片分成一個一個的part,這是一個很符合人的認知習慣的想法,人們也通過算法和機器學習,來找出part的模式。

危夷晨表示,「自從深度神經網路提出後,人們的認知開始發生改變,核心思想就是通過研究使梯度傳值的時候不至於發生梯度丟失,從而讓深度神經網路可以很順利地進行。」越來越大和越來越深的神經網路不斷降低著識別錯誤率,甚至在不少語音和圖像識別上超過了人類。由此也出現了新的問題和挑戰,在很多實際視覺場景應用中,我們需要通過不同的算法、不同的平台來達到識別成功的最大化。

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

路香菊:推薦視頻的「點睛之筆」

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

人物小貼士:

路香菊,愛奇藝高級研究員,專注人臉識別、身份識別和視頻中多模態人物身份行為姿態識別(人物RE-ID)。現組織創辦「愛奇藝多模態視頻人物識別挑戰賽」,開放全球首個影視視頻人物數據庫IQIYI-VID.

「人物識別是一項熱門的計算機技術研究領域。近年來隨著技術的發展,人物識別精度大幅度提升,但是在各種干擾條件下(如多姿態、多表情和角色化妝等),人物識別技術仍然有很大的挑戰。」路香菊向我們展示了AI視頻在智能播放和生產方向的應用。「運用AI人物識別,現在愛奇藝可以自動截取視頻中出現的重要片段作為動態封面圖,同時還可以根據彈幕,在此處自動生成人物精彩片段,生成帶彈幕文字的圖片。」可以說這一技術對於推薦視頻內容起到了畫龍點睛的作用。

「當然,AI人物識別仍被很多問題所限制。比如角度問題,是側拍還是遮擋,有沒有化妝、整容等等。」路香菊表示,單單從一張圖片是無法確定一個人的多重身份的,例如周恩來的扮演者,AI識別出來的應該是周恩來還是演員自己呢?基於在研究過程中出現的種種問題,同時也為了推動人物識別在視頻智能分析產業中的廣泛應用,便產生了愛奇藝多模態(例如:人臉、服飾、台詞等)人物視頻識別挑戰賽。「這個比賽共有397支隊伍參加,通過這些隊伍做的算法,我們建立了規模最大的人物庫,這是首個多模態真實場景視頻人物事例。

對於AI人物識別的未來,路香菊提出了「業務+算法+數據三者形成閉環「的模型,她表示,多模態還要繼續訓練、不斷融合,通過深入學習逐漸做到理解更複雜的語義的目標。還要多采集數據,發掘不同的數據源,在深入挖掘這些數據的同時,注意時效性,做到更快速更有效。

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

黃暢:人工智能算法與處理器聯合設計的新思路

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

人物小貼士:

黃暢,地平線聯合創始人兼算法副總裁。長期從事計算機視覺、機器學習、模式識別和信息檢索等方面的研究,擁有多項國際專利。

人工智能技術在過去的十年間得到了快速的發展。算法層面如此,承載相關的處理器也是。黃暢詳細地介紹了Memory Hierarchy,「用傳統的計算機來控制整個計算的流水線,通常用的是一個很硬的方法去做,看上去流水線的效率很高,做得很細,但是壞處是不靈活,一旦出現跳轉的話,就會迅速重置刷新。但如果我們把這個硬流水變成軟件化,進行重組和成串,那效率就很高,而且能做到在設置處理器的時候都沒想到的計算。」

從最初用於通用計算的CPU,到自圖形渲染髮展而來用於科學計算的GPGPU,如今的AI處理器已經進入到基於FPGA和ASIC的DSA架構階段。而DSA的優點在於,可以為特定的一類應用做架構優化從而做到更好的能效比。相對於通用(general purpose)處理器,DSA設計時需要考慮專用領域的特殊需求,也需要設計者能對該領域有深入的理解。伴隨著DSA的巨大優勢,DSA設計也將會成為處理器架構的新趨勢。

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

華先勝:人工智能,是峻山也是險峰

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

人物小貼士:

華先勝,阿里巴巴集團DistingguishedEngineer,阿里巴巴達摩院機器智能實驗室副主任,城市大腦人工智能技術負責人,IEEE Fellow,ACM傑出科學家,國家千人計劃特聘專家。

人工智能發展迅速,從2000年—2016年,在全世界有8832家人工智能公司,到2017年,研究人工智能的公司數量增加了百分之十四。由此可見,人工智能遍布各處,勢不可擋。但是「Infinite beauty is on dangerous mountain peaks. Where high risks ofrollover lie in as well. 「(無限風光在險峰,確實容易翻車處)。

「Person Re-ID有很多人在做,但是在實驗室中跟真實場景下還是有區別的。」華先勝舉例說,如果在實驗室識別一個不變的人,準確率已經接近完美了,但是放到現實中來看,他可能會換衣服,換髮型,那這個時候他還能不能找到?所以說這還是一個很大的挑戰。

現在阿里已經將AI視覺技術主要運用到了四個領域——智能搜尋、視覺生成和AI視覺在醫療、工業方面的運用。在智能搜尋領域,圖片搜尋已經研究了幾十年,可是為什麼這個技術還沒有一個真實的系統?其實主要是取決於是否剛需,如果有剛需,即使你的系統做的不是那麼好,也會在這個驅使下最終完善。所以電商的通用搜尋是一種剛需。

最突出的亮點還要數城市大腦了。華先勝表示,「其實我們當時做城市大腦的時候,還是有很多挑戰的。第一,要處理大量的數據,你是不是能堅持下來;第二,做這個到底能帶來什麼價值;第三,各種監控設備有什麼差別。」所以說,城市大腦不是一家公司就能完成的,它是一個很龐大的項目。究其根本,主要分為認知、決策和優化、搜尋、預測四步。

我們有很多機會去讓AI做我們力所能及的事情,而我們要做的就是去讓AI做超出人力所能及的事情。

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

座談答疑

Q:現在3D列印等技術都很成熟,把一個人變成另一個人已經成為現實,也就是我們平常說的「假臉」,遇到這種情況,視覺AI可以防禦嗎?

A:讓AI去識別一個人是不是「假臉」,可以提前收集攻擊方的人臉數據來預防。但是其實造這種東西成本很高而且技術要求也很高,會耗費巨大的精力和財力,如果攻擊方願意斥資去製造這種東西的話,老實說,這取決於他造假的逼真程度。我們傳統的人臉識別用的是3D虹膜一類的技術,如果「假臉」真到這種程度,那是很難防禦的。

Q:什麼樣的人才適合去創業?

A:創業是一個很自然的過程。首先你必須有激情,有去這件事情的衝動,並且可以持續保持這種高漲的情緒;其次,還要有足夠的能力去創業,這就涉及到你的專業知識是否可以支撐你去創業。當然,一支優秀的團隊也是必要條件,大家一起討論,進行思維的碰撞,會使創業事半功倍。

Q:目前國內和國外的視覺AI有什麼差別嗎?

A:在視覺技術方面,其實國內AI創業的中小企業發展程度總體來說是要比國外高不少的,這是因為國內的市場和需求確實是巨大的。關於技術層次方面,計算機視覺經過這些年的發展,國內外的水平還是差不多的。

Q:如何看待當下這股AI熱潮?

A:有些東西只存在在實驗室里,只存在在PPT里,但是有些東西是確實是可以做到的。不過,並不是所有人都要選擇這個東西,你可以「守株待兔」,你也可以深入掌握一門技術,反正以後總有一天會被用到。阿里有一句話:因為相信,所以看見。因為你相信,所以他們慢慢變成現實了。但是,盲目的相信也是不可取的。

CNCC2018 分論壇(12) | 教計算機學會“認人”,靠的是什麼?

留言 點讚 發個朋友圈

我們一起探討AI落地的最後一公里

實習小記者:郭一瀾

如需轉載,請後台留言,遵守轉載規範

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!