尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
機器之心報導
作者:微胖
垃圾難分、智能製造火熱、Pepper 機器人做你的英語私教、AutoNLP 全自動建模…….WAIC 2019 黑客馬拉松四十八小時鏖戰,亮點不斷。
8 月 29 日上午,WAIC 黑客馬拉松與世界人工智能大會開幕式同時啟動,在張江人工智能島火熱開賽。作為世界人工智能大會期間唯一的一場黑客松,該大賽由機器之心承辦,張江集團協辦,阿里雲、微軟Azure提供雲計算資源支持,張江創業工坊、微軟人工智能和物聯網實驗室提供場地支持。
此次黑客松設計了四大賽題,主要聚焦 AI 技術與應用的熱點問題,分別由微眾銀行、軟銀機器人、第四范式以及微軟 AIoT 實驗室進行命題,吸引了來自世界多個國家近百餘支團隊、數百名開發者報名參賽。
在決賽階段,48 支團隊近 200 位開發者線下展開了四十八小時的鏖戰。最終,十三支隊伍分列各賽題前三,取得勝利。
微眾智能垃圾分類:識別率不理想,場景更難找
和其他三大賽道比起來,這個賽道的團隊成員最為年輕。
盡管如此,這一命題還是比我們想像中更有現實意義。據在場評委介紹,在探索智能技術在垃圾分類的應用上,上海做的遠比外界認為的多。目前,從前端的居民生活垃圾分類,到小區垃圾裝運,再到垃圾廠分選處理,計算機視覺被應用到了每個環節。
作為出題方的微眾銀行也進行了相關實踐。他們曾經花了兩周左右的時間做了一款智能垃圾識別的小程序。
垃圾分類範圍非常廣泛,包括生活垃圾、建築垃圾(比如居民裝修產生的垃圾)、電子垃圾、醫療垃圾等。本次挑戰賽聚焦生活垃圾,利用深度學習圖像分類模型的構建,做到(上海)四大類別垃圾圖片的精準識別,包括濕垃圾、幹垃圾、有害垃圾和可回收垃圾。
為此,微眾銀行發布了 20000 張圖片作為訓練集、9000 張圖片作為測試集(參賽者不可見),考驗參賽選手模型的建構、抗干擾能力以及遷移能力。
一共有九支隊伍參加了此賽題的角逐。最終,skype 脫穎而出,拔得頭籌。
skype 答辯中
skype 首先捋順了識別邏輯。在她看來,模型構建的過程和人類認知過程差不多:通常,人類一眼就能識別自己扔的是什麼垃圾,比如蘋果、電池、筷子、紙盒。然後,再根據相關提示進一步分類到合適的垃圾桶,比如幹垃圾或者有害垃圾。
微眾銀行提供的數據也涉及兩級目標分類:一級目標的四大類和二級目標的 400 多個種類,覆蓋了主要的生活垃圾。
skype 認為,可以將任務理解為一個二級標籤空間上的分類以及標籤映射問題。隨後,她介紹了自己的分類器設計、特徵提取模型以及推斷策略。和其他選手不同的是,在整個比賽過程中,她並沒有爬取額外的數據。
從最終結果來看,驗證集結果明顯好於測試集。其中,針對有害垃圾的識別效果較差;可回收和幹垃圾識別效果最理想,可以達到 80% 以上。
分析其中原因,她認為有一點在於訓練集與測試集差別很大。如果要提升效果,還要在數據搜集方面多下工夫,更加切合實際情況。
評委也針對她的算法設計提出了自己的看法:不要為了算法而算法,可以考慮將常識添加到分類設計中。
評委進一步解釋道,上海將垃圾分為四大類別,其實並沒有大多數人想的那麼深奧,本質上也符合生活常識:原則上,人吃的東西,剩下來就是濕垃圾;可回收垃圾無非就是玻璃、塑膠、金屬、紙張和衣服;至於幹垃圾,就是一個兜底的類別。
另一位評委賽後告訴機器之心,他們發現一些參賽選手在算法處理上有一些很有意思的地方,這位 skype 選手的處理方式比較特別,讓她印象比較深刻。事實上,在點評過程中,評委也曾就推理策略與選手有過幾輪交流。
第二名「分不清什麼垃圾」算是本賽道最有故事的選手:垃圾分類本該是 CV 選手的天下,然而這位背景為 NLP 的同學卻獨自完成了比賽,且獲得了第二名的好成績。
作為一名 NLP 選手,他看到圖片後的第一反應是如何用 image caption 將圖像中的語義、物體轉化為文本,然後再進行垃圾分類。NLP 背景讓他沒有完全依賴外部形態,而是考慮到了語義特徵。他最終選擇了 Resnet 50 進行訓練。
「分不清什麼垃圾」答辯中
第三名是「sharing happiness」。第一次訓練後,和其他獲獎選手一樣,他的圖像分類結果在測試集上的效果出現了大幅下滑,僅有 49%。他認為,除了模型,數據本身也有很大問題,比如爬取圖和實際垃圾差距比較大。
接下來,選手對不合理數據進行了人工清理,同時為二級類別每個類型增加了 120 張圖片並加入到原始數據,然後進行了二次訓練。結果,算法在測試集上的準確率提升了 30% 多,大概為 79%。因為將主要工作都集中在了數據工作上,選手認為,最終結果的提升也與此關係重大。
需要說明的是,79% 是四類垃圾分類效果的平均值。就具體類別來說,和其他選手遇到的情況一樣,有害垃圾識別率最低,即便是從網路爬取一些圖片後,效果仍不理想;而效果最好的是幹垃圾。
評委對幹垃圾識別率高的這一結果多少有些意外,在他看來,幹垃圾作為一個兜底分類,包含垃圾成分會比較多,也比較複雜。理論上,識別起來應該更加困難。或許,這一結果與參賽者的樣本有關。
sharing happiness 團隊答辯
從應用場景上來看,大家幾乎都設想到了手機、電腦等前端甚至後端工廠的應用可能性。
筆者非常讚同第三名獲得者的一個觀點:最終,特別是在後端,往往需要不同技術手段的聯合,包括光學技術、機器人甚至其他物理方法。事實上,目前搭載了 CV 的機器人,也僅僅在後端工廠的最終質檢環節發揮作用(甚至可以說可有可無)。沒有被委以重任的一個很大阻礙,仍然是處理速度。
縱觀整個比賽過程,我們可以看到一些共性,比如 ResNet 成為大多數團隊的首選,都非常強調數據集對識別效果的重要性。
針對幾乎都在有害垃圾識別上翻車的現象,評委告訴機器之心,選手普遍反映數據集存在一些挑戰,比如數據量不夠。但數據也與算法要服務的具體場景有關係,比如,如果知道這個算法所要服務的場景的具體情況,然後有的放矢地去收集相關數據,算法效果會有改善。
在評委看來,最棘手的問題其實不是算法,而是找到一個非常合適的落地場景。相對而言,在後端的 CV 識別可能更能滿足比較剛性的需求。
傳說中的智能分類垃圾桶
評委的一番話,讓我想起位於張江人工智能島大門一側的那台巨型智能垃圾箱,據廠家介紹,這個垃圾箱價值好幾千。
該垃圾箱配備感應器,當我將易拉罐靠近一扇關閉的小窗時,系統會感應到進而打開小窗。易拉罐扔進去後,小窗立刻關閉。不一會兒,就可以聽見系統識別出這是可回收垃圾,轟隆一聲,本來水平的鐵板向可回收垃圾一側傾斜,易拉罐掉了進去。
如果我扔進去的是一袋未加分類的垃圾呢?機器之心曾在 WAIC2019 現場詢問過該垃圾箱製造廠商,對方說,系統會直接默認為不可回收垃圾。
雖說系統可以識別 97% 的可回收垃圾,可當你觀摩過黑客松現場就會發現,這其實是最容易做好的一類識別:
可回收垃圾無非就是那幾樣,通常都是有形的,效果當然好;相反,如果是濕垃圾,因為早已不再是有形的(蘋果變成了蘋果皮),識別起來就更困難了。
據了解,目前這台智能垃圾系統還無法進一步區分玻璃瓶和易拉罐(僅能識別這是不是一個瓶子)。至於能否像國外網紅智能垃圾桶 Oscar 那樣識別出瓶子包裝上的可口可樂等 logo,廠家告訴我們,這也是他們努力的方向,但目前做到的識別率僅 30% 多。
評委告訴我們,識別更多的商品包裝信息對數據集要求就更高,目前簡單的一級、二級分類目標就無法滿足需求,數據規模也要變得更龐大,這也意味著更加複雜的工作。筆者不由一驚,如此一來,智能垃圾桶的價格豈不是要上萬了?!
微軟智能車間:實力強勁,亮點不斷
在微軟智能車間挑戰賽中,出題方主要聚焦兩大問題:一方面關注智能盤庫(空間建模、貨物識別、標籤識別等)和 AGV(在室內移動狀態下的目標識別和測距能力,室內空間行車路線學習和穩定行駛能力。);另一方面關注基於 HoloLens 的一線員工賦能。
與智能垃圾分類賽道的組隊不同,參加微軟智能車間挑戰的不少團隊都是久經沙場的資深從業者,獲獎的團隊也是行業公司。智能車間也是四大賽道中唯一誕生了兩個第三名的賽道。所有參賽團隊都在微軟提供的 Azure 雲服務平台上完成智能車間賽題。
專注 AI 物流創新的上汽安吉拔得頭籌。
上汽安吉智能充分利用了 Azure 雲端服務能力,做到自定制深度學習模型算法。目前的倉庫盤點工作存在很多問題,比如貨架很高,通常 6 到 8 米,工人要用叉車將庫存取出,放到一層,用掃描槍進行掃描,有的甚至還用紙本記錄。整個工作不僅非常耗費人工,而且還要停止一周的工作。
上汽安吉提出的方案是:在叉車上安裝錄影頭和補光設備,行駛過程中錄下視頻,傳給本地服務器,進行視頻圖像識別和分析,得到貨物數量和種類。
在整個技術做到過程中,難點也是很多的。比如,環境很複雜;采集圖像不容易;網路環境也很差,很難實時發送數據;移動采集數據實際上很多用不了;光線會大大影響識別效率。
不過,據介紹,采納他們的方案後,盤點精度達到了 99%,耗時下降了 10 倍,一萬平的倉庫一台機器 4 個小時即可完成工作。
上汽安吉答辯中
另外,上汽安吉也提供了一套 AGV 移動精準定位、使用微軟 Azure 高性能 GPU 算力資源及 Kinect 設備完成的方案。
傳統方案不僅依賴在地面上添加輔助標誌,還存在定位不準的問題。如何精準測量與貨架的距離,並精準地將 AGV 移到貨架下面,將貨取走,是他們試圖解決的問題。
與傳統方案相比,他們使用了前置 Kinect 相機的方案來測距。使用透視變換算法來解決 AGV 相機視角較低引起的測距誤差。不過,在關鍵位置,仍然需要增加標誌物保持定位精度,通過動態補償算法解決移動過程抖動導致的定位不準問題。解決方案最後做到的定位精度可達 5 毫米左右。
上汽安吉
獲得第二名的是品覽團隊的智能貨架巡檢方案。超市貨架通常需要補貨,存在商品陳列不飽滿、商品品牌未露出等問題,這些需要遵守的排放姿勢直接關係到商品的出售可能性,比如,擺的足夠好、露出品牌、在客戶視線範圍內的商品更容易被買走。
傳統的巡檢都是靠人,不僅低效而且容易出現遺漏和工作不到位,機器人工作不僅精確,沒有疏漏,而且每天可以做多次盤點。
品覽答辯中
品覽設計的這款智能盤庫機器人,底部有一個雷射雷達用來地圖建模,上面和下面還有兩個錄影頭用來避障。這些硬件設備可以保障機器人做到場地的自在遊走。照片采集器位於這些錄影頭的卡槽位置。走過貨架,錄影頭就會將瀏覽到的商品都拍下來。
另外,針對地下的超市,他們做了 5G 通訊模塊,利於拍攝視頻上傳和下載。針對貨架通常會比較長的情況,他們還做了圖像拼接。通過針對搜集的數據在本地邊緣節點分析同時傳至 Azure 雲端數據湖,即可做到智能巡檢。據介紹,這套設備可以顯著提升商品陳列合規性。
針對新品類的訓練問題,他們會將這部分歸為其他,上傳到Azure 雲端數據湖進行比對,然後添加標籤,使用Azure Machine Learning Services,進入 SKU 模塊里再訓練。
目前,這套系統的檢出率可以達到 99%,甚至 100%,識別率在 95%-97%。其中難點之一在於,光照會影響到識別,比如果汁之類的識別。另外,由於倉庫的光線以及貨物擺放通常凹凸不一,這對錄影頭也是一個挑戰,因為焦距變化,錄影頭也要能夠根據實際情況「能伸能屈。」
品覽團隊的品識 AI 中台
第三名由北光科技(天津)和摩聯科技共同獲得。其中,Galatea(北光科技)將有關 AGV 的考題解讀為用戶不接受鋪軌;實際場景中,會經常碰到人和電線、貨架物品等障礙物;場地變化大,地圖不固定。
他們的解決方案是使用 Kinect SDK 的 3D 點雲做可行駛區域檢測、路徑規劃,以及避障提示;然後用Azure 高性能 GPU 算力資源運行機器學習做積水識別與二維碼庫存盤貨。
團隊談到,他們偶然發現 Kinect SDK 雲圖將地上的電線識別得特別清楚,因此,他們意識到這對於識別電線很有用,將 Kinect 與他們以前做過的機器人結合起來。
其中的技術難點不少,包括多 ROS 系統通訊、基於神經網路的障礙物識別、基於三維點雲與神經網路預測結果的建圖與路徑規劃以及頭部雲台與 IMU。
在展示視頻中,我們可以發現機器人行走時會自動避開桌子,而不是鑽到桌子底下。他們的團隊告訴機器之心,其主要貢獻就是將那些地面輔助導航的「地圖」(比如二維碼)抹去了。沒有這些地圖,小車仍然可以精確行進。他們將自己的機器人稱為語義控制的機器人。
團隊表示,機器人是 2017 年做的,但是嘗試與 Azure Kinect DK 結合還是第一次。與之前僅用錄影頭的方案不同,這次他們去掉了過濾算法。
00:48
Galatea(北光科技)的 AGV 行駛中
軟銀 Pepper 機器人:來玩「石頭剪刀布」吧
第一次和十來台 Pepper 機器人共處一室,感覺還真有些特別。Pepper 一雙萌萌的大眼睛盯著你,視線還能跟隨你的移動,有時,還真的有點心跳的感覺。
從 2017 年進入中國到現在,軟銀機器人產品廣泛應用於商業服務場景及教育市場,在全球有超過 5000 家企業使用 Pepper 機器人,為包括汽車 4S 店、機場以及電網公司等企業提供專業的客戶服務支持。
在教育市場,已有超過 3000 所科研院校使用軟銀 Pepper 及 NAO 機器人進行科研及競賽項目研究。軟銀機器人在中國攜手浙江政府打造 AI 未來英才培育計劃,2000 台 Pepper 進校園,通過編程學習讓學生進一步了解、學習人形機器人,和老師共同探討未來機器人的應用想法與創意。
SUDO 答辯中
本次黑客松的冠軍即是面向教育主題,來自三星通信技術有限公司的 SUDO 戰隊,將目光投向英語早教市場,為 4 到 12 歲小孩提供私人外教服務。
選手表演了這樣一個場景:5 歲的小朋友父母工作在外,小朋友在家里玩得很開心,忘記學習。
Pepper 會提示小朋友時間表到了,該學習了。還能識別小男孩手中的繪本書,並為之朗讀。讀完後,會針對相關內容進行趣味小測試,並與小朋友交流。
在學習過程中,Pepper 機器人會用它獨特的肢體語言來吸引小朋友的注意力。還會對單詞發音是否準確,給出評估。除此之外,通過觀察小朋友的頭部運動情況,Pepper 機器人還可以識別小朋友的注意力情況。如果小朋友太調皮,家長可通過 Pepper 機器人以遠程視頻的方式與小朋友通話。
評委認為,此項展示將 Pepper 人形機器人的交互優勢體現得淋漓盡致,特別是肢體語言方面得到了很好的發揮,增加了交互的趣味性。
除了 SUDO,其他一些團隊也瞄準了英語早教的應用場景。比如,快樂英語學習,因地制宜的口語學習等等。可見無論是評委還是參賽選手對於機器人教育方向均表示十分認可。
同時評委表示,目前優秀的機器人價格高昂,期待在未來能夠有更多的好應用、好創意來豐富機器人體驗,讓機器人早日走進千家萬戶。
世界人工智能大會現場,很多人都感受到了空調低溫帶來的「刺骨」。筆者在世博中心凍了兩天,一直在想,是否有一種可以智能調節空調溫度的方案?
結果,第二名獲得者上實龍創團隊給我們帶來了答案。他們開發 Pepper 機器人作為一個移動的邊緣計算節點,負責智慧空間的管理。
上實龍創團隊答辯中
做過一些酒店、社區等智慧空間管理項目後,他們發現傳統智慧空間解決方案的一些痛點。比如前端交互方式(App)就是一個問題,對於老人或者小孩並不友好,使用起來也比較麻煩。
他們認為,利用 Pepper 基於 CV 與語音識別的人機交互優勢,進行數據建模並深度開發功能,可以讓 Pepper 做為智能管家幫助人們進行實時決策。
在現場,他們演示了一個酒店場景下的應用。比如,Pepper 可以識別住店客人是誰,然後告訴對方房間號,還可以提前打開房間空調,並控制合適的溫度、光線等等。
在評委看來,智能音箱行動力有限,Pepper 機器人的存在恰好彌補其缺點,並希望選手可以將 Pepper 機器人打造成一個邊緣計算的拓展,將諸如地下空間等地方的空間服務打通,提供更完整的服務。
比如,機器人可以通過人類的肢體識別(冷得哆嗦)調節室內空調溫度、做到節能,將城市管理的決策交給消費者、老百姓。在技術做到上,可以考慮按區域分布,做 5G 機器人雲等。
ITC 萬物鏈
第三名被 AI 交互式遊戲項目拿走,獲勝者是 ITC 萬物鏈,一位「獨狼」式的選手。
他受曾經看過的一部電影的影響,想通過與呆萌的 Pepper 交流,讓它變成一個具有真實情感的人類。因此,他選擇了一個非常聚焦、細致的場景:石頭剪刀布遊戲。
演示過程中,Pepper 會主動搭訕邀請對方和自己玩遊戲,用戶回答肯定後,可以選擇進入遊戲。機器人一邊說著石頭剪刀布,一邊與用戶擺出手勢。如果用戶出的是石頭,而機器人說剪子(隨機),Pepper 會通過 CV 判斷對方的手勢(判斷是石頭、剪刀或布),進而推斷輸贏。
評委表示,機器人作為一個全新的 AI 領域應用正逐漸走入人們視野,正如「掃雷」、「紙牌」等經典遊戲之於電腦系統一樣,當下的機器人應用正缺少一個特色經典遊戲,讓人們真正體會到 AI 與機器人技術的便捷有趣,同時希望選手們能夠持續創新,找到機器人互動娛樂的突破點。
特邀嘉賓評委在賽後點評中表示,未來人工智能的發展離不開各位的努力和創造,我們也希望能夠有機會做更多的工作幫助整個行業形成機器人開發者生態,為優秀的開發者設立創意孵化器,讓整個生態圈良性地發展下去。在這次大會,通過選手的精彩展示,我們看到軟銀的 Pepper 機器人,無論在商業還是在教育領域都具有廣闊的應用空間,期待未來能夠看到更多機器人的商業落地應用。
第四范式 AutoNLP 大賽
AutoNLP 答辯現場
AutoNLP 是近來非常前沿的比賽,它希望參賽選手設計能自動處理自然語言文本分類任務的系統,大賽公布數個公開數據集,供參賽選手開發全自動的文本分類系統。
這也是本次比賽最為國際化的一個賽題,吸引了瑞士、韓國、日本、印度等國際選手參加。
AutoNLP 比賽是提交代碼方案的比賽,選手代碼的整個評測階段(包括訓練階段)都會在平台上被全自動執行,期間不會有任何人工干預。
比賽開始前一個月內,第四范式公布了 5 個離線公共數據集、5 個線上公共數據集(用於盲測,選手無法獲得數據集任何信息)。選手下載離線公共數據集,開發全自動的文本分類系統,做到接收原始未經預處理的文本訓練數據、全自動地完成文本預處理、模型結構設計和參數調校等過程。隨後將產出文本分類模型上傳至比賽平台上,通過 5 個線上公共數據集評估其 AutoNLP 方案的實時性能反饋,也據此得出預賽階段的排名。
在決賽階段,選手將自動文本分類系統在私有數據集上進行性能測試,以驗證方案的可推廣性。方案在沒有人工干預的前提下,通過 5 個未經處理的私有數據集進行評估。最終,DeepBlueAI、upwind _flys 以及 txta 獲得前三名。
在第一名 DeepBlueAI 的答辯中,開發者展示了 AutoNLP 主要過程,並介紹了他們的解決方案。簡單而言,採用 AutoNLP 進行文本分類任務主要分為四大步驟,即自動做到預處理過程、自動抽取文本特徵、自動設計高效的神經網路架構,以及自動選擇預訓練模型等。
如下是 DeepBlueAI 的系統架構,其中預處理過程會從字、詞到樣本提供各種層級的信息,隨後的 Cell 會自動學習最適合數據的模型結構。這相當於我們從不同角度觀察文本,最後綜合所有信息進行分類,這里「綜合」的過程就是集成學習。
開發者表示,他們在自動預處理過程中會根據語言確定不同的策略,例如英文的預處理會將所有大寫字母變為小寫,並以詞為單位進行分割;而中文的預處理會以字為單位進行分割,同時也會進行中文分詞。重要的是,開發者表示他們會採用 Python 代碼做到數據預處理,從而加速該過程。
在進行一系列特徵工程後,開發者表示後面就需要確定一種高效的模型架構,它們嘗試將 TextCNN、BiGRU、CNN 等主流模型都聚合在一起,並希望系統能自動搜尋更符合數據的架構。
除了第一名的 AutoNLP 解決方案外,其它團隊的方案也各有特色。upwind 嘗試方案採取了輕量級元學習思路下的自動化深度學習框架,具體而言,該方案功能分為元控制器,自適應數據預處理,自動模型調度器,模型倉庫,反饋仿真器幾個部分,希望在方案上做到通用和自適應,基於數據特徵和任務元特徵來進行自動學習,避免出現過擬合的情況。其中,包括了數據自適應處理和增強、自動化模型選擇和模型倉庫、反饋仿真和元訓練模式等特點。因此,使方案具有很好的綜合泛化性能,同時由於方案對目標具有很好的預判和模型調度能力,此方案的計算成本在所有參賽隊伍中優勢明顯。
獲得第三名的 txta 使用更具特色的支持向量機來解決問題。比賽中,該團隊實驗了不同的解決方案,基於深度神經網路模型雖然在近些年來很熱門,但是訓練起來速度比較慢,在大數據上效果和線性支持向量機相比,沒有明顯的優勢。考慮到本次比賽的評價指標中訓練和預測的時間也是重要的影響因子,所以選擇了詞袋模型特徵與線性支持向量機相結合的解決方案。正是使用線性的支持向量機,模型的訓練階段和推理階段速度都是深度學習模型無法比擬的。此外,由於該方案使用的模型是線性模型,不同於神經網路的黑盒結構,也具有較好的泛化效果。
不論思路是什麼樣的,AutoML 這類前沿領域的探索確實能讓人感嘆機器學習的潛力還遠遠未被發掘。
經過 48 小時的鏖戰,四大賽題決出了最終的獲勝團隊,而後在由機器之心承辦的 WAIC 開發者日主單元上,上海市經信委主管、機器之心以及出題方為獲勝團隊代表進行了頒獎。
>百名開發者的48小時:智能盤庫、Pepper,智能垃圾分類和AutoNLP