學界 | 曠視科技發布最大商品識別數據集,推動新零售自動收銀場景落地

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

近期,曠視科技南京研究院發布學術界內目前最大的商品識別數據集——RPC,其圖像數量和類別數量皆是該領域之最。同時,該數據集針對新零售場景定義了一個新問題,即視覺自動收銀(automatic check-out, ACO),模擬零售真實結算場景。此外,還針對 ACO 任務給出了一套完整的 Baseline Method,以及「整單準確率」cAcc為代表的一系列評測指標,更有可以直接安裝的 Python 版本評測工具。同名 GitHub 項目主頁上有 Leaderboard,歡迎大家來刷榜!

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

論文鏈接:https://arxiv.org/abs/1901.07249

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

項目鏈接:https://rpc-dataset.github.io/

零售業是人力密集型行業,其中收銀結算占有相當高的成本。隨著深度學習發展,借助圖像識別技術做到零售行業的降本增效已是大勢所趨。自動收銀結算(Automatic Check-Out/ACO)是其中的核心場景,旨在根據收銀場景圖像生成結算清單,並與計算機視覺技術的融合不斷加深。

CV 技術+場景,從來不是一條坦途。從圖像識別角度講,ACO 的落地布滿靳棘,其中既有來自數據本身的問題,也有模型訓練的因素,最後可歸結為 4 個方面: 1)large-scale,2)fine-grained,3) few-shot 和 4)cross-domain。

盡管存在上述問題,ACO 還是有著潛在的研究與商業價值。如果有標註精良的數據集,這一問題或可迎刃而解。為此,曠視科技南京研究院打造了一個目前最大的商品識別數據集——RPC(Retail Product Checkout),來推動新零售自動收銀場景的相關研究和技術進步,它的商品種類高達 200,圖像總量達 83k,真實模擬零售場景,且逼真度超過現有同類數據集,同時充分體現出 ACO 問題的細粒度特性。

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

圖 2:RPC 數據集對比同類數據集。

RPC 數據集有兩種形態的圖像:1)單品圖(exemplar image),在受限環境下拍攝,只包含單一產品,對應於網購商品圖;2)結算圖( checkout image),包含用戶購買場景下的多個商品,有助於研究者解決相關子問題,比如檢測或計數。

數據集的基準還在進行之中,目前最好的基線來自基於 Cycle-GAN 的數據合成方法。

ACO 任務

當顧客走進商店,把要購買的商品放在收銀台上,一個理想的 ACO 系統可以自動識別每個商品,並一次性準確給出購物清單,如圖 1 所示。

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

圖 1:ACO 圖示。

因此,ACO 本質上是識別任意商品組合中每個商品的出現並計數的一個系統。

一般來講,為保證性能,訓練 ACO 識別系統的圖像應該和實際收銀場景一模一樣。但是由於海量的商品類別加之不斷更新,讓識別模型窮盡所有的商品組合是不現實的,因此一個可行的解決方案是在特定環境下采集一類單品圖像,並將其復用至實際結算中。

RPC 數據集特點

曠視提出的 RPC 數據集具有 6 個方面的特性。

量大:無論是從圖像數量還是商品種類(SKU)上來看,RPC 都是該領域之最:SKU 達 200 個,圖像數量 83,739 張,其中單品圖 53,739 張,結算圖 30,000 張。

跨域:RPC 中圖像數據分為單品圖和結算圖兩種形態。模型需在單品圖上進行訓練,但真正測試環境則為結算圖。

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

圖 3:單品圖。

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

圖 4:結算圖。

真實:在構造和采集結算圖時,盡可能追求模擬真實零售場景,無論商品類別、商品個數、擺放角度及遮擋等等因素均接近實際收銀場景。

層級:200 類商品隸屬於 17 個商品大類(如泡麵、紙巾、飲料等),天然構成了層次的結構,並可作為輔助監督信息用於進一步的訓練。

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

圖 6:17 個商品大類。

難易:針對結算圖設計了三種難度:Easy、Medium 和 Hard,包含的商品類別數和數量分別為:

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

表 2:結算圖的三種難度。

強弱:在監督信息層面,我們為每張 RPC 的結算圖均提供了由弱(Shopping List)到中(Point)再到強(Product BBox)的三種強度監督信息。

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

圖 5:結算圖的三種強度監督信息。

RPC 數據集基準

ACO 基線方法

曠視在本文提出了 4 個 ACO 基線方法,分別是 1)Single,2)Syn,3)Render 和 4)Syn+Render。

只使用 RPC 數據集單品圖的標註信息,且直截了當地把這些單品圖用於訓練,這種策略即是首個基線方法,稱之為 Single。另外,本文使用的檢測器是 ResNet101 作為 Backbone 的特徵金字塔網路 FPN。

通過把剪裁出來的單品隨機黏貼在背景上以合成 10,000 張結算圖,接著用其訓練檢測器,這是第二種基線方法,表示為 Syn。

為把上面合成的結算圖渲染的更加逼真,曠視借助 Cycle-GAN 轉化合成圖,如圖 9 所示。接著用這 10,000 張渲染的圖像訓練檢測器,這是第三種基線方法,表示為 Render。

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

圖 9:合成結算圖與渲染結算圖實例對比。

此外,還可以混合使用合成圖與渲染圖訓練檢測器,這是第四種基線方法,表示為 Syn+Render。

針對 ACO 任務提出的整個方法的 pipeline 如圖 10 所示:

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

圖 10:基線方法 pipeline。

實驗結果

在進入到實驗結果之前,需要說明的一點是最優的評測指標並不是傳統檢測任務中的 mAP50、mmAP 等指標,而是本文提出的 cAcc(Checkout Accuracy),即正確核驗一張圖像內所有商品的精度,簡單來說,就是「整單正確率」。

這里按照上述的 Easy、Medium、Hard 三種 mode 測試了 ACO 任務在 RPC 數據集上的實驗結果,如表 3 所示:

學界 | 曠視科技發佈最大商品識別數據集,推動新零售自動收銀場景落地

表 3:實驗結果。

研究展望

雖然 RPC 數據集跨域檢測方法適用於解決 ACO 問題,但並非其他方法行不通。其他研究方向也可從 RPC 數據集獲得啟發:

  1. 在線學習解決 ACO 問題。實際的零售場景中,商品種類將會不斷翻新。快速迭代模型而無需重新訓練成為首要問題,這時在線學習就派上用場了。
  2. ACO 任務的一個潛在解決方案是在不借助商品檢測技術的前提下,直接從結算圖中獲取商品清單。這本質上是把 ACO 問題轉化為一個物品計數問題。
  3. 利用結算圖的監督信息。RPC 數據集有著不同層次的結算圖的監督信息,如何將其利用起來更好地完成 ACO 任務仍值得進一步研究。
  4. 作為其他計算機視覺任務的補充數據集。雖然 RPC 數據集針對 ACO 問題而設計,但是標註有商品的 ground truth 定位/邊界框,也就適用於物體檢索、few-shot/弱監督/全監督物體檢測等領域的研究。

結論

曠視在本文中發布了目前學術界最大的商品識別數據集 RPC,並定義了 ACO 任務和對應的評測指標。RPC 數據集含 200 個商品類別,83,739 張圖像,包含單品圖和結算圖兩種形態,並且配有不同監督強度的標註。借助這一數據集,本文清晰界定了 ACO 問題,並使用 4 種基線方法基準化這一數據集。實驗結果表明,在這一數據集上 ACO 仍有較大提升空間。同時,該數據集還適用於多個潛在的研究方向。

點擊閱讀原文,查看 10篇論文+5項世界第一,記曠視科技ECCV之旅

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!