AI十級「找碴」選手，非這個書生莫屬，節後開源！

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

加入LINE好友

點擊上圖，查看教學大綱

新智元報導

編輯：好困桃子

【導讀】為了測試，研發團隊的大哥都爬樹上了！什麼模型竟然只需10%的訓練數據，性能就能超越同行，還會免費開源？

考驗你眼力的時候到了！

只看一眼，看出什麼了嘛？

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第1張

一塊木地板？

隻答對了一半，其實圖中還有一隻喵。

下一個問題，這是什麼品種的貓？啊…這…

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第2張

承認吧，你是辨別不出來的，但是這個AI「一眼」就搞定了。

而這麼厲害的AI還有個詩意的名字，叫「書生」。

更厲害的是，基於「書生」的通用視覺開源平臺OpenGVLab將會在春節後全部公開！

通用？視覺？

近幾年，語言模型的發展可謂是相當迅猛，百花齊放。

小到3.54億參數的BERT，大到5300億參數的威震天-圖靈，以及1.6萬億參數的混合模型Switch Transformer，順便還有首次常識問答超越人類的KEAR。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第3張

那麼，視覺模型這邊又如何呢？

目前的CV領域主要是圖像匹配文檔CLIP和文檔生成圖像DALL·E這種單一模型。

但是NLP方向的各種成就都表明，發展預訓練大模型不僅僅能夠處理多種龐雜任務、適用多種場景和模態，而且能夠增加模型的復用率，減少了模型定制化開發的開銷進而也降低了成本。

而且，通用模型也是通往通用人工智慧的必經之路。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第4張

和通用語言模型類似，通用視覺模型的出發點和訓練思路也需要事先通過收集海量的無監督數據。然後通過自監督等方式來訓練，得到通用的預訓練模型。最後根據具體的下遊任務再將通用預訓練模型遷移到具體任務上去解決具體問題。

不過，從任務角度看，通用視覺模型主要還是解決純視覺任務，也涉及一些視覺語言相幹的多模態任務，而通用語言模型主要在解決語言相幹的任務。而從模型訓練角度看，兩者的模型結構存在一些差異，具體訓練的監督形式也不一樣。

但是想要實現模型的通用性，很難。

首當其沖的就是，訓練數據不夠用。

在現實應用中，AI需要大量業務數據和用戶互聯網行為數據的融合，而企業可以應用的數據則非常有限。

數據都采集不到，就更不用提什麼「高質量」了。

此外，模型對於數據的學習效率又低，無疑又是雪上加霜。

於是，N個任務就需要開發N個高度定制的模型同時，每個模型在訓練的時候又需構建標註數據集進行專項訓練，並持續進行權重和參數優化。

時間、人力以及資源的成本直接拉滿。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第5張

即便如此，依然有人想要挑戰一番。

2021年11月，上海人工智慧實驗室聯合商湯科技SenseTime、香港中文大學、上海交通大學共同發布了新一代通用視覺技術體系——「書生」（INTERN）。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第6張

論文地址：https://arxiv.org/abs/2111.08687

參考鏈接： https://mp.weixin.qq.com/s/dS_eklfseJ8BVdqNR-r30g

通才是如何練成？

作為通用視覺技術體系的「書生」有三個基礎設施模塊，分別為：

通用視覺數據系統（GV-Dataset）
通用視覺網路結構（GV-Architecture）
通用視覺評測基準（GV-Benchmark）

通用視覺數據系統（GV-Dataset）

通用視覺網路結構（GV-Architecture）

通用視覺評測基準（GV-Benchmark）

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第7張

這三個基礎模塊有什麼作用？

它們就像「百科全書」、「高樓基底」一樣。「書生」通才的道路上學到的海量知識和建模、評測等基礎能力就靠這三個基礎模塊了。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第8張

具體點講，其中，在通用視覺數據系統中包含了大量的高質量數據集：

1. 超大量級精標註數據：除了整合現有開源數據集，還進行了大規模數據圖像標註任務，涵蓋了圖像分類，目標檢測以及圖像分割等任務，數據總量級達到40M。

分類任務數據量級為71M，其中包含9個公開數據集28M，以及自標註數據43M。目標檢測任務數據量級為4M，其中包含3個公開數據集3M，以及自標註數據1M。

2. 超大標簽體系：總標簽量級達到119K，幾乎覆蓋了所有現有開源數據集，在此基礎上擴充了大量細粒度標簽。

極大地豐富了圖像任務的標簽，提供了更為合理的組織方式，以及可擴展的標簽延伸策略。

3. 首次提出視界（realm）概念：結合「書生」標簽體系，可以極大提升預訓練模型的性能。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第9張

在通用視覺網路結構中，MetaNet是一種自研的模型搜索網路，它最大的變種包含百億的參數量，是當今最大的視覺網路之一。

這個網路結構結合了視覺卷積和前沿的視覺自關註機制，通過大規模強化學習網路結構搜索算法，取得最佳算子組合，達到模型效率和效用的最大化。

在相同的資源限制的情況下，「書生」的視覺網路獲得在不同視覺任務下更優異的精度。

在獲得超大規模的視覺神經網路以賦能計算機視覺社區的研究的同時，「書生」的網路支持靈活地進行不同規模的調整，以適應不同程度的工業化落地時的運算能力需求，賦能視覺算法的工業落地。

有了這樣的網路結構之後，就可以對其進行了從「基礎模型-專家-通才」模型的訓練策略，極大地增強這種網路結構的泛化能力。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第10張

第三個便是視覺評測基準，它就像是一個「擂臺」，收集了4種類型共26個下遊任務。

不僅包括常規分類任務還包括細粒度分類任務，還包括醫療圖像等特殊領域的分類任務、行人檢測等熱門檢測任務，擴展到分割與深度任務，可以很好地衡量模型的泛化能力。

這一視覺評測基準還引入了百分比樣本（percentage-shot）的設置。

亮點在於，下遊任務訓練數據被壓縮的同時，還可以很好地保留原始數據集的長尾分布等屬性。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第11張

「書生」除了這三個基礎設施模塊之外，還有四個訓練階段模塊。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第12張

在「書生」（INTERN）的四個訓練階段中，前三個階段位於該技術鏈條的上遊，在模型的表征通用性上發力。

第一階段，「基礎能力」的培養需要經過一個跨模態的預訓練過程，通過大量的圖像-文檔對進行通用模型的預訓練，讓其學到廣泛的基礎常識，為後續學習階段打好基礎；

第二階段，培養「專家能力」，即多個專家模型各自學習某一領域的專業知識，讓每一個專家模型高度掌握該領域技能，成為專家；

第三階段，培養「通用能力」，此時的通才模型繼承了大規模多模態的預訓練資訊，也融合了多樣的感知任務的資訊，「書生」在各個技能領域都展現優異水平，並具備快速學會新技能的能力。

通過前三個模塊階梯式的學習，「書生」具備了高度的通用性和良好的泛化能力。

當進化到位於下遊的第四階段時，系統將具備「遷移能力」，此時「書生」學到的通用知識可以應用在某一個特定領域的不同任務中。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第13張

從實驗結果來看，相較於當前最強CV模型CLIP，「書生」在準確率和數據使用效率上均取得了大幅提升。

具體來講，在分類識別、目標檢測、語義分割及深度估計四大任務26個數據集上，「書生」的平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第14張

同時，「書生」只需要1/10的下遊數據，就幹翻了CLIP基於完整下遊數據的準確度。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第15張

書生不是「書呆子」

光學不去練，不會用，還是沒什麼本事。

要明確的是，商湯的「書生」可不是一個書呆子。

怎麼講？

首先，它能夠舉一反三。

舉個形象點的栗子，比如讓「書生」識別花的種類，每一類只需要提供2個訓練樣本，識別準確率高達99.7%。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第16張

這個花卉數據集由102種英國常見的花組成，每個類別有40至258張圖片。其中包含有很大的比例、姿勢和光線變化。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第17張

它不僅有觸類旁通的能力，而且在自動駕駛、智慧城市、智慧醫療等場景均已經實現了落地應用。

就拿自動駕駛來說吧，要想不成為馬路殺手，一套CV模型需要能夠識別各種物體，包括交通標誌，車道線識別等，還得預測出與障礙物的距離，行人檢測等等。

對於這些任務，單一視覺模型是無法勝任的。

而「書生」技術體系從數據、模型等各個方面出發，對自動駕駛感知模型，尤其是長尾類別和場景非常友好，在小樣本甚至是零樣本的應用場景下表現明顯優於既往模型。

其實，在實際場景應用中，數據都存在長尾分布的現象，少量類別占據大多數樣本，而大量類別僅有少量樣本。

在智慧城市中也是同樣的道理，面對很多長尾、碎片化場景就不得不祭出通才「書生」了。

生活中，我們經常會見到城市街道上的井蓋頻頻丟失的問題。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第18張

如果CV模型沒有關註城市治理的長尾問題，偷井蓋問題很難得到解決。況且，井蓋也有很多種樣子。

但是，這對於通才「書生」來講都是小case。只要每一類提供2個訓練樣本，問題不就搞定了嗎。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第19張

因為它已經在訓練階段被「喂下」大量數據成為通才，只需要看到少量樣本，就具備了舉一反三的能力。

有了「書生」的加持，不僅可以預防井蓋丟失，還能實現事後追責的精細化管理。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第20張

此外，智慧制造、智慧醫療等應用中還會存在很多類似的長尾場景，而通用視覺「書生」的推出能夠讓業界以更低的成本獲得擁有處理多種下遊任務能力的AI模型。

並以其強大的泛化能力支撐實際場景中大量小數據、零數據等樣本缺失的細分和長尾場景需求。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第21張

書生（INTERN）技術體系可以讓AI模型處理多樣化的視覺任務

這些暴力計算下的AI場景需要強大的算力作為支撐，這時候SenseCore商湯AI大裝置正好就派上用場了。

AI大裝置正是通過超強的算力基礎，為人工智慧的研發、創新和應用提供源動力。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第22張

正如商湯科技研究院院長王曉剛所提到的那樣：

「書生」通用視覺技術體系是商湯在通用智能技術發展趨勢下前瞻性布局的一次嘗試，也是SenseCore商湯AI大裝置背景下的一次新技術路徑探索。

「書生」承載了讓人工智慧參與處理多種龐雜任務、適用多種場景和模態、有效進行小數據和非監督學習並最終具備接近人的通用視覺智能的期盼。

希望這套技術體系能夠幫助業界更好地探索和應用通用視覺AI技術，促進AI規模化落地。

「書生」通用視覺技術體系是商湯在通用智能技術發展趨勢下前瞻性布局的一次嘗試，也是SenseCore商湯AI大裝置背景下的一次新技術路徑探索。

「書生」承載了讓人工智慧參與處理多種龐雜任務、適用多種場景和模態、有效進行小數據和非監督學習並最終具備接近人的通用視覺智能的期盼。

希望這套技術體系能夠幫助業界更好地探索和應用通用視覺AI技術，促進AI規模化落地。

不過，想要成為一個優秀的通用視覺模型，「書生」還有三個挑戰需要解決：

1. 模型優化速度的提升

對於一個好的預訓練模型，往往需要更大更好的網路結構，以及大規模的數據，這就會導致幾天甚至幾周的模型訓練時間，如安在保持表征能力的同時，大幅度加速模型的訓練過程，具有非常重大的現實意義。

2. 更大範圍內的通用能力仍待探索

書生模型，可以很好地在常見的視覺任務裡達到通用的效果。在跨度較大的領域，比如超分等底層視覺任務，書生模型還有很大的進步空間。

3. 大模型到小模型的轉變

將大模型的表征能力無損失的遷移到可部署到終端設備上的小模型，對於預訓練模型的推廣有非常大的價值。

One More Thing

要問這個模型好不好做？

研著急得都直「爬樹」！

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第23張

為了測試模型在zero-shot下的精度如何，書生研發團隊的模型科學家都親自上演了「爬樹」特別節目。通過創造特殊場景，以隨機生成圖片，去考驗模型能力。

（研究需要，大家請勿模仿^_^）

「書生」看到後，歪嘴一笑。

這不就是「爬樹」嘛，置信度0.96給你。

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第24張

而且有趣的是，「書生」模型還注意到了樹上人眼都很容易忽略的繩子。

可能，這就是「明察秋毫」吧！

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第25張

未來，「書生」要做的一件事情：

基於「書生」的通用視覺開源平臺OpenGVLab也將在今年年初正式開源，產學研一道共創通用AI生態！

基於「書生」的通用視覺開源平臺OpenGVLab也將在今年年初正式開源，產學研一道共創通用AI生態！

AI十級「找碴」選手，非這個書生莫屬，節後開源！科技第26張

而即將開源的OpenGVLab，正是基於「書生」的通用視覺開源平臺。

其中的網路結構除了商湯自研的MetaNet，還包含大家普遍使用的ResNet, MobileNet, ViT， EfficientNet等，以滿足不同場景的應用，賦能計算機視覺。

然而，「書生」的布局不止於此。

OpenGVLab將與上海人工智慧實驗室此前發布的OpenMMLab、OpenDILab一道，共同構築開源體系OpenXLab，持續推進通用人工智慧的技術突破和生態構建。

「書生」研發團隊的一位成員調侃道，「隨著書生模型精度越來越高，我們的辦公樓層越來越高。」

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

更多文章