百度數據眾包，一門AI新基建的「基建」生意

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

文/智能相對論（aixdlun）

作者/葉遠風

AI成了新基建的C位，不論是原本就以AI立身的百度，還是紛紛在技術上加大投入以擁抱新基建的阿裡、騰訊等巨頭，最近都顯出強化AI地位的態勢。

在AI新基建浪潮下，其背後的動力和「靈魂」——AI數據行業正在快速增長。按照艾瑞咨詢《2019年中國人工智慧基礎數據服務行業研究報告》，預計2025年市場規模將突破113億元，其中，原本就在AI技術和應用上領先的企業在數據業務上也更為積極。

有人曾稱5G是「新基建」的「基建」，是很多新基建項目的前置技術。事實上，以數據眾包為代表的AI數據行業，也可以看作AI新基建的「基建」型業務，為各行各業智能化轉型提供動能，加速智能經濟到來。反過來，當AI新基建蓬勃興起時，它背後的數據眾包產業也面臨急速膨脹的市場，這是一片門檻不算高的藍海，但並非人人都能做得好。

多重因素推進AI數據需求進一步增長

AI從行業架構上分為基礎層、技術層、平臺層以及應用層。無論是算力、算法、數據都只是在基礎層，海量的數據獲取和加工是AI發展的基石。

我們通常看到的那些AI智能化應用，在後端首先都需要足夠多、足夠好的數據對計算機進行訓練。

推進基礎層AI數據需求進一步增長，肯定來自於更上層的「倒逼」。總體看來，新基建的大背景下，整體AI行業的高速發展驅動了AI數據需求的增長「提速」，而具體來看，又有三重因素：

1、AI應用落地時對數據的強依賴

以人臉識別為例，一般的FaceID已經為人所熟知，其原理，是通過大量數據訓練，讓算法可以精準為整張臉標記特征，眼睛、鼻子、嘴、顴骨……從而識別不同的人物、確定身份（圖片來源：網路）：

百度數據眾包，一門AI新基建的「基建」生意科技第1張

但是，實際應用落地要想適用面更廣，又會有新的麻煩。

例如，疫情期間戴上了口罩，就沒辦法為鼻子以下的部位做特征標記進行比對。這時候，AI數據的價值就體現出來了，更龐雜、更大量的數據訓練，讓系統在鼻子以上部位能標記出更多、更細致的特征，半邊臉就能完全區別出一個人來，甚至有科技公司開發出憑借眼部龐雜特征的識別方式。

百度數據眾包，一門AI新基建的「基建」生意科技第2張

只有更高質量、更具有豐富度的數據，訓練出更細致的特征標註能力，系統識別的能力才會越強。在人臉識別之外，很多AI落地應用也有類似的邏輯。

2、AI應用場景深耕，垂直領域變為數據競逐

在AI走得更快、更遠的一些場景，數據的價值更為明顯。

例如，在自動駕駛領域，決定自動駕駛平穩性和安全性的，是系統對路況各種要素的識別，而它們都依賴於前期大量數據訓練，給機器標註各要素、教會它識別。

標註得越精細，機器的理解能力就會越強，發生意外的可能性就越低，就像學生學習知識一樣，「不知道」的東西越來越少（圖片來源：網路）。

百度數據眾包，一門AI新基建的「基建」生意科技第3張

國內處在自動駕駛領先位置的百度，首先領先的就是數據，其ApolloScape數據集比Cityscapes、Kitty等同類的自動駕駛數據集大10倍以上，涵蓋更龐雜的環境、天氣和交通狀況。

可以說，在那些深耕的場景裡，AI的競逐首先甚至主要就是數據的競逐，AI新基建的深度落地，離不開對數據的索求。

3、「AI國情」側重於數據發展

與多數人想像不同的是，同為AI基礎層，看起來十分高深的算法，其門檻已經不算高，公開渠道上，論文、開源深度學習框架、各種各樣AutoML框架算法，可供獲取的很多。

除了百度這樣的AI巨頭還需要在算法上做一些突破和引領，對多數AI參與者來說，算法已經不是遙不可及。

而正如原南開大學校長龔克所言，中國在核心算法上的優勢不算明顯，但中國的數據和應用場景可以領先世界。

這方面，AI數據需要的應用采集源（例如人相、交通道路圖像等）、勞力力人口、需求市場，中國原本也十分有優勢。在這樣的「AI國情」下，AI新基建除了保證自有算法能力不被卡脖子，在已有大量落地場景的優勢下，大力發展AI數據就順利成章。

三大痛點，自建團隊已並非「AI新基建」最優選擇

AI數據的需求方，主要包括AI公司、科技公司、科研機構以及傳統意義上的行業企業（手機、汽車、安防等），這個群體越來越龐大。

AI數據的市場供給，主要由企業自建或直接獲取外包團隊的形式以及供應商組成，而按照艾瑞咨詢的報告，供應商模式占比高達79%。

問題在於，為什麼需求方們都熱衷於選擇數據眾包這類供應商模式來獲得數據，在數據需求龐大的情況下，為什麼不自建團隊采集和標註數據？這主要基於三個痛點：

1、數據需求的「潮汐現象」

春運期間，鐵路運力不夠，平時，又大量閒置。

如果自建團隊，很多AI需求方將產生與此類似的「潮汐現象」：受自身產品迭代周期的影響，在AI迭代期湧入大量數據需求，團隊難以承受；在日常維護期數據需求不是很旺盛，團隊又在閒置。

於是，數據供應商就成為彈性投入、增強企業適應力的必然，市場供給的主力軍變成各類AI基礎數據的服務提供者。

2、數據資源池不足

自建團隊往往面臨較為嚴重的數據資源池匱乏問題。舉例來說，如果你是一家做與人體有關的圖像識別的專業公司，或者需要這樣的技術來配合主業，你可能需要尋找不同膚色、不同外形特征的人物做AI數據采集，以提升AI的「認知」能力，而對很多企業而言，除了依賴那些有限的開源數據，沒有太多辦法。

這方面，專門做數據業務的平臺就有明顯的資源聚集優勢。例如，單就人物圖像來說，百度數據眾包的數據資源池在國內覆蓋30個省份，具備漢族、少數民族采集能力；在國外覆蓋22個國家，具備白人、黑人、印第安人等多人種采集能力。

3、數據輸出能力的「維度差距」

數據眾包平臺集中大量地熟悉數據采標業務，已經得到了充足的鍛煉，一些平臺，例如百度數據眾包還對內提供大量數據服務，自2011年起全面支持百度自動駕駛、小度助手等AI業務，它們對於外部需求，在能力上更容易應對。

這本質上體現在通用的「標準化」和專項的「定制化」區別上。AI數據有時候只需要一些標準化的泛化數據，例如道路要素標記，車、路燈、行人、斑馬線、雙黃線等，有些時候則需要定制化數據，例如專門針對鄉村小道的識別，其中可能有野狗、野貓等更龐雜的要素。

但這種標準化和定制化只是相對的，對發展往往不夠充分的自建平臺而言是「定制化」（意味著需要花費大量精力），到了數據眾包平臺那裡，可能只是「標準化」的一部分，像百度數據眾包的標註能力已經可以覆蓋市95%以上的主要標註場景。

AI新基建對數據采標有三概略求，數據眾包都滿足了嗎？

有龐大而快速增長的市場，也有供應商模式相對自建團隊的優勢，在AI新基建浪潮下，數據眾包成為了一門「更好的生意」，這些年也有不斷大量的玩家加入（圖片來源：艾瑞咨詢）：

百度數據眾包，一門AI新基建的「基建」生意科技第4張

總體而言，最早的玩家大都已經取得較明顯的市場優勢，例如百度數據眾包已經成為在世界範圍內采標能力、流程標準化/工具智能化、數據安全等方面都處於領先位置的一站式AI數據服務平臺（這與中國AI領先、百度以AI為主戰略也有關係），覆蓋了智能駕駛、手機、互聯網、AI開發者等頭部客戶；

而新進入者亦有沖勁，像雲測數據從雲測試轉身到AI數據行業，對京東眾智、騰訊雲數據、龍貓數據等都可能形成沖擊。

不過，從需求方的角度看，不論是誰，「一門更好的生意」要坐實，這三大基礎要求必須滿足。

1、安全：「銀行級合規」

AI數據不但是AI新基建的重要驅動力，它也是企業的重要資產，它的泄露和核心算法的泄露都是智慧財產權的重大損失，沒有根本區別。

只不過，算法可以自己蒙頭在家管死，而在數據眾包市場上，涉及到甲乙方原始數據交接、生產過程及成果交付，這其中存在著許多數據安全的口子。

一旦上升到新基建的高度，對很多賴以生存的需求方來說，說數據是命根子可能不為過，對數據的處理保證安全是第一位的，甚至需要「銀行級合規」避免出現任何紕漏。

對巨頭而言，出現安全問題就更加不能容忍，例如，百度數據眾包為此在數據確權、數據加密、實名認證、生產監控等方面進行全流程管控確保數據安全（圖片來源：網路）：

百度數據眾包，一門AI新基建的「基建」生意科技第5張

如果我們翻開各大平臺的官網主頁，即便最新進入的玩家雲測數據，都能發現它們用了很大的篇幅先講安全。

不過，安全最終還是靠「不出事故」來查驗，如同雲計算穩定性說得再好，不宕機才是最好的證明。

2、「產量」：前沿科技下的密集的勞力力

雖然AI是頂尖的前沿技術，但AI數據確實一個不折不扣的勞力力密集行業。AI新基建首先驅動的是對數據產量的需求，這直接反應到勞力力規模是否足夠大上，畢竟，一張一張的圖、一句一句的話、一段一段的語音，都需要人力一個個標記好。

這是一個直觀的要求，它的實現又分自有團隊和代理全職團隊兩個部分，例如百度數據眾包宣稱自有2000人團隊、遍布全球22個國家的超過5萬名采標人員的代理商資源池——基本上，各平臺都在著力凸顯自己的團隊規模，龐大的勞力力群體是AI新基建的獲取足夠多數據的重要保障。

但是，正如工廠流水線有最優生產流程，有幫助工人更快、更好完成工作的輔助工具一樣，要提高產量、提升效率，流程和工具也必不可少，標準化、工業化的生產流程、高效易用的標註工具，也是百度等數據巨頭提升自我的重要著力點。只不過，這些只是起到「乘數作用」，底子還是看勞力力規模。

3、質量：「精益制造」級別的龐雜管理體系

在安全、產量之外，質量是數據眾包成為一門可持續生意的根本，也是AI新基建真正落地的根本，質量不達標的數據不但不能推進系統識別能力的提升，甚至可能產生誤導，如同學生學習了低劣的習題集再去考試一樣。

而說白了，數據眾包可以看作一門以數據為產品的「制造業」，要提升質量，對應地，就要配以「精益制造」級別的龐雜管理體系。

這個體系，通常包括嚴苛的審核體系（例如標註、審核、抽檢的層層把關）、人盡其用（不能混用CV、NLP等數據人員）、固定的例會總結問題提醒改進等，此外，還有一些工業化生產流程的濃重痕跡，例如百度數據眾包平臺的三階段「生產加工流程」——小流量測試跑通生產流程、正式生產不斷調優、交付時最終驗收審核。

可以說，AI數據對質量的要求，和精細化制造業實現更好的良品率，別無二致。

數據眾包，不止於AI新基建？

由於「勞力力需求」的特殊性，數據眾包在特殊的時代背景下還超出了AI新基建的價值範圍。

脫離行業角度，從穩就業來看，百度山西數據標註基地人員規模已近3000人，這些都是實實在在的就業人口容納能力，是應屆畢業生、其他行業分流人員（例如在山西的某傳統產業）甚至包括殘障人士的一份生計。加上其他工作人員，後疫情時期，一個數據眾包平臺已經幫助當地實現就業。百度方面表示未來要通過山西基地的示范作用，聚攏更多數據企業，為山西本地創造超過5萬個就業崗位。

甚至於，百度數據眾包還打算打通數據生產，數據交易和數據應用的三個環節，做一個開放的平臺，如果這個構想成功，在AI數據領域建立一個資源對接的市場，不僅是AI新基建背後的數據生態閉環問題，或還將匯聚起大量的就業機會和新的經濟成長點。

我們否定AI將摧毀就業機會時，理由常常是新的技術一定會帶來新的工作崗位，而AI數據產業毫無疑問就是正在發生的例證。數據眾包不僅將是一門更好的生意，也是下一個時代許多人的職業去處。

*本文圖片均來源於網路

此內容為【智能相對論】原創，

僅代表個人觀點，未經授權，任何人不得以任何方式使用，包括轉載、摘編、復制或建立鏡像。

部分圖片來自網路，且未核實版權歸屬，不作為商業用途，如有侵犯，請作者與我們聯繫。

智能相對論（微信ID:aixdlun）：

•AI產業新媒體;

•今日頭條青雲計劃獲獎者TOP10;

•澎湃新聞科技榜單月度top5;

•文章長期「霸占」鈦媒體熱門文章排行榜TOP10;

•著有《人工智慧十萬個為什麼》

•【重點關註領域】智能家電（含白電、黑電、智能手機、無人機等AIoT設備）、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、雲計算、開發者以及背後的晶片、算法等。

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

更多文章