尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
圖片來源:視覺中國
記者 | 周伊雪
編輯 |
1
記者 | 周伊雪
編輯 |
1
2016年,以AlphaGo戰勝韓國圍棋九段選手李世石為標誌,人工智慧技術(主要是深度學習)開始在世界範圍內掀起熱潮。隨著這股熱潮,為人工智慧算法輸送「燃料」的數據標註行業也開始興起。
深度學習的核心理念是希望計算機通過反覆學習和模仿來接近人的智商。因此,初期為了訓練模型需要輸入大量標準化的數據。但在現實世界中,數據都是非標準、非結構化的,而將這些數據進行標準化、結構化的過程在業內被稱為「打標簽」。沒有這個過程,就沒有人工智慧模型的建立。
通俗地說,如果人工智慧是發動機,標準化數據就是這臺發動機的燃料。
艾瑞咨詢調研顯示,2019年中國AI基礎數據服務行業市場規模為30.9億元,根據需求方投入情況和供應方營收增長情況推算,預計2025年市場規模將突破100億元,年化增長率為22%。
倍賽BasicFinder是一家提供自營加第三方數據采集與標註解決方案的公司。公司創始人兼CEO杜霖畢業於上海交大ACM試點班,選擇數據標註行業作為創業方向源於杜霖的一次經歷。
深度學習技術興起後,2015年下半年,杜霖與幾個交大同學想到應用這項技術做一個關於冰箱內食品的識別系統,希望能做到自動識別冰箱內的食材情況,以提醒用戶處理過期食材或者及時補貨。
為了做出這套系統,杜霖發動周圍的朋友共采集五萬多張冰箱內食材照片。耗時6個半月後,終於做出了系統模型。但他發現,整個過程中采集和標註數據的時間花了四個半月,而真正建模的時間只有一個半月。這令他意識到,數據采集或許才是現階段人工智慧領域發展的核心痛點。
一些業內人士認為,現階段人工智慧商業化在算力、算法和技術方面基本達到階段性成熟,想要落地,解決行業具體痛點,需要大量經過標註處理的數據做算法訓練支撐。某種程度上,數據量決定了人工智慧技術的落地程度。
2016年,杜霖創立了以數據采集和標註作為核心業務的倍賽。公司提供兩種業務模式:一是為根據客戶需求,提供數據采集、標註到模型訓練和評估的全流程服務。另外,推出私有化數據標註平臺BasicFinder Hive和在線數據標註平臺BasicFinder SaaS,令客戶可以將數據標註流程和標註工具集嵌入到人工智慧模型研發的業務鏈條中。
目前,倍賽的技術團隊共70人左右,全職數據標註團隊大約有2000人。2019年下半年,倍賽獲得五嶽資本和Talkingdata的四千萬人民幣投資。杜霖透露,自成立以來,公司營收的年均復合增長率超過200%,2019年公司的營收已經達到數千萬級別,預計今年將實現盈虧平衡。
數據標註行業可以成為觀察人工智慧領域發展變化的一個窗口。從2015年到現在,人工智慧行業的投融資數額逐漸減少,行業從狂熱回歸理性。但杜霖認為,這並不代表行業發展進入停滯,事實上,倍賽BasicFinder的營收仍然在增長,越來越多的傳統行業公司開始成為倍賽BasicFinder的客戶。
某種程度上,這也反映了人工智慧商業化落地過程中一項重要的趨勢變化:當Google等公司將深度學習底層框架開源後,建模門檻逐漸在降低,擁有場景的傳統行業開始在人工智慧商業化上扮演更重要的角色。以技術和算法見長的人工智慧公司則在式微。
「越來越多的傳統公司尋求用人工智慧技術提升業務效率。」杜霖告訴界面新聞,原來倍賽的客戶中有七八成是AI公司,現在AI公司則占到不足四成。
比如,農牧行業的新希望集團希望通過人工智慧技術實現「豬臉識別」,以此監控豬的健康狀況,提升養豬效率。目前,除了商湯、曠視這樣的人工智慧公司,招商銀行、新希望集團、上汽集團這樣的傳統行業企業也成為倍賽的客戶。
此前行業需求爆發時,為數據打標簽的門檻並不高,成本是拿到訂單的關鍵要素。杜霖告訴界面新聞,兩年前,市場曾瘋狂湧入很多數據標註公司,甚至有網咖、刷單公司都搖身一變成為數據標註公司。但隨著需求方對於數據標準的要求越來越細致、對場景的理解要求更深刻,在數據標註行業,技術扮演的角色正越來越突出。
據杜霖介紹,倍賽BasicFinder已經可以實現從數據標註到模型訓練迭代的一站式服務。
「靠廉價勞力力進入這個行業的公司,因為無法滿足客戶對數據精度和質量的要求,以及無法通過技術手段來降低成本,都會被市場淘汰。」杜霖說,比如在某些數據標註業務場景中,使用帶AI輔助的標註工具可以提升數十倍效率。
艾瑞咨詢認為隨著業務門檻提升、客戶需求多樣化, 越來越多的「中小型數據供應商」 在為生存問題而苦惱,該群體在未來1-2年內將迎來一陣倒閉潮。
杜霖也強調,數據標註行業正在從分散走向集中,未來能夠通過技術提升行業效率、降低成本,工具鏈足夠高效和完善的公司將在競爭中最終勝出。