尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
芯東西(ID:aichip001)文 | 心緣
芯東西6月28日報導,2020年的突發事件撥亂了太多產業的陣腳,AI晶片產業也似乎熱度漸熄。一家英國AI晶片創企卻在這一時期,穩穩地切入國內科技巨頭阿裡和百度的生態圈。
就在今年5月,成立剛滿四年的英國初創公司Graphcore分別公布和阿裡巴巴、百度合作的新動向。 阿裡宣布Graphcore支持ODLA的接口標準,百度宣布Graphcore成為飛槳硬件生態圈的創始成員之一。
同月,在英國Intelligence Health峰會上,微軟機器學習科學家分享用Graphcore的IPU晶片訓練微軟COVID-19影像分析算法CXR, 能夠在30分鐘之內完成在NVIDIA GPU上需要5個小時的訓練工作量。
▲300W功耗情況下,IPU(左)以2000 img/s的平均速率進行訓練,NVIDIA V100平均速率約為166 img/s,速度相差10倍以上
也是在這個月,英偉達(NVIDIA)為AI和數據科學打造的最強GPU A100橫空出世,給布局雲端AI晶片市場的其他公司帶來新的壓力。
不過Graphcore顯得相對淡定。Graphcore高級副總裁兼中國區總經理盧濤相信,即便是Graphcore第一代IPU產品也不會輸於A100,今年他們還將發布下一代7nm處理器。
Graphcore的自信並非空穴來風,憑借創新晶片架構IPU,這家成立剛滿四年的英國初創公司,不僅有DeepMind聯合創始人Demis Hassabis、劍橋大學教授兼Uber首席科學家Zoubin Ghahramani、加州大學伯克利教授Pieter Abbeel、OpenAI多位聯合創始人等多位AI大牛為其背書,還吸引到微軟、博世、戴爾、三星、BMW等巨頭註資。
這樣一個在AI晶片界猛刷存在感的明星創企,背後有著怎樣的底氣?
最近,Graphcore高級副總裁兼中國區總經理盧濤、 Graphcore銷售總監朱江第一次在中國詳盡地介紹了Graphcore的核心晶片架構及產品、配套軟體工具鏈,並分享了其晶片在五類垂直場景的應用實例及性能表現。
01英國小鎮裡誕生的AI晶片獨角獸
2012年1月,雪後的英國小鎮巴斯,Nigel Toon與Simon Knowles正在討論一個改變AI晶片架構的創新設想。
▲Graphcore CEO Nigel Toon和CTO Simon Knowles
經過四年模擬了數百種晶片布局的計算機測試方法,兩人於2016年6月在英國布裡斯托成立AI晶片公司Graphcore,此後繼續處於神秘的研發狀態。
知名資本伸出的橄欖枝,使得這家創企始終處於聚光燈下,BMW、博世、戴爾、微軟、三星等巨頭紛紛參與投資,至今Graphcore 累計融資超過4.5億美元,整體估值約為19.5億美元。
不僅如此,數位AI大牛對其IPU晶片架構讚譽有加。
英國半導體之父、Arm聯合創始人Hermann爵士曾評價說:「 在計算機歷史上隻發生過三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。」
AI教父Geoff Hinton教授也說過:「我們需要不同類型的計算機來處理一些新的機器學習的系統。」他指出IPU就是這樣一個系統。
到2019年11月,Graphcore潛心打造的IPU產品官宣量產,隨後與微軟、百度、Qwant、Citadel、帝國理工學院、牛津大學等多個合作夥伴、雲計算廠商、研究實驗室以及高校等展開了相幹合作。
如今,Graphcore所做的產品包括了硬件、軟體和IPU的系統解決方案。
IPU是Graphcore專為機器智能設計的創新處理器架構,宣稱在現有及下一代模型上,性能遠超NVIDIA V100 GPU。
例如它能 將自然語言處理(NLP)處理速度可提升20%-50%,為圖像分類帶來6倍的吞吐量而且是更低的時延,在一些金融模型方面訓練速度能夠提高26倍以上。
目前IPU已實現量產,通過拜訪微軟Azure等雲計算平臺,或者購買戴爾服務器等產品,均可獲取IPU資源。在國內,Graphcore也正在與金山雲合作,擬上線一個針對中國開發者和創新者的雲業務。
除了晶片產品走向落地,在過去6-12個月,Graphcore在全球國界快速鋪開,迄今有全球員工450人,分布在北京、上海、深圳、臺北、布裡斯托、倫敦、劍橋、挪威、奧斯陸、西雅圖、帕拉奧圖、紐約、奧斯汀、東京、首爾等地。
02以計算圖為表征的創新AI晶片架構
Graphcore的自研晶片架構誕生的背景,源於過去幾年AI算法模型規模呈指數級增長,需要更適宜的全新處理器架構。
相較傳統科學計算或高性能計算(HPC),AI或者說機器智能有一些特性,包括大規模並行就散、稀疏數據結構、低精度計算,以及在訓練推理過程中的數據參數復用、靜態圖結構。
Graphcore IPU即是針對計算圖的處理設計而成,相比傳統智能處理器,IPU有三個核心區別:採用MIMD架構、所有模型在片內處理、可解決大規模並行計算處理器核之間的通訊效率。
具體而言, IPU採用大規模並行MIMD的處理核,拋棄了外部DDR,在片內做到300MB的大規模分布式片上SRAM,以打破記憶體頻寬對整體性能構成的瓶頸。
相較CPU的DDR2子系統或是GPU的GDDR、HBM來說,IPU這一設計 可將性能提升10-320倍。與拜訪外存相比較,時延基本為1%,可忽略不計。
當前已量產的IPU處理器為GC2,擁有256億個晶體管,在120瓦功耗下,混合精度算力可達125TFLOPS。
GC2採用臺積電16nm工藝,片內包含1216個獨立的IPU處理器核心(Tile),整個GC2包含7296個線程,支持7296個程序並行運行。其記憶體頻寬為45TB/s、片上交換是8TB/s,片間IPU-Links為2.5Tbps。
為了解決並行硬件的高效編程問題,IPU通過硬件支持BSP協議,並通過BSP協議把整個計算邏輯分成了 計算、同步、交換。
這對軟體工程師和開發者來說非常易於編程,因為不必處理locks這個概念,也不必管任務具體在哪個核上運行。
目前IPU是世界上目前第一款BSP處理器,BSP技術在Google、Facebook、百度之類的大規模數據中心均有使用。
盧濤介紹說,IPU重點面向雲端訓練以及對精度和延時要求高的推理場景,還有一些訓練和推理混合的場景。
在精度方面,IPU當前不支持整數int8,主要支持FP16、FP32以及混合精度。
當前應用較大的主流計算機視覺類模型以int8為主,而自然語言處理推理以FP16、FP32為主流數據格式,IPU使用FP16精度在ResNeXt、EfficientNet等新興視覺模型中性能功耗比同樣具有優勢。
未來,Graphcore的推進策略還是訓練和推理並行,但會更聚焦於一些對精度和時延要求更低、對吞吐量要求更高的場景。另外,他們也看到在推薦算法等應用出現一些希望同時實現訓練和推理的需求。
03軟體支持容器化部署,上線開發者社區
硬件晶片架構是基礎,而軟體則是提升用戶體驗的關鍵利器。
對於AI晶片來說,晶片研發出來只是第一部分,要能落地到產業中,還需展現出色的 可移植性、可開發性、可部署性,能提供完善的工具鏈和豐富的軟體庫,可實現與主流機器學習框架無縫銜接,而整個鏈條全部打通需要非常大的投入。
今年5月26日,全球知名科技分析機構Moor Insights & Strategy曾發表了一篇研究論文 《Graphcore的軟體棧:Build To Scale》,其中寫道:「 Graphcore是我們目前已知的唯一一家將產品擴展到囊括如此龐大的部署軟體和基礎架構套件的初創公司。」
盧濤認為,對於AI晶片來說,真正商業化的衡量標準在於三點:是否有平臺化軟體的支持、是否有大規模商用部署軟體的支持、是否能實現產品化的部署。
對此,Graphcore的Poplar SDK提供了完整的軟體倉庫來執行其計算圖工具鏈,有四個主要特性:
(1)開放且可擴展的Poplar庫:目前已提供750個高性能計算元素的50多種優化功能,修改和編寫自定義庫。
(2)直接部署:支持容器化部署,可快速啟動並且運行。標準生態方面,可支持Docker、Kubernetes,還有像微軟的Hyper-v等虛擬化的技術和安全技術。
(3)機器學習框架支持:支持TensorFlow 1、TensorFlow 2、ONNX和PyTorch等標準機器學習框架,很快也將支持百度飛槳。
(4)標準生態支持:通過微軟Azure部署、Kubernetes編排、Docker容器以及Hyper-V虛擬化和安全性,已生產就緒。
目前Poplar SDK支持最主要的三個Linux操作系統發行版本:ubuntu、RedHat Enterprise Linux、CentOS。
ubuntu是迄今在AWS上最流行的一個操作系統,RedHat Enterprise Linux對一些企業級用戶做私有雲非常重要,而CentOS在中國互聯網公司中應用廣泛。
今年5月,Graphcore推出分析工具PopVision Graph Analyser,並上線Poplar開發者文檔和社區。
使用IPU編程時,可借助PopVision可視化圖形展示工具來分析軟體運行的情況、效率調試調優等。
Poplar開發者文檔和社區中提供了大量的Poplar user guide和文檔。開發者可通過www.graphcore.ai/developer拜訪。
此外,Graphcore在Stack Overflow上也有針對IPU開發者的知識入口網站,並在知乎上開辟了新的創新者社區,未來通過知乎將更多深度文章呈現給開發者和用戶。
據盧濤介紹,有些國內用戶反饋,認為Poplar的應用性優於CUDA,執行同樣的任務,在Poplar上開發速度更快。
04案例程式可下載,秀五大垂直應用
當前基於IPU的應用已覆蓋了機器學習的各個應用領域,包括自然語言處理(NLP)算法、圖像/視訊處理、時序分析、推薦/排名以及概率模型。
這些應用案例和模型已在TensorFlow、ONNX和Graphcore PopARTTM上可用,所有程式均可在Github上下載。
相較NVIDIA V100,IPU在自然語言處理、概率算法、計算機視覺算法等應用均展現出性能優勢。
▲對比GPU,IPU在運行時展現的性能優勢
例如訓練BERT,在NVLink-enabled的平臺上大約要50多小時才能做到一定精度,而在基於IPU的戴爾DSS-8440服務器上只需36.3小時,速度提高25%。
做BERT推理時,同一時延,IPU吞吐量比V100高一倍;在訓練MCMC時,IPU可將性能提升至V100的26倍。
運行ResNeXt推理時,IPU可實現6倍的吞吐量和1/22的延時。一些搜尋引擎公司、醫療影像公司用戶已通過IPU來使用ResNeXt的服務。
Graphcore銷售總監朱江分享了IPU在金融、醫療、電信、機器人、雲與互聯網等五類垂直領域的應用實例。
1、金融:LSTM推理性能提升260倍
IPU在算法交易、投資管理、風險管理及詐騙識別領域等主要金融領域均表現出顯著優勢。
例如在推理方面,延遲性能不變時,IPU可將長短期記憶(LSTM)模型吞吐量提升260倍,對於不可向量化模型亦能取得非常好的效果。
在訓練方面,IPU可將MCMC概率模型的采樣速度提高26倍,可進行阿爾法預測和期權定價,並能將強化學習的訓練速度提升13倍。
採用多層感知器(MLP)預測銷售結果時,相較Batch Size為512K的GPU,IPU吞吐量可提升5.9倍以上。
2、醫療和生命科學:影像分析能效提升4倍
醫療和生命科學包括新藥研發、醫學圖像、醫學研究、精準醫療等領域,涉及大量龐雜的實驗,加速計算過程對一些醫學成果的更快產出至為重要。
微軟用ResNeXt模型做顱內出血醫學影像分析時,使用IPU較V100 GPU速度提高2倍,而功耗僅為V100的一半。
3、電信:加速5G創新應用
在電信領域,智慧網路、5G創新、預測性維護和客戶體驗方面均可應用IPU帶來加速體驗。
例如,機器智能可幫助分析無線數據的一些變化,運行LSTM模型進行網路流量矩陣預測時,採用IPU性能比GPU提升超過260倍。
網路切片和資源管理是5G中的一個特色,需要大量學習沒被標記過的數據,需要應用強化學習模型,而在IPU上運行強化學習,訓練吞吐量相較GPU最多可提高13倍。
4、機器人:解決經典光束法平差加速問題
在機器人領域,倫敦帝國理工學院Andrew Davison教授帶領的機器人視覺小組在今年3月發表的論文中採用IPU來開發新算法,用以優化空間人工智慧的效率。
相較使用Ceres中央處理器庫的1450毫秒,IPU處理器僅在40毫秒內就解決了真正的光束法平差(Bundle Adjustment)這一經典的計算機視覺問題。
5、雲與互聯網:通過微軟Azure開放
雲與互聯網是Graphcore早期及現在一直主要推廣的一個重方法域。
當前微軟在Azure公有雲上已面向全球客戶開放IPU公有雲服務。此外,微軟在一些自然語言處理、計算機視覺應用中已使用IPU實現加速。
另外歐洲搜尋引擎公司也使用IPU進行ResNeXt模型推理,做了一個搜圖識別應用,將性能提升3.5倍以上。
05結語:即將接受中國市場的查驗
今年疫情拖累全球許多行業的發展,但在盧濤看來,AI領域非但不會走向低潮,反而會有很大發展,尤其是自然語言處理類算法的發展會催生大量新應用。
疫情在全球範圍內推進了數字化的加速,亦會推進數據中心等算力基礎設施的建設進程。
盧濤認為,2020年是對AI晶片非常關鍵的一年,如果企業拿不出AI晶片產品,或者對軟體不夠重視,對後續持續化投入可能將是很大的挑戰。
從Graphcore與阿裡、百度的合作來看,該公司今年在中國市場的推進明顯提速。
盡管Graphcore在中國市場的整體啟動較北美地區晚了一年左右,但盧濤期望, 中國市場能在Graphcore全球市場占比達40%-50%。
此外,Graphcore也希望針對中國市場的需求,做產品的定制化演進。
據盧濤介紹,Graphcore有兩支技術團隊,一個是以定制開發為主的工程技術團隊,另一個是以對用戶的技術服務為主的現場應用團隊。
其中工程技術團隊承擔兩個方面的工作:一是根據中國本地AI應用的特點及需求,將一些AI算法模型在IPU上實現落地;二是根據中國本地用戶對於AI的穩定性學習框架平臺軟體方面的需求,做功能性的一些開發加強的工作。
從上述種種應用案例來看,Graphcore已初步證明其創新IPU架構在多類AI應用上的出色訓練和推理表現。而Graphcore還會繼續「練內功、打基礎」,攻克技術難題,加固技術實力。
不過晶片和相幹軟體工具的落地只是第一步,真正商業化戰果如何,還要看市場給出的回音。
更多晶片半導體熱文,
請在芯東西公眾號對話頁回復「 晶片」查看。
1、產品與技術:
《光刻機之戰》
《光刻機詳解:「恐怖」的光源系統》
《華為晶片28年發家史》
《華為晶片大閱兵》
2、重要歷史回顧
《中芯國際:無奈的內訌》
《EDA戰爭:一個矽谷叢林的故事》
《阿斯麥封神記》
點個「在看」吧