Wave CTO Chris:7nm DPU計劃明年面世!

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

Wave CTO Chris:7nm DPU計劃明年面世!

if (window.location.host != ‘www.xuehua.us’){window.location.href=’https://www.xuehua.us/2019/03/23/wave-cto-chris%ef%bc%9a7nm-dpu%e8%ae%a1%e5%88%92%e6%98%8e%e5%b9%b4%e9%9d%a2%e4%b8%96%ef%bc%81′;}

Wave CTO Chris:7nm DPU計劃明年面世!

3月15日,上海,由智東西主辦、AWE和極果聯合主辦的GTIC 2019全球AI晶片創新峰會成功舉辦!峰會現場延續上一屆的火爆場景,全場從開幕到下午結束座無虛席,而且有不少熱情觀眾堅持站著聽完峰會全程。

20位海內外AI晶片業界大咖齊聚一堂,圍繞AI晶片在架構創新、生態構建、場景落地等方面的技術前景和產業趨勢「華山論劍」。

本屆峰會報名參會的觀眾覆蓋了近4500家企業,到會觀眾極為專業,其中總監以上級別占比超過62%,現場實際到會人數超過1800位。

Wave CTO Chris:7nm DPU計劃明年面世!

▲Wave Computing高級副總裁兼CTO Chris Nicol

會上,矽谷AI晶片當紅炸子雞Wave Computing高級副總裁兼CTO Chris Nicol發表了題為《革命性的AI深度學習計算加速架構和處理器——Dataflow和DPU》的演講。

作為Wave的技術最高負責人,Chris不僅闡述了Wave在數據流處理器(DPU)和軟件可動態重構處理器(CGRA)這一創新架構方面的研發進展,而且還分享了關於AI晶片未來趨勢的預判。

在大會前夕,智東西還與Chris進行了一次面對面的深入交流,從Wave在數據中心、邊緣與終端的AI加速籌碼,聊到Wave下一代7nm DPU的技術升級,Chris告訴智東西,Wave計劃在明年推出7nm DPU。這也是Chris首次接受國內媒體的深度專訪。

Chris談到,基於Wave研發的DPU,軟件可動態重構處理器CGRA有潛力革新現有的深度學習格局,另外他認為,聯合學習將是機器的未來。

Wave CTO Chris:7nm DPU計劃明年面世!

AI訓練將從數據中心走向邊緣與終端

Wave Computing成立於2010年,目前專注於通過基於數據流(dataflow)技術的系統加速從數據中心到邊緣的AI深度學習計算,主要業務部門分別承擔MIPS IP業務、矽晶片業務、系統業務和解決方案業務。這家公司在全球七個國家設有辦事處,累計融資超過2億美元。

就在去年6月,這家公司將ARM昔日的對手、老牌半導體IP公司MIPS收入麾下,並在不久之後宣布MIPS開源計劃。

無論是在演講還是在與智東西的交談中,Chris均強調到AI正從數據中心遊向邊緣:「神經網路正變得越來越大,新的競爭將是網路化之爭。」

Wave CTO Chris:7nm DPU計劃明年面世!

萬物互聯正成為可能,每一個設備都通過網路做到聯通,大到數據中心系統,小到邊緣和終端設備都在進行智能化升級。Chris提出數據中心的兩個關鍵詞,分別是「scale up」和「scale out」。

Scale up是指將大量晶片集成在一個機架中,scale out指的是在數據中心將大量的機架網路化。在訓練一個大型神經網路時,通過將scale up和scale out結合,即可以構建一套大型的數據流超算。

Wave CTO Chris:7nm DPU計劃明年面世!

目前,全球領先的半導體公司,分別專攻晶片、系統、IP和解決方案這些服務中的一個或幾個,比如Google、華為暫不對外銷售自己的晶片,微軟、亞馬遜、Graphcore等都不做IP。Chris表示,Wave是迄今為止全球僅有的同時提供從數據中心到邊緣的系統、晶片、IP、解決方案服務的公司。

Wave CTO Chris:7nm DPU計劃明年面世!

創新架構CGRA:比GPU更靈活,比FPGA低門檻

Wave希望探索通過軟件編程來動態重構晶片,這和清華大學魏少軍教授所提出的「軟件定義晶片」異曲同工。

自成立以來,Wave一直深耕於基於數據流驅動dataflow技術的DPU採用非馮諾依曼(von Neumann)架構的軟件可動態重構處理器CGRA(Coarse grain reconfigurable array/accelerator)技術,並基於此研發出基於CGRA架構的AI晶片——DPU(dataflow processing unit)。

智東西曾與Wave Computing中國區總經理熊大鵬博士的交流,熊博士生動闡述數據流(dataflow)的工作原理。(革命性的DPU牛在哪?深度對話Wave Computing熊大鵬)

CGRA適用於大規模異步並行計算問題,其主要優勢是使得硬件更加靈活地適配於軟件,降低AI晶片開發門檻。

Chris稱,相比較CPU、GPU和FPGA,CGRA在可編程性(或通用性)和性能方面達到很好的綜合平衡,具有更好的能效和性價比。在保持良好的可編程性(或通用性)的同時,CGRA的能效可以達到或接近ASIC的水平。

他還介紹道,由於CPU的通用處理能力無可取代,CGRA通常是和CPU進行協同作用。不過相較GPU無法脫離CPU獨立工作,而CGRA僅需CPU幫他處理控制、管理和數據預處理任務,所以它比GPU速度更快。

與FPGA的主要區別則在於編程,FPGA使用的是硬件編程語言Verilog,對於軟件工程師來說編程難度大。而CGRA支持C、Python、JAVA等高級程序設計語言,更方便工程師們上手。

Wave CTO Chris:7nm DPU計劃明年面世!

Wave CTO Chris:7nm DPU計劃明年面世!

7nm DPU硬核升級,CGRA與MIPS強強聯合

基於CGRA架構,Wave Computing打造了數據流處理器DPU(dataflow processing unit),適用於汽車電子、智慧零售、智慧金融等各種複雜、算力要求高的各類AI應用。第一代DPU採用16nm制程工藝,以6 GHz以上的速度運行,已經落地商用。

Wave CTO Chris:7nm DPU計劃明年面世!

Chirs Nicol表示,Wave所做的DPU晶片,將軟件接入到晶片,可以存取外部內存上的數據信息。該晶片內部集成大量Cluster,每個Cluster內包含8個DPU算術單元、16個處理元素(PE,Processing Element)及存儲器。其中,PE用全局異步、局部同步設計做到,沒有時鐘信號,由數據流驅動。PE和CGRA可同時運行計算。

Wave CTO Chris:7nm DPU計劃明年面世!

此外,Wave還引入512 x 512通用矩陣算法(GEMM)處理深度學習任務,充分利用系統的多級存儲結構和程序執行的局部性,以降低能耗和加速計算。

Wave CTO Chris:7nm DPU計劃明年面世!

Chris在PPT中展示了GPU和DPU在數據中心應用的區別。圖左為GPU的工作流程,多個GPU並行訓練,然後CPU會對該模型進行更新和梯度、參數、損失以及其它變量的反饋。對於大型模型,這種方式需要大量的GPU進行並行訓練。

而Wave採用的工作流程大不相同(圖右),Wave提供彈性的數據流、MIPS、AI算法及框架等面向雲、邊、端場景的解決方案。不管原先的數據流來自哪里,均可對這些圖像圖形信息進行部署,比如部署到汽車、移動手機等邊緣領域。

Wave CTO Chris:7nm DPU計劃明年面世!

Wave用了8年多時間來開發這款晶片所需要的軟硬件技術儲備。Chris介紹說,相比上一代16nm DPU,Wave正與博通(Broadcom)合力研發的新一代7nm DPU將會有多處重大升級。

Chris主要介紹了兩點升級,一個是引入MIPS技術,另一個是採用高帶寬內存HBM(High Band Memory)。

首先,Wave已經推出的16nm DPU採用的是英特爾CPU,而下一代7nm DPU會引入64位MIPS多線程CPU。

Wave的新一代DPU可以支持TensorFlow在MIPS上運行,它的速度和能耗均比上一代DPU大幅升級。

Chris表示,MIPS擁有虛擬化、多線程處理等技術優勢。相比ARM,MIPS是開源架構,不需要付專利費;相比RISC-V,MIPS已經經過6代的優化,更加節省能耗,同時生態也相對成熟。再加上Wave正在針對AI深度學習開發的MIPS擴展指令集,DPU可以滿足多數終端設備對AI算力的需求。

Wave CTO Chris:7nm DPU計劃明年面世!

另外,新一代DPU引入高帶寬內存HBM。HBM是一個新型DDR內存晶片,通過將多個DDR晶片堆疊做到大容量、高位寬的DDR組合陣列。HBM將幫助新一代DPU突破存儲瓶頸,提升帶寬並降低功耗。

Chris告訴智東西,Wave計劃在明年發布7nm DPU的計劃。

Wave CTO Chris:7nm DPU計劃明年面世!

聯合學習:做到邊緣AI訓練

說罷DPU如何發力數據中心,我們再來聊聊Wave怎樣將機器學習訓練從數據中心擴展到邊緣設備。

Wave CTO Chris:7nm DPU計劃明年面世!

Chris特意提到聯合學習(federated learning),就是在數據中心訓練一個大型模型,然後將其分布到不同的邊緣設備上,邊緣設備也具備訓練的能力,可以在數據中心訓練好的模型的基礎上,基於實際所處的環境進行新的訓練學習,隨後將訓練完成的模型梯度再傳回數據中心,促使數據中心進一步升級其神經網路模型,再將更新的模型傳送到各個邊緣或終端設備。

以自動駕駛汽車為例,一輛自動駕駛汽車上可能有20多個智能錄影頭,每個錄影頭都配有由數據中心訓練好的神經網路模型,當它馳騁在不同的城市街道,比如上海、倫敦、紐約,錄影頭所記錄的街道、車型、車輛顏色等信息可能大不相同。

然而,數據中心並不能考慮到每輛自動駕駛汽車所「看到」的路況,這就需要汽車根據自己所處的環境,在邊緣進行學習和訓練,並將訓練結果反饋到數據中心,從而升級主神經網路模型,然後數據中心再將更加智能的模型傳送給各個自動駕駛汽車。

Wave CTO Chris:7nm DPU計劃明年面世!

如今數據隱私安全問題已經成了大眾關心的一大焦點,而聯合學習的方法使得邊緣設備無需將采集到的數據傳輸給數據中心,保障了用戶的隱私安全。

聯合學習聯同以低功耗著稱的MIPS CPU,為Wave在邊緣和終端加速AI的解決方案提供技術支撐。

Wave CTO Chris:7nm DPU計劃明年面世!

結語:CGRA創新征途剛剛開啟

如今NVIDIA仍是數據中心深度學習訓練領域的獨孤求敗,但新的競爭者已經在積蓄力量,以CGRA為代表的AI晶片架構創新正在潛移默化地改變著AI晶片產業格局。

盡管CGRA還在發展的早期階段,但Chris相信Wave將擁有光明的前景,他期待著更多的公司開始加入這一創新架構的陣營,共同撐起CGRA的新生態,隨著新一輪的競爭格局形成,客戶群體將是最終的贏家。

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!