AI，這才是你要的智能無損數據中心網路！

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

「到2020年，行業前15%的企業都將採用機器學習；到2023年，人工智能將取代50%的IT業務工作量」。

也許你還沒有察覺，但IDC的這些預測數據在提醒著我們每一個人，人工智能時代正加速到來，其已不再僅僅是實驗室中的數據模型，產業界正在不懈地探索人工智能應用落地的路徑。

政府、金融、互聯網、新零售、新製造、醫療，未來這六大行業應用AI的3年復合增長率將超過30%。不過要說的是，人工智能「撲面而來」，能夠對其起到關鍵支撐作用的底層基礎設施已經準備好了嗎？

算法、算力、數據被稱為推動AI發展的「三駕馬車」，到今天深度學習算法已經形成突破，不過算法驅動的智能程度嚴重依賴海量的樣本數據和高性能的計算能力。當下，在提升AI數據處理的效率方面，存儲和計算領域已經發生革命性的變化。

存儲介質從機械硬盤(HDD)演進到閃存盤(SSD)，來滿足數據的實時存取要求，介質時延降低了不止100倍；在算力方面，業界已經在採用GPU甚至專用的AI晶片，處理數據的能力提升了100倍以上。

不過雖然存儲介質和計算能力在大幅提升，但當前網路通信時延卻成為性能進一步提升的瓶頸。通信時延在整個存儲E2E時延中占比從10%躍遷到60%以上，也就是說，寶貴的存儲介質有一半以上的時間是空閒通信等待；計算瓶頸也類似，如某語音識別訓練，每次迭代任務時長為650ms~700ms，通信時延為400ms，同樣，昂貴的處理器也有一半時間在等待模型參數的通信同步。

所以回到上面那個問題，在推動AI發展起到關鍵支撐作用的底層網路基礎設施是否已經準備好？答案是Yes也是No。

AI，這才是你要的智能無損數據中心網絡！

（圖）網路通信成為系統性能的短木板

RDMA的變遷和AI網路的新訴求

可能有的人對這個結論產生疑問，他們會說RDMA（Remote Direct Memory Access，即遠程直接數據存取）已大大降低了通信時延。的確，RDMA在AI運算和SSD分布式存儲追求極致性能的網路大潮中，替換TCP/IP已是趨勢。目前，國內外不少互聯網公司已經開始部署RDMA，甚至大規模部署，例如微軟等企業。

因為RDMA的內核旁路機制，允許應用與網卡之間的直接數據讀寫，將服務器內的數據傳輸時延降低到接近1us（微秒）。同時，RDMA的內存零拷貝機制，允許接收端直接從發送端的內存讀取數據，極大地減少了CPU的負擔，提升CPU效率。

但RDMA並不完美，專用InfiniBand和傳統以太網路是RDMA的兩類網路承載方案。具體說來：

InfiniBand是一個用於高性能計算的計算機網路通信標準，不同於傳統 TCP/IP協議棧，Infiniband擁有自己的網路層和傳輸層協議。而絕大多數現網都採用IP以太網路，所以對於需要廣泛互聯的AI計算和分布式存儲系統，採用InfiniBand無法滿足互通性需求。並且，作為專用的網路技術，Infiniband無法繼承用戶在IP網路上運維的積累和平台。

對於基於傳統的IP以太網路來承載RDMA方案來說，其缺乏完善的丟包保護機制，>10-3的丟包率，將導致RDMA有效吞吐急劇下降。很多廠家會採用PFC和ECN機制來避免丟包提升吞吐率，而現有的RDMA擁塞&調度算法，導致網路設備極易出現隊列累積，從而觸發PFC。網路中如果出現大量PFC，極有可能誘發網路死鎖，導致網路系統性風險。

所以，RDMA的高效運行，離不開一個0丟包、高吞吐的開放以太網作為承載。並且，在由應用架構從集中式走向分布式架構過程中造成的incast突發流量和「大包」特徵，也進一步加劇了網路擁塞。

總之，無論是應用分布式架構，還是RDMA通信效率的角度，均呼籲數據中心網路發生變革。最近，華為發布了《AI Fabric, 面向AI時代的智能無損數據中心網路》白皮書（以下簡稱「白皮書」），白皮書指出，這場AI驅動的網路變革需要更智能的調度和無損的轉PO，做到零丟包、低時延、高吞吐的智能無損數據中心網路。

AI Fabric打造面向AI時代的智能無損網路

在HUAWEI CONNECT 2018上，華為正式發布了AI Fabric智能無損數據中心網路方案。「0丟包」，「低時延」和「高吞吐」即是AI Fabric的三個核心特徵，這背後源自於華為創新的iLossless AI算法技術，提供獨特的精確擁塞流識別、動態擁塞水線設定和快速反壓機制等系列擁塞管理和流量控制能力，從而帶來極致網路性能。

AI，這才是你要的智能無損數據中心網絡！

白皮書指出，面對動態流量和海量參數挑戰，華為一方面投入研究團隊分析各種應用，提煉出流量模型特徵；另一方面通過在交換機集成AI晶片，實時采集流量特徵和網路狀態，基於AI算法，本地實時決策並動態調整網路參數配置，使得交換機緩存被合理高效利用，做到整網0丟包。

AI Fabric帶來的卓越性能進一步也提升了其所帶來收益：45倍的ROI（投資回報率）。怎麼得出來的？

據權威第三方測試機構ENTAC測試結論，AI Fabric可以在HPC場景下最高降低44.3%的計算時延，在分布式存儲場景下提升25%的IOPS能力。從商業價值角度看，25%的IOPS性能提升相當於同性能下存儲投資減少25%。以512個節點組成的分布式存儲系統為例，採用AI Fabric意味著384個存儲節點即可獲得採用傳統網路512個存儲節點的IOPS性能。綜合測算，存儲CAPEX降低的收益與AI Fabric的投資相比，至少可帶來45倍的ROI收益率。

並且同樣重要的是，基於標準的以太網架構，華為AI Fabric帶來了一張統一融合的網路。一張網可承載LAN（局域網）、SAN（存儲區域網路）和IPC（進程間通信）三種流量，避免了專網獨立維護。

一般說來，當前的數據中心內部有三張不同的網路: Infiniband網路提供低時延的網路IPC通信，FC網路提供高可靠0丟包的存儲網路，而傳統的以太網承載一般的業務。顯然，這樣當前數據中心網路整體成本很高。AI Fabric同時承載SAN和IPC流量和一般LAN流量，成為AI時代的數據中心構建統一融合網路架構的最佳選擇。

在產品端，華為則提供了AI Ready的交換機硬件架構，支撐AI Fabric長期演進。AI Fabric通過內嵌AI智能晶片的CloudEngine交換機，基於CLOS組網模型構建Spine-Leaf兩級智能架構：計算智能和網路智能結合，全局智能和本地智能協同。

在核心層設備智能方面，華為將於2019年1月9日發布內嵌AI晶片的下一代智能數據中心交換機，從而為AI Fabric的未來智能演進提供硬件架構保證。

AI Fabric的實踐和未來

當然，華為打造的AI Fabric智能無損數據中心網路方案並不是一套理論方案，它已經得到檢驗和實踐。就像上文所說，AI Fabric經過了EANTC的嚴格測試驗證，在高性能計算和分布式存儲的所有場景測試用例中，都做到了高吞吐和零丟包，並基於網路時延的優化有效縮短高達40%的HPC節點間通信時長，大幅提升AI訓練等創新業務效率。在今年的東京Interop展上，華為AI Fabric還榮獲了官方發布的Best of Show Award金獎。

目前，AI Fabric已經在互聯網和金融行業得到應用。

某互聯網巨頭布局無人駕駛，但因涉及到大量的AI計算（1天采集的數據，需要幾百的GPU服務器7天才能訓練完），嚴重影響無人駕駛的上市時間。通過華為AI Fabric提供0丟包、低時延、高吞吐的極速無損以太網路，最終使得整體訓練的時長縮短40%。

在招商銀行，AI Fabric智能擁塞調度加速網路通信，經實測最終存儲集群IOPS性能提升了20%，單卷性能達到35萬IOPS。加速了招商銀行分行雲性能，為用戶提供了像訪問本地盤一樣的使用體驗。

總之來說，AI正在走進越來越多的企業，就像華為GIV(Global Industry Vision)所預測：到2025年企業對AI的採用率將達到86%，越來越多的企業將AI視為數字化轉型的下一站。

在這一轉型進程中，數據中心網路亟需消除自身短板，從而轉向更高吞吐、更低時延、更可靠、穩定和融合的鏈路技術和網路協議。AI Fabric智能無損數據中心網路無疑為市場提供了一個面向AI時代的極佳選擇。

#網路新引擎 AI贏未來#

華為網路春季新品發布會

將於2019年1月9日在北京召開

精彩即將揭曉，敬請關注

AI，這才是你要的智能無損數據中心網絡！

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

更多文章