持續25小時實測 最強AI算力平臺到底強在哪兒?

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

從互聯網、智能硬件到行業應用系統,計算正在成為數字化的能量之環和核心推進力,各類應用場景對算力的需求每年景倍增加,尤其進入5G時代,新增數據類型80%以上都是圖片、視訊、文檔與語音等非結構化數據,對這些數據處理需要更高的算力。

通用計算的性能增長乏力,人工智慧對算力的需求卻越來越高。於是,FPGA、GPU以及NPU等新計算組件紛紛加入戰陣,從通用計算轉向異構計算。華為基於昇騰晶片的訓練與推理類服務器,形成覆蓋端邊雲全棧全場景的產品與解決方案,對AI類應用帶來強勁的性能提升。

為了探尋昇騰晶片以及Atlas系列產品在AI類應用的加速作用,探究最強AI算力平臺究竟「強」在哪兒?E企研究院針對訓練場景,實測Atlas 800訓練服務器,體驗到超乎想像的性能。

實測前重點:選擇主流模型

AI的實現包括兩個核心環節:訓練(Training)和推理(Inference)。根據承擔任務的不同,訓練場景中要通過大數據訓練出一個龐雜的神經網路模型,即用大量標記過的數據來「訓練」相應的系統,使之可以適應特定的功能,這意味著,訓練需要極高的計算性能、較高的精度、能處理海量的數據,還要有一定的通用性,以便完成各種各樣的學習任務。

因此,實測Atlas 800服務器的具體性能之前,需要選取目前業界主流的訓練模型,從AI2的ELMo,到OpenAI的fine-tune transformer,再到BERT,在這些預訓練的語言模型中進行初步篩選。

1.選擇AI領域最主流、最強大的訓練模型

在人工智慧領域,對於自然語言處理(Natural Language Processing 以下簡稱「NLP」)的研究也是充滿魅力和挑戰的,目前NLP領域最主流的訓練模型是Google Research提出的BERT(來自Transformers的雙向編碼表示,Bidirectional Encoder Representations from Transformers的縮寫)模型,作為一種新型的語言模型,BERT推出後就橫掃包括語言問答、理解、預測等各項NLP指標的桂冠。

除了在模型結構和訓練目標上的創新,BERT的成功還來自於模型的體量以及訓練的數據量,BERT預訓練模型有BERT-Base和BERT-Large之分,主要是訓練參數的數量不同,比如BERT-Base總計約1.1億個參數,而BERT-Large則有3.4億個參數。

持續25小時實測 最強AI算力平臺到底強在哪兒? 科技 第1張

算法/模型的突破離不開數據,但更離不開算力,BERT預處理模型功能需要建立在極強的計算力基礎之上,訓練的代價是不菲的。

由於公認通用處理器並不適合支撐AI訓練場景,除有實力自己研發AI專用晶片的互聯網巨頭外(比如Google用了16個自己的TPU集群來訓練BERT-Large模型),行業內廣泛使用GPU為AI訓練應用提供算力,諸多提供AI解決方案的公司利用BERT訓練模型來展現其性能。

在實測前,E企研究院就選取了NLP領域的主流模型:BERT預處理模型。

2.選配置,搭平臺

E企研究院根據業內某主流AI供應商公開的硬件配置,選擇一個與Atlas 800服務器配置相似的GPU服務器性能結果作為參照組,來驗證運行相同BERT-Large模型時的性能。

在GitHub官網上,可以看到某AI供應商用8張GPU卡運行BERT-Large預訓練模型,其結果與代碼公布均在GitHub上(點擊查看鏈接:https://github.com/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/LanguageModeling/BERT )。

E企研究院驗證的單臺華為Atlas 800訓練服務器內正好配備了8張昇騰910扣卡,提供AI算力的晶片數量也相同,工程師在下載此AI供應商發布在Github上的BERT-Large模型代碼後,移植到Atlas 800訓練服務器上,來驗證Atlas 800訓練服務器在進行BERT-Large模型的性能。

3.構建模型超參 快速部署

超參數,是除了算法內部本身參數以外,其他需要設置的外圍參數統稱。E企研究院工程師除了保證其可正常運行在Atlas 800訓練服務器上的必要代碼修改之外,不做其他超參變動,以此來評估在近似相同條件下,Atlas 800訓練服務器在運行BERT-Large預訓練模型時所發揮的性能。

持續25小時實測 最強AI算力平臺到底強在哪兒? 科技 第2張

圖註:在華為網站昇騰開發者社區的ModelZoo中,提供如何將基於TensorFlow框架的BERT模型轉換到Atlas平臺上的方法

此次工程師測試使用的是BERT-Large模型,本質上與BERT-Base是同一個模型,只是訓練時的層數不一樣(前者24層,後者12層)。

從TensorFlow轉換到昇騰平臺運行的過程非常簡單,只需三步即可。

  • 第一步:將指定訓練用的數據集轉換為tfrecord格式, 這次工程師測試使用的是維基百科英文版(這是Google論文中的舉例,也是某AI供應商使用的數據集,其測試結果可在GitHub官網中可查);
  • 第二步:更改環境變量,將提供算力的硬件改為昇騰910晶片;
  • 第三步,指定單卡/多卡進行訓練任務,工程師採用Atlas 800訓練服務器,指定8卡進行訓練。

25小時持續訓練結果:性能領先業界3倍以上

一切準備就緒後,工程師們開始BERT-Large模型訓練,訓練時間大約持續了25小時左右。在訓練過程中,通過命令行方式可以獲取實時訓練進度,每30秒更新一次,以此評估Atlas 800訓練服務器的性能,具體如下圖所示:

持續25小時實測 最強AI算力平臺到底強在哪兒? 科技 第3張

圖註:Atlas800訓練服務器正常運行BERT-Large模型24小時之後,進度大約在27萬步前後,工程師通過命令行獲取其運行日志,並進行截圖,紅框中即為體現算力性能的訓練表現。

從上圖顯示的數值進行平均計算,每一步(Step)的吞吐量約為2605,輸出數值表現也非常穩定,是採用某AI供應商所使用GPU訓練成就的3倍以上。

同時從這家AI供應商在其官網中公布的性能來看,在序列長度(Sequence Length)為128、批處理(Batch size)超過64時,其解決方案就會因為記憶體不足導致結果不可用,而Atlas 800訓練服務器則無此情況,其批處理甚至可以達到96,從上圖也可以看出,批處理數量越高,在進行BERT訓練時的性能越好。

解構Atlas 800訓練服務器:高性能背後的奧秘

在實測中,Atlas 800訓練服務器發揮出了超乎我們想像的性能,高性能背後的硬件平臺是怎樣的呢?經過體驗後,E企研究院得出以下結論:

1.創新架構新高度

Atlas 800訓練服務器採用4U標準設計,內部分為上下兩層,上層主要是CPU及其主板,下層是8個扣卡(Mezzanine)式的昇騰910處理器及其主板。

持續25小時實測 最強AI算力平臺到底強在哪兒? 科技 第4張

圖註:Atlas 800訓練服務器內部,從上層的四路布局,可以看出是使用鯤鵬920處理器的9000型,因為採用Intel處理器的型號(9010)為雙路配置。使用鯤鵬920處理器的一大優勢在於支持PCIe 4.0通道,能夠更充分的發揮出昇騰910晶片的性能,而Intel平臺則要到2021年推出的下一代處理器才能支持

持續25小時實測 最強AI算力平臺到底強在哪兒? 科技 第5張

圖註:Atlas800訓練服務器內部的下層設計,8個金屬散熱片下面是8個扣卡式昇騰910處理器;圖中的線纜主要用於連接上層的CPU,這也使得Atlas 800訓練服務器有一種粗獷的暴力美

之所以說扣卡式的昇騰910在訓練場景中所能發揮的性能更高,原因在於,昇騰910晶片一共有三種高速接口,即PCIe 4.0通道、支持RoCE v2的100GbE、以及HCCS(Huawei Cache Coherent System,華為緩存一致性系統)高速互連。PCIe 4.0用於與CPU連接,100GbE用於集群組網,頻寬最高的HCCS則用於昇騰910晶片間互連。

以上圖為例,Atlas 800訓練服務器內部下層的8顆昇騰910晶片分為兩組並列,每組4顆,組內4顆昇騰910晶片使用HCCS互連,兩組之間再使用PCIe 4.0互連;由於HCCS的存在,即使使用相同數量的昇騰910晶片,Atlas 800訓練服務器的性能要高於相同數量的Atlas 300T中心訓練卡組網。

持續25小時實測 最強AI算力平臺到底強在哪兒? 科技 第6張

圖註:三種互連技術的作用範圍

單顆昇騰910晶片TDP可達350W,Atlas 800訓練服務器內一共部署了8顆,再加上CPU及其他配套周邊,整臺服務器的功耗高達5.6KW,當然性能也非常出眾,單臺Atlas 800訓練服務器最高可提供2.56 TFLOPS的AI算力。

同時,Atlas800訓練服務器也需要強大的散熱能力,Atlas 800訓練服務器支持風冷和液冷(其實是風液混合散熱,即通過冷板式液冷將昇騰910處理器發出的熱量帶走)兩種散熱方式,這可以根據數據中心條件進行選擇。

比如E企研究眼體驗的這臺Atlas 800訓練服務器就採用風冷散熱的方式。

持續25小時實測 最強AI算力平臺到底強在哪兒? 科技 第7張

圖註:Atlas800訓練服務器,前面幾乎被8組碩大的對旋風扇占滿,其中5組都位於下層,為8個昇騰910晶片吹風。右下角的「Model9000」表示其內採用的是(4路)鯤鵬920處理器+(8顆)昇騰910晶片。如果是英特爾平臺的處理器,那型號就是9010)

以上是Atlas 800訓練服務器系的性能實測及創新架構解析,華為Atlas服務器在AI應用中表現出的強大算力,將成為千行百業從數字化向智能化轉型的新動能。

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!