尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

從互聯網、智能硬件到行業應用系統，計算正在成為數字化的能量之環和核心推進力，各類應用場景對算力的需求每年景倍增加，尤其進入5G時代，新增數據類型80%以上都是圖片、視訊、文檔與語音等非結構化數據，對這些數據處理需要更高的算力。

通用計算的性能增長乏力，人工智慧對算力的需求卻越來越高。於是，FPGA、GPU以及NPU等新計算組件紛紛加入戰陣，從通用計算轉向異構計算。華為基於昇騰晶片的訓練與推理類服務器，形成覆蓋端邊雲全棧全場景的產品與解決方案，對AI類應用帶來強勁的性能提升。

為了探尋昇騰晶片以及Atlas系列產品在AI類應用的加速作用，探究最強AI算力平臺究竟「強」在哪兒？E企研究院針對訓練場景，實測Atlas 800訓練服務器，體驗到超乎想像的性能。

實測前重點：選擇主流模型

AI的實現包括兩個核心環節：訓練（Training）和推理（Inference）。根據承擔任務的不同，訓練場景中要通過大數據訓練出一個龐雜的神經網路模型，即用大量標記過的數據來「訓練」相應的系統，使之可以適應特定的功能，這意味著，訓練需要極高的計算性能、較高的精度、能處理海量的數據，還要有一定的通用性，以便完成各種各樣的學習任務。

因此，實測Atlas 800服務器的具體性能之前，需要選取目前業界主流的訓練模型，從AI2的ELMo，到OpenAI的fine-tune transformer，再到BERT，在這些預訓練的語言模型中進行初步篩選。

1.選擇AI領域最主流、最強大的訓練模型

在人工智慧領域，對於自然語言處理（Natural Language Processing 以下簡稱「NLP」）的研究也是充滿魅力和挑戰的，目前NLP領域最主流的訓練模型是Google Research提出的BERT（來自Transformers的雙向編碼表示，Bidirectional Encoder Representations from Transformers的縮寫）模型，作為一種新型的語言模型，BERT推出後就橫掃包括語言問答、理解、預測等各項NLP指標的桂冠。

除了在模型結構和訓練目標上的創新，BERT的成功還來自於模型的體量以及訓練的數據量，BERT預訓練模型有BERT-Base和BERT-Large之分，主要是訓練參數的數量不同，比如BERT-Base總計約1.1億個參數，而BERT-Large則有3.4億個參數。

持續25小時實測最強AI算力平臺到底強在哪兒？科技第1張

算法/模型的突破離不開數據，但更離不開算力，BERT預處理模型功能需要建立在極強的計算力基礎之上，訓練的代價是不菲的。

由於公認通用處理器並不適合支撐AI訓練場景，除有實力自己研發AI專用晶片的互聯網巨頭外（比如Google用了16個自己的TPU集群來訓練BERT-Large模型），行業內廣泛使用GPU為AI訓練應用提供算力，諸多提供AI解決方案的公司利用BERT訓練模型來展現其性能。

在實測前，E企研究院就選取了NLP領域的主流模型：BERT預處理模型。

2.選配置，搭平臺

E企研究院根據業內某主流AI供應商公開的硬件配置，選擇一個與Atlas 800服務器配置相似的GPU服務器性能結果作為參照組，來驗證運行相同BERT-Large模型時的性能。

在GitHub官網上，可以看到某AI供應商用8張GPU卡運行BERT-Large預訓練模型，其結果與代碼公布均在GitHub上（點擊查看鏈接：https://github.com/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/LanguageModeling/BERT ）。

E企研究院驗證的單臺華為Atlas 800訓練服務器內正好配備了8張昇騰910扣卡，提供AI算力的晶片數量也相同，工程師在下載此AI供應商發布在Github上的BERT-Large模型代碼後，移植到Atlas 800訓練服務器上，來驗證Atlas 800訓練服務器在進行BERT-Large模型的性能。

3.構建模型超參快速部署

超參數，是除了算法內部本身參數以外，其他需要設置的外圍參數統稱。E企研究院工程師除了保證其可正常運行在Atlas 800訓練服務器上的必要代碼修改之外，不做其他超參變動，以此來評估在近似相同條件下，Atlas 800訓練服務器在運行BERT-Large預訓練模型時所發揮的性能。

持續25小時實測最強AI算力平臺到底強在哪兒？科技第2張

圖註：在華為網站昇騰開發者社區的ModelZoo中，提供如何將基於TensorFlow框架的BERT模型轉換到Atlas平臺上的方法

此次工程師測試使用的是BERT-Large模型，本質上與BERT-Base是同一個模型，只是訓練時的層數不一樣（前者24層，後者12層）。

從TensorFlow轉換到昇騰平臺運行的過程非常簡單，只需三步即可。

第一步：將指定訓練用的數據集轉換為tfrecord格式，這次工程師測試使用的是維基百科英文版（這是Google論文中的舉例，也是某AI供應商使用的數據集，其測試結果可在GitHub官網中可查）；
第二步：更改環境變量，將提供算力的硬件改為昇騰910晶片；
第三步，指定單卡/多卡進行訓練任務，工程師採用Atlas 800訓練服務器，指定8卡進行訓練。

25小時持續訓練結果：性能領先業界3倍以上

一切準備就緒後，工程師們開始BERT-Large模型訓練，訓練時間大約持續了25小時左右。在訓練過程中，通過命令行方式可以獲取實時訓練進度，每30秒更新一次，以此評估Atlas 800訓練服務器的性能，具體如下圖所示：

持續25小時實測最強AI算力平臺到底強在哪兒？科技第3張

圖註：Atlas800訓練服務器正常運行BERT-Large模型24小時之後，進度大約在27萬步前後，工程師通過命令行獲取其運行日志，並進行截圖，紅框中即為體現算力性能的訓練表現。

從上圖顯示的數值進行平均計算，每一步（Step）的吞吐量約為2605，輸出數值表現也非常穩定，是採用某AI供應商所使用GPU訓練成就的3倍以上。

同時從這家AI供應商在其官網中公布的性能來看，在序列長度（Sequence Length）為128、批處理（Batch size）超過64時，其解決方案就會因為記憶體不足導致結果不可用，而Atlas 800訓練服務器則無此情況，其批處理甚至可以達到96，從上圖也可以看出，批處理數量越高，在進行BERT訓練時的性能越好。

解構Atlas 800訓練服務器：高性能背後的奧秘

在實測中，Atlas 800訓練服務器發揮出了超乎我們想像的性能，高性能背後的硬件平臺是怎樣的呢？經過體驗後，E企研究院得出以下結論：

1.創新架構新高度

Atlas 800訓練服務器採用4U標準設計，內部分為上下兩層，上層主要是CPU及其主板，下層是8個扣卡（Mezzanine）式的昇騰910處理器及其主板。

持續25小時實測最強AI算力平臺到底強在哪兒？科技第4張

圖註：Atlas 800訓練服務器內部，從上層的四路布局，可以看出是使用鯤鵬920處理器的9000型，因為採用Intel處理器的型號（9010）為雙路配置。使用鯤鵬920處理器的一大優勢在於支持PCIe 4.0通道，能夠更充分的發揮出昇騰910晶片的性能，而Intel平臺則要到2021年推出的下一代處理器才能支持

持續25小時實測最強AI算力平臺到底強在哪兒？科技第5張

圖註：Atlas800訓練服務器內部的下層設計，8個金屬散熱片下面是8個扣卡式昇騰910處理器；圖中的線纜主要用於連接上層的CPU，這也使得Atlas 800訓練服務器有一種粗獷的暴力美

之所以說扣卡式的昇騰910在訓練場景中所能發揮的性能更高，原因在於，昇騰910晶片一共有三種高速接口，即PCIe 4.0通道、支持RoCE v2的100GbE、以及HCCS（Huawei Cache Coherent System，華為緩存一致性系統）高速互連。PCIe 4.0用於與CPU連接，100GbE用於集群組網，頻寬最高的HCCS則用於昇騰910晶片間互連。

以上圖為例，Atlas 800訓練服務器內部下層的8顆昇騰910晶片分為兩組並列，每組4顆，組內4顆昇騰910晶片使用HCCS互連，兩組之間再使用PCIe 4.0互連；由於HCCS的存在，即使使用相同數量的昇騰910晶片，Atlas 800訓練服務器的性能要高於相同數量的Atlas 300T中心訓練卡組網。

持續25小時實測最強AI算力平臺到底強在哪兒？科技第6張

圖註：三種互連技術的作用範圍

單顆昇騰910晶片TDP可達350W，Atlas 800訓練服務器內一共部署了8顆，再加上CPU及其他配套周邊，整臺服務器的功耗高達5.6KW，當然性能也非常出眾，單臺Atlas 800訓練服務器最高可提供2.56 TFLOPS的AI算力。

同時，Atlas800訓練服務器也需要強大的散熱能力，Atlas 800訓練服務器支持風冷和液冷（其實是風液混合散熱，即通過冷板式液冷將昇騰910處理器發出的熱量帶走）兩種散熱方式，這可以根據數據中心條件進行選擇。

比如E企研究眼體驗的這臺Atlas 800訓練服務器就採用風冷散熱的方式。

持續25小時實測最強AI算力平臺到底強在哪兒？科技第7張

圖註：Atlas800訓練服務器，前面幾乎被8組碩大的對旋風扇占滿，其中5組都位於下層，為8個昇騰910晶片吹風。右下角的「Model9000」表示其內採用的是（4路）鯤鵬920處理器+（8顆）昇騰910晶片。如果是英特爾平臺的處理器，那型號就是9010）

以上是Atlas 800訓練服務器系的性能實測及創新架構解析，華為Atlas服務器在AI應用中表現出的強大算力，將成為千行百業從數字化向智能化轉型的新動能。

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

實測前重點：選擇主流模型

25小時持續訓練結果：性能領先業界3倍以上

解構Atlas 800訓練服務器：高性能背後的奧秘

更多文章