尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
百度創始人、董事長李彥宏稱此次組織架構調整將強化集中資源「打大仗、打硬仗」的能力,幫助百度客戶完成智能化轉型、早日邁入AI時代。「百度將打造AI時代最領先的技術平台,做到前端業務和技術平台的資源高效統籌及組織全面協同。」
而數據中心作為上述一切業務的基礎,是百度發力AI的根基。
目前,百度在陽泉、順義、南京等地區都已部署數據中心。本周,鈦媒體探訪了百度陽泉雲計算中心,該中心是百度自建的第一個超大規模數據中心,也是亞洲規模最大的數據中心。
如圖所示,陽泉雲計算中心分為八個模組樓,而每一個區域則通過一條環狀長廊連接在一起,在發生緊急狀況時工作人員能夠靈活調度。
就在剛剛過去的2019年春節,百度抗住了春晚紅包互動活動的數據流衝擊,陽泉雲計算數據中心功不可沒。
「春晚的數據流可以用驚濤駭浪來形容。全球觀眾互動次數達到208億次,春晚數據流量預計每秒峰值5000萬次,每分鐘峰值10億次。」百度系統部總監張炳華說道。
靠近用戶的陽泉雲計算中心
目前,百度在陽泉、順義、南京等多個地區都已部署數據中心。其中,陽泉中心是百度自建的第一個超大規模數據中心,從2011年9月選址到2018年9月一期整體交付,歷時7年,直至今日,陽泉雲計算中心仍在不停的建設、擴展中。
百度陽泉雲計算中心規劃建築面積超過20萬平米,按照T3+標準設計,服務器裝機能力超過28萬台。一期已建成投產建築面積約12萬平方米,建設涵蓋8個高標準模組樓,機房滿載可提供約6000個40A機櫃、承載16萬多台服務器。為百度智能雲、百度App、百度地圖、智能城市、小度、Apollo等百度內外部的產品和廠商提供強勁的計算能力。
選址
張炳華表示,百度在東、南、西北各大區都有數據中心選址布局,和大部分公司一樣,具體選到哪可能有各種因素考量,從技術上看,主要考察以下6個方面的因素,最後綜合平衡選擇。
第一,就是環境地理條件。遠離地震、海嘯、台風等自然災害地區的,除此之外,還要考慮氣候條件,氣候適宜有利於降低成本;第二,政策支持力度 ;第三,電力、水力的豐富度,豐富的電力和水源供應,是建設數據中心的必備條件;而且,電價也是要重點考量因素,電力成本占經營成本的60、70%;第四,網路技術條件,地方很好,政策也好,網路接入能力好不好,能不能接入經營商骨幹網,也是選址需要重點考慮的點;第五,交通環境;第六,人才條件。而選擇在陽泉,則是考慮百度的業務類型,以及靠近用戶,提升用戶體驗。
據介紹,目前百度陽泉雲計算中心使用百度自主研發高性能交換機,提供超大規模的網路吞吐能力,支持10G、25G的通用計算網路接入和100G的AI高速無損網路互聯技術。
在數據中心外部,百度網路構建了三個時延圈:從數據中心覆蓋用戶時延不超過30ms,從POP點覆蓋用戶的時延不超過10ms,從CDN覆蓋用戶的時延不超過2ms,確保全國用戶的全面覆蓋和就近接入。在數據中心內部,百度通過大帶寬、低時延、無損網路,把數據中心數十萬台服務器連接成為一個超級計算機。
優化
數據中心建設周期長,在規劃過程中必須具備前瞻性。在這幾年陸續建設過程中,各種先進技術都在逐漸被運用到陽泉雲計算中心。其中,數據中心模塊化技術、整機櫃服務器技術成為了數據中心國家技術標準。其他不斷成熟應用的領先技術包括AHU風扇牆、市電直供+HVDC、OCU等等。
目前,該中心已上線服務器超過15萬台、年均PUE低至1.09、超過300萬個CPU核、存儲容量超過了6EB。
張炳華介紹到,PUE(Power Usage Effectiveness,電力使用效率),是國際上通行的衡量數據中心能源效率的指標,PUE值是指數據中心總能耗(供電、制冷、照明、IT)與IT能耗之比。PUE值越接近於1,表示效率越高。
「數據中心成本中,電力成本占了60%-70%,降低PUE,可以直接降低數據中心的經營成本,提高產品的競爭能力。通過技術創新,提高數據中心能效,對行業有極大的示範作用和帶動作用,同時,可以減少能源消耗,減少CO2排放。」
百度陽泉雲計算中心監控中心,如螢幕所示,實際當天的PUE為1.06,還要低於1.09這一數值。
除了PUE以外,數據中心的機架規模、功率密度、運行穩定性、經營成本等,都是數據中心的核心指標。
對標國際巨頭,百度陽泉雲計算中心數據中心單體規模、算力、存儲容量方面上非常強大,比如:採用「天蠍」整機櫃服務器、「冰山」冷存儲系統、「X-MAN」AI超級計算平台等;在數據中心基礎設施架構非常領先,比如:高效供電、免費冷卻、智能控制,並與服務器、網路設備間的協同創新,達到最佳匹配效果。
安全
業務安全及用戶體驗對於任何一個數據中心來說都是至關緊要的。百度智能雲產業智能化業務負責人李碩介紹到,百度採用分層機制,基本能夠做到N+1的服務模式,即一個用戶可以通過多個入口來訪問百度的服務,若訪問數據時物理服務器出現故障,會通過智慧調度系統做到分層處理。
「對於相對比較冷的數據,比如陽泉和青島各有備份,在網盤中就不會有對應的數據,但即使該數據在10年內沒有被用到,我們當前在使用時也能很快訪問到,這個是和底層完全剝離的。如果是非常火的數據,會在多個系統中增加備份,這樣南方的用戶可以在廣州訪問,北方的用戶可以在陽泉或青島訪問。」
李碩表示:「隨機關掉百度的任何一個數據中心,我們訪問依舊沒有任何問題,到今天為止依然是這樣,這是上層服務設計需要做到的。」
在管理上,陽泉數據中心與北京總部實時聯動。陽泉數據中心團隊主要負責數據中心7*24時值班,負責現場經營管理、故障處理和維護保養,業務層面的部署和調度由總部統一調度。
為百度AI提供超強算力
2018年底,百度剛剛發布自主研發的超級AI計算平台X-MAN3.0。該平台專為AI深度學習場景優化設計,每秒完成2000萬億次深度神經網路計算,極大的加快了AI深度學習模型的訓練速度。
就在陽泉雲計算中心,鈦媒體看到了「傳說中」的AI計算集群。「冷板式液冷技術已經在百度X-MAN 2.0上規模應用了。」據張炳華介紹,2017年上線的X-MAN 2.0,是國內首個採用液體冷卻技術的GPU解決方案,做到了超高的散熱效率,規模應用後,可以去除制冷機組,全面做到無冷機運行。
目前,陽泉雲計算中心是由CPU通用計算+GPU異構計算+XPU新一代AI處理架構所組成的強大算力平台。不僅僅是百度搜尋、度秘、智能雲、基礎技術、新興業務的基礎,更是百度發力人工智能、自動駕駛、AI的重要基石。
張炳華對鈦媒體說道,這些算力平台定義了AI時代的基礎設施標準,並為百度AI技術多年積累和業務實踐的集大成——百度大腦提供了強大的算力平台。而算力平台之上的百度大腦,則為百度的AI業務提供了強有力的算法和數據支持。
「我們都希望通過開源和開放,把中國的數據中心產業生態做好,縮小與國際先進水平的差距,大家一起想辦法把蛋糕做大,把規模效益做起來,這樣的話,每個參與者都是受益者。ODCC每年發布的幾十項成果,這些成果都是由各個會員單位貢獻的,這些個成果都是開放的。隨著這個生態的規模越來越大,產業鏈越來越成熟,也越來越得到行業的認可。」