神龍 X-Dragon,這技術「架式」如何?| 問底中國 IT 技術演進

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

神龍 X-Dragon,這技術「架式」如何?| 問底中國 IT 技術演進 科技 第1張

神龍 X-Dragon,這技術「架式」如何?| 問底中國 IT 技術演進 科技 第2張

受訪者 |張獻濤

採訪者 | 劉晶晶

出品 | CSDN(ID:CSDNnews)

在CSDN總部會議室,阿晶首次見到了阿里雲智能研究員、彈性計算技術負責人張獻濤——這位不僅僅在阿里雲智能內部,在業內也是響當當的虛擬化技術大牛。現在回想起來,當時聊了沒兩句,阿晶就問了這樣一個問題,「阿里雲這款全新一代服務器為何命名為神龍X-Dragon?難道是追求’X戰警’那種領先和黑科技的感覺麼?」

張獻濤笑著回答,「在命名的時候,考慮到中西文化差異,有些詞直譯出來可能比較冗長,最後確定了這個最簡潔的方案,不僅具備了國際元素,更重要的是音譯出來特別有架式兒,就定了!」

神龍 X-Dragon,這技術「架式」如何?| 問底中國 IT 技術演進 科技 第3張

張獻濤(左)阿晶(右)

其實神龍X-Dragon的「有架式兒」,從2017年10月推出的那一刻就表露無疑了。當時有報導提出,這個雲計算領域的「新物種」兼顧了物理機與虛擬機的特性,可以像使用虛擬機一樣靈活地使用物理機,而這個特性主要由自主研發的神龍架構來保障,源自阿里雲智能多年在基礎設施領域的技術積累。

神龍 X-Dragon,這技術「架式」如何?| 問底中國 IT 技術演進 科技 第4張

裸金屬?阿里雲為什麼卯勁兒做這個?

裸金屬服務器怎麼就這麼火?阿里雲智能為什麼卯著勁頭做這個?張獻濤表示根源還在於IT領域發生的顯著變革。在傳統IT基礎設施架構時代,每家公司都在「買機器、換機器、買機器」的無限循環中生存;然而,隨著雲計算的出現與普及,許多企業已經不再考慮自建機房,毫不猶豫地選擇雲基礎設施來支撐所有業務,其中比較有代表性的就屬新興的互聯網公司。但是在此之外,仍然存在大量企業不可避免地會使用一些線下物理機,重復之前的循環。那麼,如何提供一個穩健的底層基礎設施,幫助這些企業全面上雲就成了阿里雲必須要解決的問題。

順利上雲可以充分利用雲計算的彈性優勢,但如果需要顛覆企業原有的IT架構,哪怕是形勢所趨,阿晶認為企業也會在成本消耗上打退堂鼓,所以就需要一個折中的方法。通過張獻濤了解到,目前市面上廣泛採用的折中方式就是物理機托管以及托管雲,但深入分析這種折中方式的很多實際應用情況發現,這種托管的方式並沒有充分利用雲計算資源池化帶來的優勢,更無法形成規模化運作,這兩套系統的割裂狀態更阻礙了整體公共雲的良性發展。

基於這些情況,阿里雲決定做一款新型雲服務器,既能提供物理機的性能和特性,又能像虛擬機一樣和已有雲計算基礎設施完美融合,充分利用資源池化的優勢,並能與其它的雲產品互聯互通。具體來說這種新型雲服務器要兼具物理機和虛擬機的優勢,同時消除它們的劣勢,還要顯著提升服務器的計算效率,尤其是要滿足對服務器安全隔離與性能等要求較高的大型企業上雲的訴求。

此外在採訪中,張獻濤還重點指出,雲計算已經發展了十年有餘,但底層的基礎硬件卻並沒有為雲計算而做出根本改變,與傳統IT時代差別並不大。如果可以通過改造硬件架構來更好地適應雲計算的技術發展,提升計算效率,想來絕對是一件很靠譜的事情。「經過一系列探討,我們認為可以利用虛擬化技術為藍本,通過重新定義硬件架構,打造一款和虛擬機一樣體驗的物理機。如果目標達成,那麼它不是傳統意義上的虛擬機,更不是托管類型的物理機,而是為計算而生的「新物種」。在產品發布時使用了神龍雲服務器這個新的命名,神龍X-Dragon就一步一步走到了如今。」

神龍 X-Dragon,這技術「架式」如何?| 問底中國 IT 技術演進 科技 第5張

「有想法=成功了一半」,阿里雲如何做好後續?

人們都說「有想法=成功了一半」,但要真正付諸實踐,將想法變成產品可不是一件容易事兒。「神龍X-Dragon本身就是一個軟硬融合的產品,涉及到服務器、硬件、晶片、固件以及系統軟件的研發與改造,因此需要阿里集團內部多個團隊的協同才有可能完成。同時,大量資金和資源投入到充滿不確定性的高風險的創新項目中,一方面顯示了阿里對於創新的支持,而另一方面整個項目組也因此而承擔了前所未有的壓力。」張獻濤表示。但面對種種困難,在將好的idea轉化為實力產品的過程中,阿里巴巴內部的技術開放、協同的氛圍以及同行小夥伴們對雲計算技術革新的期盼,極大促成了神龍X-Dragon的誕生。

關乎戰略、人員、資源等層面的還不算難題,如果從技術層面出發,最難的還是「裸金屬產品要做到像虛擬機一樣靈活」的訴求。由於虛擬機主要就是通過軟件來做到,其靈活度很好,但要讓一個物理屬性的產品也同時做到這點,聽著就有點兒不靠譜的樣子。舉個例子來說,虛擬機在正在運行的過程中,可以動態掛載雲盤和彈性網卡來提升功能和性能,但如果要讓一台物理機也能具備這個能力,並且要做到API接口都要完全一致的話,難度就上升很多了。再比方說,要讓一台裸金屬機器在硬件故障時支持宕機遷移,並且要保留一切配置和數據不變,甚至是MAC地址和IP都不能變化,這絕對是一種很難的技術挑戰。

在這樣的想法支持與推動下,經過不斷實踐創新,如今每台神龍服務器都可以做到像虛擬機一樣被X-Dragon Hypervisor管理和調用,在阿里雲控制台中創建/釋放一台神龍彈性裸金屬服務器和創建/釋放一台普通ECS虛擬機是一樣的,同時可以使用雲基礎設施池化的存儲和網路資源,做到了資源的靈活彈性。在計算方面,X-DragonHypervisor運行在獨立於主機外的專用硬件設備上,因此整個機器的計算性能沒有任何損耗。如此一來,神龍彈性裸金屬服務器便克服了公共雲遇到的幾個問題。首先神龍彈性裸金屬服務器沒有軟件虛擬化帶來的性能開銷,完全發揮處理器和內存的性能。其次服務器的資源是獨占的,其性能非常穩定,不會出現起伏不定的狀況。第三,神龍系列服務器支持嵌套虛擬化,主流的虛擬化系統都可以在上面運行。在克服傳統雲計算主機缺點的同時,又保留了雲主機的優點,比如上面提到的彈性部署、API操作、鏡像啟動、VPC網路等特性一樣不少。「我很慶幸團隊成員在遇到問題時沒有選擇退縮,而是迎難而上,才有了今天的成績,克服了很多特別難解決的技術點。」

神龍這樣優越,在阿里自身的雲化進程中作用如何?關於這個問題,在歷年天貓雙11中早已有了答案。「大家都知道,在大促之時整個機器的負載都會瞬間變得非常高,容器化部署的業務在機器負載較高時,會遇到網路和存儲虛擬化邏輯和業務爭搶資源的事情,從而導致性能瓶頸,並且很可能導致業務的響應時間出現雪崩;但採用神龍之後,由於所有的網路和存儲隊列都通過自研神龍晶片來做到,其中的強隔離特性就會達成事半功倍的效果,再也不會出現高負載的情況下延遲大幅度提升導致業務不可用的情況發生。」

神龍 X-Dragon,這技術「架式」如何?| 問底中國 IT 技術演進 科技 第6張

阿里雲智能張獻濤

使用神龍之後,其上每條數據流都能夠做到獨占網路隊列以及存儲隊列。由於是硬件隔離,無論是高負載還是低負載,其整體表現都很均衡,以電商業務為例,使用神龍之後整體業務性能提升了20%-30%,並且高低負載情況下的業務延遲幾乎無變化,做到穩如磐石。

此外還有一個有意思的現象,過去大部分K8s選擇部署在虛擬機上,而如今越來越多的K8s正逐步部署在裸金屬(bare-metel)服務器上。阿晶思考,以上展現出的神龍種種優勢與容器的匹配度又如何呢?這一點也得到了張獻濤的證實。通常在容器場景下會涉及到兩層虛擬化,採用物理機就簡單變為一層,如果使用神龍則變為零距離接觸,根源在於所有的虛擬化部署全部集中在自研神龍晶片中並進行加速,對比普通物理機性能可以提升20%到30%的節奏,這意味著至少可以少購置百分之二三十的服務器,成本節約巨大。可以說,神龍裸金屬服務器是K8S等容器解決方案的最佳計算平台,提供了超越物理機的性能和穩定性。

提及安全保護,張獻濤提出當前來自安全的擔憂確實很多,所以在裸金屬服務器設計之初就充分考慮到這一點,畢竟保證安全比提升效率要重要很多。「通常來講,更新固件是一個低頻率的操作,所以我們在硬件和固件的設計上就嚴格限制了帶內對固件的訪問,避免黑客的入侵,所有固件的升級都通過帶外來完成。此外神龍的設計本身也滿足可信的需求,例如在金融場景中,可以滿足客戶對於等保認證等需求。

如今神龍已經研發到了第三代,神龍也從最初的裸金屬服務器的代號演進成了支撐阿里雲計算業務的神龍架構,並以此新型架構打造了阿里雲神龍計算平台,承擔一切計算型業務。回顧第一代神龍架構更多是支持裸金屬服務的物理節點,高效解決用戶依賴物理機上雲的痛點;而第二代神龍架構的研發則將「並池」作為重點,同時可以支持裸金屬和虛擬機產品的需求,不僅做到裸金屬和虛擬機的體驗一致,更可以利用同一個資源池提供多種類型的計算服務。例如在超算場景下,如果使用虛擬機來承載業務,性能損失可能會超過90%以上,在沒有神龍架構之前,這類業務根本無法上雲,如今通過剛才講述的資源「並池」,使用同樣的資源直接提供裸金屬服務就妥妥的了。

簡單來說就是一台在數據中心配置的服務器,既可以產生承載超算的實力 ,也可以用作虛擬機的功能,還可以被當作是裸金屬服務器使用,畢竟用戶的需求才真正決定了服務器的具體「功效 」。「我們已經完成了第三代神龍架構的研發並計劃在近期發布,十分期待,預計性能還會有3-5倍的提升。」

神龍 X-Dragon,這技術「架式」如何?| 問底中國 IT 技術演進 科技 第7張

從MOC卡SoC晶片問鼎神龍未來

就在阿晶準備採訪的前幾天,有一則消息稱,阿里平頭哥正在研發一款專用SoC晶片,將用於新一代阿里雲神龍服務器的核心組件MOC卡,以推動下一代雲計算技術的升級在,真的嗎?

據了解在神龍X-Dragon中,阿里雲智能研發團隊自研了「X-Dragon虛擬化晶片」,「 X-Dragon Hypervisor系統軟件」以及「X-Dragon服務器硬件架構」。其中X-Dragon虛擬化晶片在晶片層主要解決虛擬機和物理機體系結果不一致的問題,讓二者能在系統軟件層面保持100%兼容,可以這樣說,X-Dragon晶片是裝在彈性裸金屬服務器中的MOC卡的核心。

對此張獻濤介紹說,這款阿里雲自研的MOC卡擁有獨立的處理、存儲、I/O等單元,主要承擔了原來通過軟件形式做到的網路、存儲以及外圍設備的虛擬化;而神龍服務器的主板也是阿里雲定制的,專門用作針對MOC卡進行優化,以便X-Dragon Hypervisor可以方便管理整個服務器,足見重要性。

談及這個消息推測判斷,張獻濤對阿晶談及了一段有關「選擇」的糾結歷程。「那時可以明確的一點,當時階段的晶片技術以及其他硬件完全沒有辦法滿足神龍的架構需求,所以自研晶片就變得勢在必行了。可是選擇自研也要進一步明確,是SoC還是FPGA?畢竟各有優勢。」

具體來說,FPGA的優勢在於靈活性較強且開發周期較短,半年左右就會出結果;相比之下SoC可能需要24個月,最少18個月才能迭代一次,這樣分析下來FPGA最少可以保證半年迭代一次。「所以我們剛開始選擇的時候也傾向於不要先著手SoC,盡管集成度比較高且成本具有優勢,但畢竟開發速度實在跟不上如今互聯網公司發展的情況,所以一定程度上還是FPGA比較好。」他補充道。

截止目前神龍堅持用FPGA,但發展到一定程度且晶片內部邏輯基本成型後,張獻濤認為也可以考慮採用其他選擇,這是一個水到渠成的過程,相對來說也比較容易操作,使用SoC是一個可以被考慮的發展方向。如今神龍帶來的優勢非常明顯,能夠解決各種系統損耗以及資源消耗等問題,為雲計算成本下降和性能提升立下汗馬功勞,同時還能滿足用戶上雲的剛需。「未來關於神龍,各種迭代都在不斷規劃中,但終其一點,真正滿足用戶需求才是最關鍵的。」張獻濤說。

9月25日-27日,2019杭州雲棲大會已重磅開場。今年大會以開發者為主角,聚焦數字經濟為核心,設置兩天兩場主論壇、110餘場峰會和分論壇、超過20000平米的展區集中呈現最前沿的科技動態。

值得提及的是在9月25在D2-401會場13:30開始的阿里雲智能彈性計算技術專場以及9月26日在D1-301會場9點開始的阿里雲異構計算專場,都是張獻濤作為出品人精心奉獻給廣大開發者的兩場技術盛宴,很多技術大咖蒞臨現場並分享獨特觀點,敬請關注。

【End】

神龍 X-Dragon,這技術「架式」如何?| 問底中國 IT 技術演進 科技 第8張

熱 文推 薦

☞阿里開源物聯網操作系統 AliOS Things 3.0 發布,集成平頭哥 AI 晶片架構!

☞餘承東吐槽蘋果續航;微軟 IE 瀏覽器被曝漏洞;React Native 0.61.0 發布 | 極客頭條

☞Spring Boot 面試,一個問題就問趴下了!

☞10分鐘Get擁抱無服務的正確姿勢

☞為什麼平頭哥做晶片如此迅猛?

☞解決掉這些痛點和難點,讓知識圖譜不再是「噱頭」

☞限時早鳥票 | 2019 中國大數據技術大會(BDTC)超豪華盛宴搶先看!

☞用萬聖節糖果解釋什麼是「零知識證明」, 可能是關於密碼學很通俗的解釋了……

點擊閱讀原文,即刻閱讀《工程師大本營》最新期刊。

神龍 X-Dragon,這技術「架式」如何?| 問底中國 IT 技術演進 科技 第10張

你點的每個「在看」,我都認真當成了喜歡

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!