尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
2021年底,青雲科技宣布入局高性能計算領域,聽到這一消息,不得不說,還是有點意外的。
提起青雲科技,許多人首先能想到的是,這是2021年剛上市的企業級雲服務公司,它既有公有雲,也有私有雲/混合雲,作為一家中立的雲服務商,身上總有一股除舊布新的氣質,在技術難度較高的存儲以及容器技術生態上都有深入布局。
11月23日,青雲科技宣布發布QingCloud EHPC,正式進入高性能計算領域,那麼,青雲會為高性能計算領域帶來哪些新氣象呢?
提起高性能計算,普通人首先能想到各種抽象的模擬圖片,對於天氣預測、地質勘測、生物基因、蛋白質組學、化學工藝領域的作用也有模糊的認識,高性能計算的重要性毋庸置疑,與其相幹的都是前沿領域的探索,但高性能計算本身的應用在新趨勢下逐漸暴露出新問題。
準確地說,在雲計算興起的大背景下,高性能計算作為一種重要資源,出現了一些不合時宜的現象。
高性能計算雲化發展
高性能計算雲化發展不是新話題,在雲時代下,傳統高性能計算系統用戶的痛點更加明顯。比如,用戶總在抱怨資源不夠用。
因為,高性能計算會將大規模的運算任務拆分成很多的小任務分發到各個服務器上並行計算,再將計算結果匯總成最終的一個結果。對於使用者來說,由於需要較長時間運行一項工作負載,資源多一些就能減少一些等候時間。
但超算平臺運營者總會擔心浪費的問題,準備的資源越多,浪費的可能性越大,背後實際上反映的是資源彈性不足的問題。
又比如資源使用流程繁瑣,實際上是資源調度問題。也有一些用戶對於高性能計算資源需要申請的做法表達了困惑。明明是雲計算時代了,明明自服務就能完成的操作,為什麼還需要繁瑣的申請呢?
公有雲最大的優勢就是資源彈性,而且,自服務的使用模式也提供了極大便利。帶著對於雲計算技術優勢的理解,青雲入局高性能計算,讓雲計算的優勢與高性能計算系統相結合。
這種結合對於高性能計算系統的運營者和最終算力的使用者都能帶來極大便利。
用戶可以以自服務的方式,付費使用EHPC資源
QingCloud EHPC以彈性靈活的方式,讓用戶像使用普通公有雲一樣使用高性能計算資源,既避免了資源浪費,又讓有算力需求的人以最便捷的方式獲取資源,應對突發需求。
傳統超算中心對外服務能力水平普遍比較低下。除了資源獲取流程上的差異,在如何以支持多租戶的方式同時服務多個用戶,如何避免可能造成的安全問題方面,也都是雲計算所擅長的領域。
青雲QingCloud 雲平臺&服務部高級總監陳海泉表示,EHPC平臺不僅可以幫超算中心私有化部署超算雲平臺,讓超算中心自己運營,還可以連接全網算力提供外部資源,支撐突發需求,減少或避免排隊。當超算中心資源空置時,也可以對外出售算力增加運營收入。
青雲希望與更多的超算中心合作共建算力共享的算力網路,這是青雲為超算帶來的新變化,但也遠不止於此。
推進超算與大數據和人工智慧結合
隨著大數據和人工智慧等工作負載的興起,高性能計算要承載更繁重、更多樣的計算任務,需要更高的計算精度和更大的計算量,更大的數據量,更多樣的軟體運行環境,傳統超算中心借助雲平臺的優勢才能更好地應對以上挑戰。
現在越來越多的場景,比如核酸疫苗和核酸藥物的研發場景、金融風控場景,都需要高性能計算與大數據以及人工智慧技術相結合,這些場景普遍依賴於更大規模的數據集,需要更好的數據存儲。
然而,結合實際應用來看,高性能計算中心的存儲系統的技術演進步伐比較慢,許多都是以開源的Lustre並行文件存儲為主,數據存儲方面不能滿足大數據的需求。
同時,原有的計算架構也無法很好地承載MapReduce這種純粹的大數據業務場景,而對於機器學習負載,特別是對於訓練場景,對於在GPU方面的需求,傳統超算中心也無法滿足。
青雲提供的EHPC超算平臺—— QingCloud EHPC讓超算支持人工智慧、大數據等各種新的業務場景。
對於常見的仿真和建模場景,青雲提供了低延時、高頻寬的InfiniBand網路,高速並行文件存儲以及CPU/GPU的算力組合,不僅能支持大規模求解運算,還能提供GPU桌面進行圖形前後處理,完成一個閉環的業務場景。
對於大數據業務,QingCloud雲平臺可提供容量達245PB的對象存儲,配合計算節點,可用於大規模數據處理和分析。同時,計算節點到對象存儲還配備了1.6Tbps的網路頻寬,能夠保證大數據計算所需的性能。
對於人工智慧訓練場景,青雲可提供算力達850PFlops的A100 GPU資源池,同時還有全閃存的並行文件存儲系統,結合容器技術,提供性能極致優化、輕量便捷、開源開放的人工智慧平臺。
雲平臺不僅有豐富多樣的計算類型,也有多種存儲服務,用戶可以按照自己的業務來選擇合適的存儲類型,在虛擬化技術的加持下,用戶可以快速獲取所需的運行環境,並且可以隨時切換化學工程、生物醫藥、大氣海洋等行業軟體平臺,充分利用超算中心的硬件資源。
此外,青雲還提供了300多款軟體,覆蓋分子生物學、新能源、新材料、大氣海洋環境、地球、物理等多領域,像應用商店一樣方便安裝和使用,滿足各專業領域的需求。
最大可能在滿足多數用戶需求
青雲作為高性能計算市場的新玩家,在用雲技術改造超算的資源服務模式,為滿足行業用戶的需求,在技術方案層面做了許多周到的設計。
筆者注意到,青雲QingCloud EHPC提供了兩種集群,一種是共享集群,共享集群照顧了用戶原有使用習慣,按照機時的方式排隊使用,用戶進來提交作業即可,計時收費。
另一種是獨享的自建集群,自建集群按照雲的方式創建集群,用戶擁有較高的管理權限,用戶可以自由安裝各種軟體,可以進行各種定制。
當用戶使用QingCloud EHPC時,可以在五分鐘之內創建完成集群。集群創建完成後,用戶可以提交作業相幹的資料,當用戶數據比較多時,可以開啟彈性公網IP服務,通過提升上傳頻寬快速上傳,如果有涉密或者超大型文件,也可以以快遞USB等方式傳遞數據。
EHPC集群的節點有四種,一種是登錄節點,也就是用戶的管理端;一種是管控節點,負責作業分配調度;一種是計算節點,計算節點又分成CPU計算和GPU計算以及裸金屬計算三種,為部分場景準備了物理服務器,所有計算節點都有彈性伸縮的能力。
第四個節點是QingCloud EHPC的一個特色服務,很好、很強大,叫做GPU可視化節點。
它提供了計算過程可視化的能力、實時查看的能力,監測作業是否正常運行,是否達到預期,過程中就可以決定是否要暫停作業、取消作業,是否調整參數,是否重新運行作業。
QingCloud EHPC在CPU、GPU等計算資源、網路資源以及存儲資源上都有較高配置,有豐富的軟體,還有一些優化性能表現的算力挖掘程序,其本身在優化上已經有了較高水平,用戶無需進行太多基礎設施層面的調優,無需關心運維,只需放心大膽的用就可以了。
青雲EHPC產品經理苗慧表示,QingCloud EHPC是基於青雲公有雲IaaS、PaaS 層基礎架構,以國家超算中心算力資源為基礎,提供的從上雲計算到結果產出的全流程SaaS化計算服務,幫助工程師、研究人員突破本地HPC基礎設施的限制,快速開始雲上創新。
作為一種公有雲服務,本身具有較好的交互使用體驗,各種運維和安全方面也無需用戶關註,能滿足各種用戶的需求。
據苗慧介紹,目前,一些科研院所、高校的老師、科研團隊等都是青雲QingCloud EHPC的目標用戶,越來越多的企業研發相幹場景也在使用青雲的超算服務,未來還將繼續擴大用戶群體,比如新能源/新材料、晶片制造等行業用戶。