中科院院士梅宏:大大數據對計較體系帶來的搬弄以及應對策略丨數博會2019

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

摘要:挑戰三:針對圖數據,傳統應用計算密集,而圖應用,有較低的計算訪存比,有大量隨機的訪存,有複雜數據的依賴,還有非結構化的分布,這是圖數據的問題,和傳統應用所面臨的東西是不一樣的。一套引擎、一套數據、一套資源來支撐、滿足不同的處理模型的需求,進一步去支撐大數據分析和智能的應用。

在貴州舉辦的2019年數博會吸引了國內外各界目光,圍繞大數據最新技術創新與成就,諸多學界、產業界、政界人士紛紛參與交流。在5月25日的「5G+大數據推動智慧社會數字化轉型論壇」上,中科院院士梅宏發表了精彩演講,重點談到了大數據對計算體系帶來的挑戰以及應對之法。

中科院院士梅宏:大大數據對計較體系帶來的搬弄以及應對策略丨數博會2019 科技 第1張

梅宏作為大數據領域權威專家,對大數據學術研究、工具開發等方面有著深入的理解。他提到,大數據讓信息技術整個體系進入一個重構的前夜,大數據的管理、處理方式正在發生深刻改變。比如,在晶片上探討存算一體是一種可能的方向;比如,軟件定義可以做很多事情;比如,軟件開源+硬件開放有可能產生顛覆式機遇。

他提到了個人對於大數據的理解,談到了三個現實中的挑戰。但在挑戰背後,他們的團隊已經集結了最好的高校和阿里這種巨頭企業的技術,做完了三批課題。未來,將追求高時效、低時延,多計算模型的融合,打造出更多核心、關鍵、原創的技術。

演講原文如下,雷鋒網做了不改變原意的編輯與整理:

大數據導致了一個現象,就是信息技術整個體系進入一個重構前夜,實際上給了我們一個顛覆式發展的一種機遇。因為它和過去的東西確實不太一樣了。

個人對大數據的理解

我想分四個方面講。

第一,應用需求。大數據的應用需求,使得我們的計算機體系結構可能面臨重構的需要。比如,過去在單機體系結構,我們知道計算機處理的方式是強調I,強調O,所以我們是以CPU的處理能力為核心,數據是圍繞處理能力來走的。現在我們又出現了很多新的一些技術,比如新型存儲介質、新型運算器件,它使得我們的體系結構可能就會有一定的變革。怎麼變革?會不會出現以數據為核心而計算圍在周邊的一種結構。現在就在晶片上探討存算一體——這是一種可能的方向。

第二,雲計算模式領域化、資源泛載化,資源平台化的大態勢。我們希望在服務質量提升、新型硬件管理、極致效能的追求方面做很多工作。同時我們也看到從雲向邊轉變,這種雲端融合,雲邊端結合的新型計算也在湧現,還有軟件定義對整個世界所形成的影響。我們對數據管理、軟件開發運行、數據分析等等都有很多要求,都需要很多新的東西,這與過去是不一樣的。

第三,通信。5G能解決的通信問題,所以我們網路通信還需要更好的帶寬、移動、泛載的發展。對於帶寬的問題,移動、泛載的問題,我們看到整個信息技術體系按照過去的發展套路,實際理論上還有很多值得探討的空間,在基礎器件上也有很多探討的空間,比如大數據組織、分析等等相關技術理論都有待突破。基礎器件,高性能、高時效、高吞吐等極端化的大數據需求,使得我們需要高通量的處理晶片,需要多通道數據化、可視設備等等。

第四,軟件開源,硬件開放,正在導致我們產業生態發生一些變化。實際上,顛覆式發展的機遇可能就在這個地方。

觀念變化:大數據的管理、處理

管理是數據的存儲、組織,而處理就是把數據並行處理為內容。

對於管理而言,比如說傳統數據庫、關係型數據庫,它的目標是什麼?應用的通用性、數據的一致性、應用需求的處理方式和響應時間等方面都不同,使得很難有一種通用管理的方式。

由於無法定義一個模式,一致性也沒法保持,不能夠事先定義數據模式,就沒辦法保持它的事務性等數據的一致性。從性能上講,由於單一表格存儲、高性能是非常難以做到的,這就使得對大規模、多表關聯查詢及複雜分析類型的SQL查詢性能嚴重下降,這就是在大數據時代傳統數據庫做不了的事。

對於處理而言,實際上大體分成三個階段:前大數據時代,大數據早期、現在。

早期都是關係型數據庫再到後來的SQL,這是在管理層面走過的一些路徑。從分析上面,比如說面向大數據分析軟件、深度學習的一些發展,大體上是把前面的東西再做一個總結。當然,支撐的東西都是在計算里面的分布式處理和實時集散這些相關的概念,都是計算基礎的支撐。

傳統關係數據庫雖然還在廣泛使用,結構化數據還是我們很有用的一些東西。但是NoSQL和NewSQL都在快速發展,我們可以看到2011年的NoSQL和NewSQL的比例在增長,市場份額在擴大。也就使得我們數據庫管理系統發展觀念的轉變,傳統關係數據庫一招通吃天下,變成了我們在一個領域里面個通用的平台。

大數據處理——為什麼要談這件事情?

大數據和HaDoop不管發展如何,單台計算能力都是有限的。所以我們必須要並行處理,沒辦法做一台計算機滿足所有的處理需求。比如最早出現的HaDoop就是批處理,批處理好處是什麼?吞吐率高,適用於海量預存數據的處理。其次是流處理,適用於在線型、產生速度快的時延數據處理。還有一種新的數據類型就是圖處理,用巨型的圖數據,比如以社交網路為代表的大量都是圖數據,億萬個節點,這樣大型的社交網路圖怎麼辦。所以現在這些系統很多,都是開源,但是沒有看到一個能滿足所有要求的一種處理模型。

再看現在存在的問題,比如說Spark,它是一個批處理平台,它是用VP的技術處理流模式,把流式計算用時間片切開,分解成一些小批量,本質上還是批處理,只是每一批小一點。

圖處理。圖數據最大的問題就是並行,它本身量很大,大量的數據是衝突的,而且互相依賴性比較高,通信開銷就比較大。核心的一個問題,從數學上,如果能完成一個很好的圖分割,可能能夠完成這種圖的並行處理。大體上最終也是要追求並行處理。

所以可以看到,回顧我們前面談到的問題,我們會說面臨一些挑戰。這個挑戰從三個維度來說:

第一,數據處理方式和數據來源的問題。我們提到了面臨數據來源有離線數據、在線、混合處理的需求,方式就出現了批處理、流處理和混合處理。從計算架構角度、系統結構的角度看,我們過去做的傳統計算最大的問題是計算產生的內存要求,內存要從外存取數據,所以內外交疊浪費很多時間。

所以我們還出現了內存計算,既然這樣,就可以搞一個大內存,把所有數據裝在內存里面,這是一種方式。

第二,新型的架構。通過綜合GPU,還有其他的TPU、數據流等等,構建新型的計算架構。

第三,數據類型本身。數據類型本身有文檔等各種模式,我們目前看到的單一系統是沒有辦法去處理這種混合負載的,而混合負載的處理,實際上是存在著大量的需求。

大數據處理三大挑戰

挑戰一:怎麼樣高效處理各類混合負載。這是當前我們面臨的一個挑戰。什麼叫混合處理的需求?

我舉一個例子,比如說雙十一成交數據的一個實時分析。當天處理的時候,它是實時的用戶數據和商品數據,通過實時數據采集去弄。但實際上這兩個東西對實時數據、興趣模型到用戶的行為預測有局限,如果沒有離線數據支撐的話,它的準確率和效果不會那麼好。所以要完成個性化推薦,必須要用到離線的數據,這就是我們的流處理和批處理同時會出現的一種場景。

現有的大數據處理系統沒辦法處理這種混合的處理。比如按照傳統的一些實例,要統計實時銷量排名前50的店鋪,按照阿里的做法,對供應商表、店鋪表是需要完成批處理的,而現在新流進來的實時的數據,需要進行流處理。現在比如說Flink單一作業運行的時候,只能啟動批處理環境或者流處理環境其中的一個,在多任務運行的時候就需要啟動相對獨立的批處理和流處理環境,它的交互就出了問題,就沒有辦法對這種業務需求完成批和流的混合任務。

挑戰二:現有的大數據帶來的好處就是開源,但是HaDoop的生態系統、Spark的生態系統、Flink的生態系統都有各自的開源生態,甚至有自己的開源許可證協議。

我曾經問很多做數據的人:為什麼這些東西都誕生在國際上,而不誕生在中國?如果大家現在去使用,那我們創新的機遇在哪里?

我們重點研發雲計算和大數據專項的時候,就面臨一個很大問題:要不要布大數據處理這樣的系統?布單一的系統,它到開源東西的時候抄一個對付我怎麼辦?而且再拿開源的東西做一個過去的套路,也沒有意思。所以我一直在琢磨有沒有創新的機會。

挑戰三:針對圖數據,傳統應用計算密集,而圖應用,有較低的計算訪存比,有大量隨機的訪存,有複雜數據的依賴,還有非結構化的分布,這是圖數據的問題,和傳統應用所面臨的東西是不一樣的。所以我們能不能探討另一種新型的架構來提高它的高並行的處理?這就是我們談到的各種大數據類型和計算結構匹配起來之後的一些挑戰。

完成四個任務課題

針對這些挑戰性的問題,國家重點研發專項里面有一個雲計算和大數據。整體的布局,大體上分成四項任務,現在已經連續三年發布指南了,已經做完了三批課題。

任務一:做雲計算、大數據等基礎設施的關鍵裝備。任務二:做一些核心軟件,基於雲模式和數據驅動的新型軟件。任務三:做大數據分析應用和內容智能。任務四:雲端交互,人機交互。

我們在雲計算平台之上,要進行各種大數據處理,而大數據的類型、存儲是迥然不同的,訪問模式有圖數據、KV的、列的、文檔的,各種各樣的東西。現在,我們要構成一個處理平台是支持批處理的,也支持流處理的,還可以支持混合處理的,要完成這些任務,多種處理模式混存。混存之後,我們要支持人工智能應用,要支持交互式的數據分析,進一步支持各種應用。

傳統的定制問題、系統選型難,不同處理系統融合難,系統調優難,維護難、多系統之間數據傳輸也導致它的效率是比較低的——這就是我們的大環境面臨的問題。

所以我們想做一件事,就是希望通過軟件定義的方式,通過大數據處理管理平台,讓它的功能做到可編程,可以面向不同的需求進行定制。

做「最厲害」的武器:原創的技術

多少年前,古龍小說里面有一個最厲害的武器。有一個穿長衫的黑衣人,走到哪里都拎著一個箱子,他離開這個場景的時候,不管多厲害的武器,多高的武功,最後就敗在他的手下。

我還記得這個箱子,這個箱子里面實際上就是各種武器的配件,他離場的時候,根據對手的武器臨時組合成一個克敵制勝的東西。我們就想達到這麼一個箱子,這個箱子能不能滿足不同應用的需求,就是應用的定制。比如阿里雙十一的應用場景,它就涉及到這樣的東西,就確實需要這種混合處理,從它的存儲、計算、應用。我們希望資源調度優化,進一步上去依托數據多種需求,多模態存儲,形成一套引擎,能夠高效的支撐多種處理模式,這就是當初設想的一個東西。

這個項目是怎麼做的呢?就是大數據系統軟件國家工程實驗室在做。這個項目里面有北京理工大學、中國人民大學、北京大學、復旦大學、阿里巴巴集團這一些參與者,在實驗室的框架之下,我們就共同去做這麼一個項目。

項目的目標,是希望研究和開發面向新型的、多處理模型融合架構的一個高時效、可擴展的新一代大數據分析支撐系統和工具平台。我們還是希望站在巨人的肩膀上消化吸收,高時效、可擴展就是它的關鍵詞,希望基於軟件定義的新型的自適應融合架構。一套引擎、一套數據、一套資源來支撐、滿足不同的處理模型的需求,進一步去支撐大數據分析和智能的應用。

這是更為具體的一些描述,我們要追求高時效、低時延,多計算模型的融合,自適應的優化;在可擴展方面,面向雲計算可伸縮的調整,處理平台跨數據中心的擴展,機器學習模型的擴展,還有一些具體的關鍵技術。

事情能不能做得成,就要靠我們團隊的努力。我想跟各位說,由於這種應用需求,我始終覺得中國的IT還存在很大的問題。畢竟,我們很多場合不在應用第一線,很多問題都不是我們發現的。

我記得,已經過去五到十年,我們依然在談的問題就是海量:我人多,我數據多。所以,我們沒有原始的創新,我們一直在尋求這樣原始創新,就是得發現真正的問題在哪里,這是我們最大的一個欠缺。

這件事情我覺得也沒有多少了不起,但是我想留下一支做系統軟件的隊伍做這件事情,我們希望通過消化、吸收,打碎並重新組合,形成一種集成創新。(雷鋒網雷鋒網)

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!