專訪唐傑 | 我國首個超大智能模型「悟道」發布,迎接基於模型的AI雲時代

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

機器之心原創

作者:聞菲、陳萍

唐傑認為,超大規模預訓練模型的出現,很可能改變資訊產業格局,繼基於數據的互聯網時代、基於算力的雲計算時代之後,接下來可能將進入基於模型的 AI 時代。智源研究院致力於成為這樣一個時代的引領者,集聚各方資源力量,構建一個超大規模智能模型技術生態和開放平臺,供北京乃至全國的研究人員、開發者和企業使用。

自 2018 年Google發布 BERT 以來,預訓練模型(Pre-trained Models,PTMs)逐漸成為自然語言處理(NLP)領域的主流。

2020 年 5 月,OpenAI 發布了擁有 1750 億參數量的預訓練模型 GPT-3。作為一個語言生成模型,GPT-3 不僅能夠生成流暢自然的文檔,還能完成問答、翻譯、創作小說等一系列 NLP 任務,甚至進行簡單的算術運算,並且其性能在很多任務上都超越相幹領域的專有模型,達到 SOTA 水平。

很快,OpenAI 便開始了 GPT-3 的商業化探索,並催生了一系列落地應用,微軟的巨額投資也立馬跟進。同樣看中 PTM 潛力的Google,在 2021 年初推出超級語言模型 Switch Transformer,將參數量提升至萬億級別。

以 GPT-3 為代表的超大規模預訓練模型,不僅以絕對的數據和算力優勢徹底取代了一些小的算法和模型工程,更重要的是,它展示了一條探索通用人工智慧極富潛力的路徑。然而,作為全球使用人數第一的語言,中文 PTM 寥寥可數。在這樣的發展態勢下,構建以中文為核心的超大規模預訓練模型及生態勢在必行。

2021 年 3 月 20 日,北京智源人工智慧研究院(下稱「智源研究院」)發布了我國首個超大規模智能模型系統「悟道」的第一階段成果。「悟道」由智源研究院牽頭,匯聚清華、北大、人大、中科院等高校院所,以及諸多企業的 100 餘位 AI 領域專家共同研發,從基礎性能、有效使用到預訓練模型擴展,提出一系列創新解決方法,取得多項國際領先的 AI 技術突破和多個世界第一。

機器之心專訪了智源研究院學術副院長、清華大學教授唐傑。作為悟道項目負責人,唐傑分享了團隊關於超大規模預訓練模型的技術思考和戰略布局,以及智源研究院作為新一代 AI 研究機構的優勢。

專訪唐傑 | 我國首個超大智能模型「悟道」發布,迎接基於模型的AI雲時代 科技 第1張

智源研究院學術副院長、清華大學教授唐傑

唐傑認為,超大規模預訓練模型的出現改變了 AI 產業格局,繼基於數據的互聯網時代、基於算力的雲計算時代之後,接下來可能將進入基於模型的 AI 時代。而智源研究院要做的,則是致力於成為這樣一個時代的引領者,集聚各方資源力量,構建一個超大規模智能模型技術生態和開放平臺,供北京乃至全國的研究人員、開發者和企業使用。

今後越來越多的人會使用雲上的超大規模預訓練模型作為其 AI 研究和應用的基礎。超大規模預訓練模型系統將成為一種 AI 基礎設施,推進理論研究和技術應用更上一層。

超大模型勢在必行,迎接基於模型的 AI 時代

AI 模型越做越大這件事不是最近才發生的。早在 3 年前便有人統計指出,計算機視覺領域的 SOTA 模型體積越來越大 [1]。

NLP 領域亦然,從最早的 ELMo(5 億參數)到後來的 Turing NLG(170 億參數),GPT-3 更是將模型的體積和龐雜度拔升至一個全新的境界。美國大規模在線預測征求和匯總引擎 Metaculus 曾做過一項調研,參加者預計 GPT-4 參數量的中位數大約在 2.5 萬億 [2]。

唐傑表示,大模型可以包含更多數據,表示更多資訊,模型往超大規模發展是一個必然的趨勢。目前有很多團隊都在做萬億級模型,國外有 DeepMind、GoogleBrain,國內有華為、快手等,研究成果各有所長。

「Google在今年 1 月就已經推出了萬億參數模型,但精度上並沒有提升很多。」因此,他推測 GPT-4 的參數規模很有可能上萬億,不僅如此,OpenAI 還會強調模型在眾多任務上精度的提高。

智源也在布局萬億級模型,包括配套的高性能算力平臺。不過,唐傑表示,由於萬億級模型參數量過於龐大,模型設計非常龐雜,訓練耗時長,直接使用還存在一定困難,很多時候反而不如百億級的模型。在現階段的實際應用中,充分利用數據,參數規模更小的模型常常能實現更好的性能。

目前,悟道團隊一方面擴大模型的規模,讓模型的表示能力更強,一方面針對實際應用,提高精度。此外,還在模型微調算法長進行創新,希望早日打通百億級模型和萬億級模型的橋梁。

「如果能用萬億級模型在一些任務上取得性能的顯著提升,這將是一個里程碑式的進步。」唐傑說。

專訪唐傑 | 我國首個超大智能模型「悟道」發布,迎接基於模型的AI雲時代 科技 第2張

隨著算力的不斷提升,我們現在可以訓練越來越大的模型。或許有一天,真能出現與人腦突觸量級相當的 100 萬億參數模型。即便這樣的模型真能做出來,訓練也勢必花費巨資,動輒數十億美元。

超大規模預訓練模型只能是有錢人的遊戲嗎?小團隊如何創新?

對此,唐傑的看法是,人工智慧發展可以分為這樣幾個階段:繼基於數據的互聯網時代、基於算力的雲計算時代之後,接下來可能將進入基於模型的 AI 時代,相當於把數據提升為超大規模預訓練模型。未來,研究人員可以直接在雲模型長進行微調,很多公司甚至不用維護自己的算法研發團隊,只需要簡單的應用工程師就行。

超大規模預訓練模型系統的開放,小團隊可以說是最大的受益者,大家不必從零開始,預訓練基線智能水平大幅提升,平臺多樣化、規模化,大家在雲上可以找到自己所需的模型,剩下的就是對行業、對場景的理解。這將給 AI 應用創新帶來一個全新的局面。

至於基礎研究,唐傑說:「理論上可以研究得更深、更系統了,以前研究這個模型使用這種數學方法好,現在可以擺到臺面上、擴大到更廣的範圍來。」

「數據規模化的使用,將促使業界和有關機構更深入地討論哪些內容可以學、哪些內容不能學,更加注重 AI 倫理、數據隱私、保密和安全等問題。」

智源悟道 1.0 階段性成果發布,取得多項世界第一

智源研究院自 2020 年 10 月正式啟動超大規模智能模型「悟道」項目,悟道 1.0 已啟動了 4 個大模型的開發,取得多項國際領先 AI 技術突破,持續填補我國研究領域空白:

悟道 · 文匯——首個面向認知的超大規模新型預訓練模型

該模型在多項任務中表現已接近突破圖靈測試,通過簡單微調即可實現 AI 作詩、AI 作圖、AI 制作視訊、圖文生成、圖文檢索和一定程度的龐雜推理。尤其是 AI 作詩方面,已接近詩人水平,並能首次實現根據現代概念生成古體詩。文匯的最終目標是研發出更通用且性能超越國際水平的預訓練模型,搭建預訓練模型體系,形成認知智能的生態。

悟道 · 文瀾——首個超大規模多模態預訓練模型

該模型基於從公開來源收集並脫敏的 5000 萬個圖文對長進行訓練,性能已達國際領先水平,在中文公開多模態測試集 AIC-ICC 的圖像生成描述任務中,得分比冠軍隊高出 5%;採用雙塔模型,在圖文互檢任務中,得分比目前最流行的 UNITER 模型高出 20%。最終目標是生成產業級中文圖文預訓練模型和應用。目前,文瀾模型已對外開放 API。

悟道 · 文源——首個以中文為核心的超大規模預訓練模型

該模型目前參數量 26 億,預訓練數據規模 100 GB,具備識記、理解、檢索、多語言等多種能力,並覆蓋開放域回答、語法改錯、情感分析等 20 種主流中文自然語言處理任務,技術能力已與 GPT-3 實現齊平。最終目標是構建完成全球規模最大的、以中文為核心的預訓練語言模型,探索具有通用能力的自然語言理解技術,進行腦啟發的語言模型研究。

悟道 · 文溯——超大規模蛋白質序列預測預訓練模型

該模型已在蛋白質方面完成基於 100GB UniParc 資料庫訓練的 BERT 模型,在基因方面完成基於 5-10 萬規模的人外周血免疫細胞(細胞類型 25-30 種)和 1 萬耐藥菌的數據訓練,同時搭建訓練軟體框架並驗證其可擴展性。最終目標是以基因領域認知圖譜為指導,研發出可以處理超長蛋白質序列的超大規模預訓練模型,在基本性能、可解釋性和魯棒性等多個方面達到世界領先水平。

同時,悟道數據團隊還構建並開放了全球最大中文語料資料庫 WuDaoCorpora,數據規模達 2TB,超出之前全球最大中文語料庫 CLUECorpus2020 十倍以上。該資料庫不僅為悟道項目提供了數據支撐,由於來源廣泛及多樣性,可廣泛用於中文 NLP 領域中多種任務的模型訓練,並使模型具有更好的泛化性。數據經過了專門的清洗,確保隱私和安全及保密問題。

為進一步實現模型規模和性能的擴增中面臨的挑戰,悟道系統團隊還開源了 FastMoE,作為首個支持 PyTorch 框架的高性能 MoE 系統,打破了行業研究受制於Google的局限,支持多種硬件,只需一行代碼即可完成 MoE 化改造,相比 PyTorch 樸素實現速度提升 47 倍。

專訪唐傑 | 我國首個超大智能模型「悟道」發布,迎接基於模型的AI雲時代 科技 第3張

所有的 NLP 任務都是生成任務

唐傑認為,超大規模預訓練模型有三個關鍵:首先,模型本身,這也是團隊智慧的體現;其次,大算力;第三,高質量的數據。

目前,悟道團隊在模型設計上:第一,針對龐雜任務設計模型,通過記憶機理或者類似於推理的機理,把一些更遠的上下文資訊加入到預訓練中;第二,在把模型做大的過程中,要能加速模型收斂性;第三,在後端的微調算法上探索,提高模型的可用性,把下遊任務的精度大大提高。

在此次發布的多項突破中,由唐傑率領的悟道文匯團隊提出全新的預訓練范式 GLM,以生成為核心,打破 BERT 和 GPT 瓶頸,同時在語言理解、生成和 Seq2Seq 任務上取得最佳性能。

文匯團隊還提出了基於延續向量的微調算法 P-Tuning,首次實現自回歸模型在理解任務上超越自編碼模型,並在知識抽取 (LAMA)、少樣本學習 (Superglue Fewshot) 等 10 多個任務上取得世界第一,性能提升超 20%。

GLM:基於生成的通用預訓練框架

談到 GLM 的技術實現思路,唐傑表示,基於雙向模型 BERT 和 GPT 各自在理解和生成上的優勢,團隊便思考如何將這兩個模型的優點融合在一起。隨著研究的進行,他們修改了優化結合的方式,在優化目標函數上做了嘗試。再後來發現,auto-encoder、seq-seq 以及填空任務等都可以整合到生成模型中,所有的 NLP 任務都可以被視為生成任務,統一在一個通用框架下。

唐傑表示,機器學習的傳統上可以分為判別模型和生成模型,這兩大派系也在不斷融合。當數據量少的情況下,判別模型的效果會更好;而生成模型則比較龐雜,需要在「理解」的基礎長進行判別,而大數據、大模型、大算力的到來,為生成模型提供了基礎,計算機可以實現基於大參數的「理解」,這也是如今生成式方法成為機器學習大態勢的原因。

至於是否可以將生成看作是「理解」,「其實這是一個哲學問題」,唐傑說。

計算機到底需不需要「理解」,人類「理解」的本質又是什麼?對此,悟道團隊做了很多的思考。

最簡化地講,人類的理解分三個層次:第一種可以叫做人腦知識 query,把已經記住的知識查取出來;第二種叫 case based,基於以前的認知和經驗來完成新的任務;第三種叫隨機推理,也叫試錯性推理。

人類的這三種推理方式,其實計算機都可以實現。唐傑認為,當有一天計算機在眾多任務上通過了圖靈測試,就可以把計算機「理解」問題的引號去掉了。

數據和知識雙輪驅動的通用 AI 之路

假設有一個囊括全世界所有數據的模型,我們想要完成什麼任務,給它輸入,模型返回多個候選結果,人類在此基礎長進行調整完善,再將結果反饋給模型,讓其優化。與此同時,模型自身也能不斷地從網路上抓取數據進行自我學習…… 長此以往,最終獲得的模型,是否就是通用 AI 呢?

唐傑說,「這其實也涉及到一個哲學問題」。關於計算機能否像人一樣思考,甚至超越人類智慧,「很多人包括我自己在內,都是不相信,或者說不敢這樣認為的。但是,現在我的想法轉變了,我認為計算機實現乃至超越人類智能是可以實現的。」

悟道大規模預訓練模型系統的目標,便是從更本質角度進一步探索通用人工智慧,讓機器像人一樣思考,讓模型具有認知能力。對於神經科學和人腦的思維方式,唐傑表示自己的發言權十分有限,但總的來講,如果可以用計算機模型實現人類認知的 9 個準則,那麼他認為計算機就可以被稱為具有認知能力。

專訪唐傑 | 我國首個超大智能模型「悟道」發布,迎接基於模型的AI雲時代 科技 第4張

認知 AI 需要具有的 9 大能力

但他也補充說,如果那一天實現了,也不代表計算機就把人腦顛覆了,也許到那一天,我們人腦也會進步。「人的思維,包括我們的學習能力和進化能力,尤其是當人類處於壓力情況下,我們會往前大大進化一步。而且,人的思維方式和思維的本質目前也沒有真正得到一個結論。」

像剛才說的那樣,讓模型包含盡可能多的數據,並從數據中提出內容,一般被稱為人工智慧研究的「純學習派」。同時,還有另一個派系,也就是傳統「符號 AI」,認為只需要把知識表示出來,計算機做搜索、匹配就可以了。

悟道團隊走的是將知識與數據相結合的路線,這也是張鈸院士在幾年前提出的看法。「悟道在用兩條腿走路」,唐傑說:「一條腿是數據模型,另一條腿是知識圖譜。」一方面把知識圖譜做得非常大,另一方面,把知識圖譜放到預訓練模型中,抽取知識圖譜反哺模型,進行雙輪驅動,「我認為這是當前實現通用人工智慧最有前景的方法」。

唐傑表示,我們應該允許機器犯錯,犯錯不可怕,最關鍵是要知道錯誤的原因。人的認知中有一個試錯過程,意識到錯誤會反饋修改。「什麼叫做『創新』?人通過試錯,如果試對了,就是一種『創新』。」

盡管在受限領域,計算機已經可以自我糾錯,比如 AlphaZero,在下棋過程中會感知自己走錯了,然後進行反饋,自我進化。但在通用領域,計算機是沒有這個反饋的,它錯了以後沒法修正,甚至不知道自己錯了。

那把受限領域都集中到一起,是否就能讓機器在通用領域自我糾錯了呢?唐傑指出,這是數據和知識的一個悖論,人總覺得自己的知識是無限擴張的,人每天都可以創造新的知識,無法把所有知識都裝在機器裡。

而機器生成的內容,很多人不認為是知識或者「創新」,而只是一種組合。「如果有一天機器發現的東西獲得了諾貝爾獎,那我認為就可以視機器能夠『創新』。」

科學沒有高下之分,

只看能在多大程度上解決 Why 與 How

「哲學」這個詞在採訪中多次出現;超大規模預訓練模型的出現,讓唐傑從不相信、不敢認為,到相信機器的智能可能超越人類。

但是,也有觀點認為大規模預訓練模型是大數據、大算力之下的暴力美學,缺乏對世界本源的理解。唐傑認為,這個世界上科學就兩種,一種是回答 Why,一種是 How。而回答 Why 有兩個范疇,一個叫做基礎理論科學,另一個叫做工程科學,兩者沒有高下之分。

至於 How,則是看研究成果應用範圍有多廣,以及真正能推進哪些產業進步。具體到超大規模預訓練模型,唐傑認為模型上雲是一個大的方向,將來誰可以成為模型上雲引領者,推進整個產業的發展,誰就是最終的成績者,「這就是所說的 how 以及誰能做這個事」。

而探究人腦思維則是在回答 Why。「科學的本質是什麼?為什麼人腦的思維就一定要強過計算機?對此我們可以大膽質疑,小心求證,大家說人類智能比機器好,我們可以反過來問,為什麼機器的智能不能比人好?這是回答 Why 的過程。」

唐傑表示,科研成果的評價指標需要根據不同的行業、不同的場景來判別,歸根結底是看能在多大程度上解決了 Why 與 How,是否真正推進了社會的進步。就像萬億級參數模型,可能這個世界上 99% 的公司都用不上,但是作為科研探索很重要。

要做就做最難的、對標最好的

智源悟道 1.0 的發布,標誌著「智源模式」取得階段性實質進展。

作為新型的 AI 研究機構,智源研究院聚焦原始創新與核心技術,致力於建立自由探索與目標導向相結合的科研體制。作為北京市 AI 戰略科技平臺,智源從創立以來,在科研機制長進行了多種嘗試,比如「智源學者計劃」,支持科學家勇闖無人區,「就是想做什麼就做什麼,」唐傑說:「只要夠牛,要麼回答了 how,要麼回答了 why,而且是別人做不到的。」

同時,智源研究院也會圍繞目標明確、有戰略意義的大項目,靈活機動地組織跨學科、跨機構的專業研究和工程人員,組成緊密協作的大規模團隊,共同攻關,比如這次的超大規模智能模型系統項目。

「GPT-3 出來以後,我們看到市場未來產業化的發展,從數據雲到計算雲到模型雲,這是一個大的趨勢,智源研究院有義務、也有能力來引領,因此迅速確定目標,組織團隊。」唐傑說:「每個參與方,包括高校、企業和研究院所,都是帶有目標、帶有資源、帶有情懷的,因此能夠通力協作。」

唐傑介紹說,悟道 1.0 只是一個階段性的成果,今年 6 月將會有一個更大、更高的智慧模型發布。第一,模型規模會有實質性的進展;第二,模型會在更多任務上突破圖靈測試;第三,把應用平臺做得更加夯實。後續悟道模型將以開放 API 的形式對外提供服務,用戶通過申請並經授權後,可以基於模型 API 開發各類智能化應用。另外,也會開源模型的社區版本,服務我國 AI 科研發展。

「我們希望每一個我們做的東西一定是世界上最好的,如果不能做到最好,那就不做了。或者,如果很多人都能做得比較好,我們也不做,我們就要做最難的,對標最好的,包括我自己的定位。」

「此外,光盯著現在的事情我們也不做,我們要瞄向下一步,十年以後、二十年以後人工智慧是什麼樣子,我們覺得能做就會去做。認知 AI 是我特別看好的,預訓練模型和知識數據雙輪驅動,是實現通用 AI 的其中一個辦法。我非常堅信,十年、二十年以後,計算機在很多任務上就能突破圖靈測試。」

註釋

[1] https://heartbeat.fritz.ai/deep-learning-has-a-size-problem-ea601304cd8

[2] https://www.metaculus.com/questions/4852/how-many-parameters-will-gpt-4-have-if-it-is-released-in-billions-of-parameters/

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!