尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
機器之心發布
作者:騰訊QQ瀏覽器實驗室
最近,騰訊 QQ 瀏覽器實驗室研發的預訓練模型「神舟」(Shenzhou)在 9 月 19 日的中文語言理解評測 CLUE 榜單上登頂,刷新業界記錄,成為首個在中文自然語言理解綜合評測數據上超過人類水平的預訓練模型。
作為中文語言理解領域最具權威性的測評基準之一,CLUE 涵蓋文檔相似度、分類、自然語言推理、閱讀理解等 10 項語義分析和理解類子任務。QQ瀏覽器「神舟」模型憑借頂尖的語言理解能力,登頂 CLUE1.0 總榜單 / 分類榜單 / 閱讀理解榜,刷新三項榜單世界紀錄。總排行榜分數突破 85.88 分,超過人類基準分數0.271。
構建出百億參數量級的「神舟」1.0 模型
自然語言處理和理解(NLP&NLU)是內容領域的一項核心能力,也是 AI 領域持久不衰的核心方向,應用範圍涵蓋了搜索、推薦、商業算法以及更多 AI 領域的方方面面。
在當前的學術界和工業界,預訓練(pretrain)+ 微調(finetune)+ 蒸餾(distill)應用的模式,已經成了一種新的語義理解范式。BERT 作為預訓練的基礎模型已經被大量應用在相幹算法技術上,在此基礎上,擁有一個更好更優質的預訓練模型可以為所有的語義理解能力帶來更強的天花板。
「神舟」自然語言預訓練模型是由騰訊 QQ 瀏覽器實驗室於 2021 年自研的成果。通過聯合騰訊 QQ 瀏覽器搜索和內容算法團隊,在 6 月登頂 CLUE 的摩天預訓練模型基礎長進一步進行了大量創新:引入跨層衰減的 Attention 殘差鏈接算法、並將 instance-wise 的自蒸餾技術引入到預訓練模型的訓練中,以及自回歸的 MLM 訓練策略等。同時,在此基礎上通過二次預訓練的方式進行知識增強,進一步提高預訓練模型效果。
大規模深度學習模型的效果在各方面獲得了成功,但是訓練一個百億的雙向自編碼模型一直是一個挑戰。「神舟」模型通過 ZeRO 分割方案,將百億模型分割到 N 張卡上,並結合 FP16 訓練、梯度檢查進一步降低顯存使用。底層通訊將 TCP 改為 GPUDirect RDMA 通訊,大大提高了通訊效率,並進一步通過梯度聚集算法減少通訊量。
最終,QQ 瀏覽器實驗室通過業界領先的訓練能力,最終訓練得到了神舟 – 百億參數量的雙向自編碼預訓練模型。通過「神舟」預訓練的能力,僅需要沿用該范式更新模型,即可在幾乎所有的語義類理解任務上提升模型效果,有極大的適用性;其次,「神舟」預訓練能力作為多模態預訓練的基礎,幫助提升多模態預訓練的綜合效果,提升視訊理解多模態預訓練的綜合效果;同時神舟還基於騰訊現有的中臺二次輸出,進一步擴大輻射範圍。
機器之心發布
作者:騰訊QQ瀏覽器實驗室
最近,騰訊 QQ 瀏覽器實驗室研發的預訓練模型「神舟」(Shenzhou)在 9 月 19 日的中文語言理解評測 CLUE 榜單上登頂,刷新業界記錄,成為首個在中文自然語言理解綜合評測數據上超過人類水平的預訓練模型。
作為中文語言理解領域最具權威性的測評基準之一,CLUE 涵蓋文檔相似度、分類、自然語言推理、閱讀理解等 10 項語義分析和理解類子任務。QQ瀏覽器「神舟」模型憑借頂尖的語言理解能力,登頂 CLUE1.0 總榜單 / 分類榜單 / 閱讀理解榜,刷新三項榜單世界紀錄。總排行榜分數突破 85.88 分,超過人類基準分數0.271。
構建出百億參數量級的「神舟」1.0 模型
自然語言處理和理解(NLP&NLU)是內容領域的一項核心能力,也是 AI 領域持久不衰的核心方向,應用範圍涵蓋了搜索、推薦、商業算法以及更多 AI 領域的方方面面。
在當前的學術界和工業界,預訓練(pretrain)+ 微調(finetune)+ 蒸餾(distill)應用的模式,已經成了一種新的語義理解范式。BERT 作為預訓練的基礎模型已經被大量應用在相幹算法技術上,在此基礎上,擁有一個更好更優質的預訓練模型可以為所有的語義理解能力帶來更強的天花板。
「神舟」自然語言預訓練模型是由騰訊 QQ 瀏覽器實驗室於 2021 年自研的成果。通過聯合騰訊 QQ 瀏覽器搜索和內容算法團隊,在 6 月登頂 CLUE 的摩天預訓練模型基礎長進一步進行了大量創新:引入跨層衰減的 Attention 殘差鏈接算法、並將 instance-wise 的自蒸餾技術引入到預訓練模型的訓練中,以及自回歸的 MLM 訓練策略等。同時,在此基礎上通過二次預訓練的方式進行知識增強,進一步提高預訓練模型效果。
大規模深度學習模型的效果在各方面獲得了成功,但是訓練一個百億的雙向自編碼模型一直是一個挑戰。「神舟」模型通過 ZeRO 分割方案,將百億模型分割到 N 張卡上,並結合 FP16 訓練、梯度檢查進一步降低顯存使用。底層通訊將 TCP 改為 GPUDirect RDMA 通訊,大大提高了通訊效率,並進一步通過梯度聚集算法減少通訊量。
最終,QQ 瀏覽器實驗室通過業界領先的訓練能力,最終訓練得到了神舟 – 百億參數量的雙向自編碼預訓練模型。通過「神舟」預訓練的能力,僅需要沿用該范式更新模型,即可在幾乎所有的語義類理解任務上提升模型效果,有極大的適用性;其次,「神舟」預訓練能力作為多模態預訓練的基礎,幫助提升多模態預訓練的綜合效果,提升視訊理解多模態預訓練的綜合效果;同時神舟還基於騰訊現有的中臺二次輸出,進一步擴大輻射範圍。