你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第1張


新智元報導

來源:arxiv

編輯:肖琴

【新智元導讀】Google AI的研究人員的最新研究提出一個全新概念:剛度(Stiffness),為探索神經網路的訓練和泛化問題提供了一個新視角。

Google AI的研究人員最近在arxiv發表的一篇新論文,探索了神經網路的訓練和泛化問題的一個新視角。

論文題為「Stiffness: A New Perspective on Generalization in Neural Networks」,作者是Google AI 蘇黎世研究中心的Stanislav Fort等人。

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第2張

論文提出「剛度」(stiffness)這個概念,透過這個概念研究了神經網路的訓練和泛化問題

研究人員通過分析一個示例中的小梯度步驟如何影響另一個示例的損失來測量網路的「剛度」。

具體來說,他們在4個分類數據集(MNIST、FASHION MNIST、CIFAR-10、CIFAR-100)上分析了全連接卷積神經網路的剛度。他們關注的是剛度如何隨著1) 類隸屬度(class membership),2)數據點之間的距離3)訓練迭代,和4)學習率而變化。

研究表明,當在固定的驗證集上計算時,剛度與泛化(generalization)直接相關。剛度函數的靈活性較差,因此不太容易對數據集的特定細節進行過擬合。

結果表明,「剛度」的概念有助於診斷和表征泛化

學習率的選擇對學習函數的剛度特性有顯著影響。高學習率會導致函數逼近在更大的距離上「更剛」(stiffer),並且學習到的特徵可以更好地泛化到來自不同類的輸入。另一方面,較低的學習率似乎能學到更詳細、更具體的特徵,即使在訓練集上導致同樣的損失,也不能泛化到其他類。

這表明,高學習率的優勢不僅在於收斂所需的步驟更少,還在於它們傾向於學習的特性具有更高的泛化性,即高學習率充當了有效的正則化器。

剛度的定義如下:

如果點

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第3張

處的損失相對於網路權重的梯度是

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第4張

,並且點

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第5張

處的梯度是

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第6張

,則我們定義「剛度」為

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第7張

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第8張

圖1:「剛度」概念的圖示

如圖1所示,「剛度」可以看做是通過應用基於另一個輸入的梯度更新引起的輸入損失的變化,相當於兩個輸入的梯度之間的梯度對齊(gradient alignment)。

基於類隸屬度關係的剛度特性

我們基於驗證集數據點的類隸屬度(class membership )作為訓練迭代函數,研究了驗證集數據點的剛度特性。

對於帶有真實標籤的MNIST、FASHION MNIST和CIFAR-10數據集,結果分別顯示為圖3、圖5、圖6,對於帶有隨機排列訓練集標籤的MNIST數據集,結果為圖4.

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第9張

圖3:MNIST上完全連接網路剛度的Class-membership dependence

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第10張

圖4:MNIST上完全連接網路剛度的Class-membership dependence,訓練時使用隨機排列的標籤。

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第11張

圖5:FASHION MNIST上完全連接網路剛度的Class-membership dependence

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第12張

圖6:CIFAR-10上卷積神經網路剛度的Class-membership dependence

圖3、圖5和圖6都顯示了4個訓練階段的剛度矩陣:初始化階段(任何梯度步驟之前)、優化早期階段和兩個後期階段。

學習率對剛度的影響

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第13張

圖8:在MNIST 和 FASHION MNIST上以不同學習率訓練,不同類別的剛度。

如圖8所示,這兩幅圖給出了三種不同訓練損失的 class dependent剛度矩陣。較高的學習率導致來自不同類的輸入之間的剛度更高,表明它們學習的特性在不同類之間更加可泛化(generalizable)。

我們探討了神經網路剛度的概念,並用它來診斷和表征泛化。我們研究了在真實數據集上訓練的模型的剛度,並測量了其隨訓練迭代、類隸屬度、數據點之間的距離和學習率的選擇而變化的情況。為了探討泛化和過擬合,我們重點研究了驗證集中數據點的剛度。

總結而言,本文定義了剛度的概念,證明了它的實用性,為更好地理解神經網路中的泛化特性提供了一個新的視角,並觀察了其隨學習率的變化。

論文地址:

https://arxiv.org/pdf/1901.09491.pdf


新智元春季招聘開啟,一起弄潮AI之巔!

崗位詳情請戳:

【春招英雄貼】新智元呼召智士主筆,2019勇闖AI之巔!

【2019新智元 AI 技術峰會倒計時7天】

2019年的3月27日,新智元再匯AI之力,在北京泰富酒店舉辦AI開年盛典——2019新智元AI技術峰會。峰會以「智能雲•芯世界「為主題,聚焦智能雲和AI晶片的發展,重塑未來AI世界格局。

同時,新智元將在峰會現場權威發布若干AI白皮書,聚焦產業鏈的創新活躍,評述華人AI學者的影響力,助力中國在世界級的AI競爭中做到超越。

購票二維碼

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第14張

活動行購票鏈接:http://hdxu.cn/9Lb5U

點擊文末「閱讀原文」,馬上參會

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第15張

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第16張

你的模型剛不剛?Google提出「剛度」概念,探索神經網路泛化新視角 家居 第17張