機器學習(周志華)第3章 線性模型學習筆記

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

3.1基本形式

線性模型一般形式

機器學習(周志華)第3章 線性模型學習筆記

向量形式

機器學習(周志華)第3章 線性模型學習筆記

ω和b學得之後,模型就可以確定。

線性模型的優點

a.形式簡單、易於建模

b.非線性模型的基礎(引入層級結構或高維映射得到)

c.可解釋性(ω直觀表達屬性的權值)

如西瓜中學得

機器學習(周志華)第3章 線性模型學習筆記

其中根蒂的系數最大,說明根蒂最要緊,比敲聲和色澤更重要。

3.2線性回歸

線性回歸(linear regression)目的:試圖學得一個線性模型以盡可能準確地預測實值輸出標記。

離散屬性處理(預處理

有「序」關係,連續化為連續值;

無「序」關係,有k個屬性值,則轉換為k為向量。

一元線性回歸

假設只有一個屬性 f(x)=ωx+b.確定ω和b可通過最小化均方誤差求得。求解方法是最小二乘法,即試圖找到一條直線使得所有樣本到直線上的歐氏距離之和最小。

參數/模型可能:最小二乘法(least square method)

機器學習(周志華)第3章 線性模型學習筆記

最小化均方誤差

機器學習(周志華)第3章 線性模型學習筆記

分別對ω和b求導,得

機器學習(周志華)第3章 線性模型學習筆記

令上式為零得到ω和b最優解的閉式(closed-form)解

機器學習(周志華)第3章 線性模型學習筆記

機器學習(周志華)第3章 線性模型學習筆記

多元線性回歸

機器學習(周志華)第3章 線性模型學習筆記

利用最小二乘法對ω和b進行可能,把數據集D表示為一個m*(d+1)大小的矩陣X

機器學習(周志華)第3章 線性模型學習筆記

機器學習(周志華)第3章 線性模型學習筆記

滿秩討論

不是滿秩矩陣,常見做法是引入正則化項。

機器學習(周志華)第3章 線性模型學習筆記

機器學習(周志華)第3章 線性模型學習筆記

對數線性

輸出標記的對數為線性模型逼近的目標

機器學習(周志華)第3章 線性模型學習筆記

廣義線性模型

一般形式

機器學習(周志華)第3章 線性模型學習筆記

g(·)稱為聯繫函數(linkfunction),是單調可微函數,對數線性回歸是對廣義線性模型在g(·)=ln(·)時的特例。

3.3對數幾率回歸

考慮二分類任務輸出標記為y∈{0,1},而線性模型產生的預測值是實值,需要將實值z轉換為0/1值,最理想的是單位階躍函數,但是單位階躍函數不連續,故採用近似的對數幾率函數(logisticfunction)

機器學習(周志華)第3章 線性模型學習筆記

對數幾率函數是一種Sigmod函數,將z值轉換成一個接近0或者1的y值,並且輸出值在z=0附近很陡。

代入線性模型得到

機器學習(周志華)第3章 線性模型學習筆記

對數幾率回歸優點

a.無需事先假設數據分布

b.可得到「類別」的近似概率預測

c.可直接應用現有數值優化算法求取最優解

求取 wb

機器學習(周志華)第3章 線性模型學習筆記

機器學習(周志華)第3章 線性模型學習筆記

極大似然法(maximum likelihood)

思想:已知某個參數能使這個樣本出現的概率最大,我們當然不會再去選擇其他小概率的樣本,所以乾脆就把這個參數作為可能的真實值。

可以用極大似然法來可能w和b,令每個樣本屬於其真實標記的概率越大越好。

將(w;b)表示為β,可以得到最大似然式子是關於β的高階可導凸函數。

根據凸優化理論,經典的數值優化算法如梯度下降法、牛頓法等都可以求得最優解。

3.4 線性判別分析

線性判別分析(LinearDiscriminant Analysis,LDA)是一種經典的線性學習方法。

LDA的思想:欲使同類樣例的投影點盡可能接近,可以讓同類樣例投影點的協方差盡可能小;欲使異類樣例的投影點盡可能遠離,可以讓類中心之間的距離盡可能大。

機器學習(周志華)第3章 線性模型學習筆記

機器學習(周志華)第3章 線性模型學習筆記

最大化目標

機器學習(周志華)第3章 線性模型學習筆記

類內散度矩陣

機器學習(周志華)第3章 線性模型學習筆記

類間散度矩陣

機器學習(周志華)第3章 線性模型學習筆記

廣義瑞利商(generalized Rayleigh quotient)

機器學習(周志華)第3章 線性模型學習筆記

機器學習(周志華)第3章 線性模型學習筆記

,最大化廣義瑞利商等價形式為

機器學習(周志華)第3章 線性模型學習筆記

運用拉格朗日乘子法

機器學習(周志華)第3章 線性模型學習筆記

機器學習(周志華)第3章 線性模型學習筆記

機器學習(周志華)第3章 線性模型學習筆記

LDA可以從貝葉斯決策理論的角度來闡述,並可證明,當兩類數據同先驗、滿足高斯分布並且協方差相等時候,LDA可以達到最優分類。

另外LDA也常被視為一種經典的監督降維技術。

補充知識—瑞利商、廣義瑞利商

機器學習(周志華)第3章 線性模型學習筆記

機器學習(周志華)第3章 線性模型學習筆記

LDA推廣到多分類任務部分沒看懂

3.5多分類學習

一般思路

解決多分類問題的一般思路是「拆解法」,即將多分類任務拆分為若干個二分類任務求解。

具體來說就是先對問題進行拆分,然後為拆出的每個二分類任務訓練一個分類器;在測試的時候,對這些分類器預測結果進行集成以獲得最終的多分類結果。

拆分策略

一對一(One vs. One, OvO)

一對其餘(One vs. Rest, OvR)

多對多(Many vs. Many, MvM)

一對一

拆分階段

N個類別兩兩配對

產生N(N-1)/2 個二類任務

各個二類任務學習分類器

產生N(N-1)/2 個二分類器

測試階段

新樣本提交給所有分類器預測

得到N(N-1)/2 個分類結果

投票產生最終分類結果

被預測最多的類別為最終類別

一對其餘

任務拆分

某一類作為正例,其他反例

N 個二類任務

各個二類任務學習分類器

N 個二分類器

測試階段

新樣本提交給所有分類器預測

N 個分類結果

比較各分類器預測置信度

置信度最大類別作為最終類別

兩種策略比較

機器學習(周志華)第3章 線性模型學習筆記

OvR值需要訓練N個分類器,而OvO需要N(N-1)個分類器,因此OvO的存儲開銷和測試時間開銷通常比OvR大。但在訓練的時候,OvR的每個分類器均使用全部的訓練樣例,而OvO的每個分類器只使用兩個類的樣例。

因此,在類別很多的時候,OvO訓練時間開銷通常比OvR更小,至於預測性能,取決於數據分布,兩者大多數情形差不多。

多對多

若干類作為正類,若干類作為反類

糾錯輸出碼(Error Correcting Output Code, ECOC)

機器學習(周志華)第3章 線性模型學習筆記

機器學習(周志華)第3章 線性模型學習筆記

ECOC編碼對分類器錯誤有一定容忍和修正能力,編碼越長、糾錯能力越強。

對同等長度的編碼,理論上來說,任意兩個類別之間的編碼距離越遠,則

糾錯能力越強。

e.g.

機器學習(周志華)第3章 線性模型學習筆記

3.6類別不平衡問題

類別不平衡(class imbalance)­——分類任務中不同類別的訓練樣例差別很大的情況。

機器學習(周志華)第3章 線性模型學習筆記

再縮放(rescaling)——類別不平衡學習的一個基本策略。

欠采樣(undersampling)

去除一些反例使正反例數目接近,在進行學習。

過采樣(oversampling)

增加一些正例使正反例數目接近

閾值移動(threshold-moving)

直接基於原始訓練集進行學習,但是採用再縮放嵌入到決策過程

小結

各任務下(回歸、分類)各個模型優化的目標

最小二乘法:最小化均方誤差

對數幾率回歸:最大化樣本分布似然(極大似然法)

線性判別分析(二分、多分):投影空間內最小(大)化類內(間)散度

參數的優化方法

最小二乘法:線性代數(變量求偏導)

對數幾率回歸:凸優化梯度下降、牛頓法

線性判別分析:矩陣論、廣義瑞利商

本文部分內容參考《機器學習》—周志華配套課件