尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
3.1基本形式
線性模型一般形式
向量形式
ω和b學得之後,模型就可以確定。
線性模型的優點
a.形式簡單、易於建模
b.非線性模型的基礎(引入層級結構或高維映射得到)
c.可解釋性(ω直觀表達屬性的權值)
如西瓜中學得
其中根蒂的系數最大,說明根蒂最要緊,比敲聲和色澤更重要。
3.2線性回歸
線性回歸(linear regression)目的:試圖學得一個線性模型以盡可能準確地預測實值輸出標記。
離散屬性處理(預處理)
有「序」關係,連續化為連續值;
無「序」關係,有k個屬性值,則轉換為k為向量。
一元線性回歸
假設只有一個屬性 f(x)=ωx+b.確定ω和b可通過最小化均方誤差求得。求解方法是最小二乘法,即試圖找到一條直線使得所有樣本到直線上的歐氏距離之和最小。
參數/模型可能:最小二乘法(least square method)
最小化均方誤差
分別對ω和b求導,得
令上式為零得到ω和b最優解的閉式(closed-form)解
多元線性回歸
利用最小二乘法對ω和b進行可能,把數據集D表示為一個m*(d+1)大小的矩陣X
滿秩討論
略
不是滿秩矩陣,常見做法是引入正則化項。
對數線性
輸出標記的對數為線性模型逼近的目標
廣義線性模型
一般形式
g(·)稱為聯繫函數(linkfunction),是單調可微函數,對數線性回歸是對廣義線性模型在g(·)=ln(·)時的特例。
3.3對數幾率回歸
考慮二分類任務輸出標記為y∈{0,1},而線性模型產生的預測值是實值,需要將實值z轉換為0/1值,最理想的是單位階躍函數,但是單位階躍函數不連續,故採用近似的對數幾率函數(logisticfunction)
對數幾率函數是一種Sigmod函數,將z值轉換成一個接近0或者1的y值,並且輸出值在z=0附近很陡。
代入線性模型得到
對數幾率回歸優點
a.無需事先假設數據分布
b.可得到「類別」的近似概率預測
c.可直接應用現有數值優化算法求取最優解
求取 w和 b
極大似然法(maximum likelihood)
思想:已知某個參數能使這個樣本出現的概率最大,我們當然不會再去選擇其他小概率的樣本,所以乾脆就把這個參數作為可能的真實值。
可以用極大似然法來可能w和b,令每個樣本屬於其真實標記的概率越大越好。
將(w;b)表示為β,可以得到最大似然式子是關於β的高階可導凸函數。
根據凸優化理論,經典的數值優化算法如梯度下降法、牛頓法等都可以求得最優解。
3.4 線性判別分析
線性判別分析(LinearDiscriminant Analysis,LDA)是一種經典的線性學習方法。
LDA的思想:欲使同類樣例的投影點盡可能接近,可以讓同類樣例投影點的協方差盡可能小;欲使異類樣例的投影點盡可能遠離,可以讓類中心之間的距離盡可能大。
最大化目標
類內散度矩陣
類間散度矩陣
廣義瑞利商(generalized Rayleigh quotient)
令
,最大化廣義瑞利商等價形式為
運用拉格朗日乘子法
LDA可以從貝葉斯決策理論的角度來闡述,並可證明,當兩類數據同先驗、滿足高斯分布並且協方差相等時候,LDA可以達到最優分類。
另外LDA也常被視為一種經典的監督降維技術。
補充知識—瑞利商、廣義瑞利商
LDA推廣到多分類任務部分沒看懂
3.5多分類學習
一般思路
解決多分類問題的一般思路是「拆解法」,即將多分類任務拆分為若干個二分類任務求解。
具體來說就是先對問題進行拆分,然後為拆出的每個二分類任務訓練一個分類器;在測試的時候,對這些分類器預測結果進行集成以獲得最終的多分類結果。
拆分策略
一對一(One vs. One, OvO)
一對其餘(One vs. Rest, OvR)
多對多(Many vs. Many, MvM)
一對一
拆分階段
N個類別兩兩配對
產生N(N-1)/2 個二類任務
各個二類任務學習分類器
產生N(N-1)/2 個二分類器
測試階段
新樣本提交給所有分類器預測
得到N(N-1)/2 個分類結果
投票產生最終分類結果
被預測最多的類別為最終類別
一對其餘
任務拆分
某一類作為正例,其他反例
N 個二類任務
各個二類任務學習分類器
N 個二分類器
測試階段
新樣本提交給所有分類器預測
N 個分類結果
比較各分類器預測置信度
置信度最大類別作為最終類別
兩種策略比較
OvR值需要訓練N個分類器,而OvO需要N(N-1)個分類器,因此OvO的存儲開銷和測試時間開銷通常比OvR大。但在訓練的時候,OvR的每個分類器均使用全部的訓練樣例,而OvO的每個分類器只使用兩個類的樣例。
因此,在類別很多的時候,OvO訓練時間開銷通常比OvR更小,至於預測性能,取決於數據分布,兩者大多數情形差不多。
多對多
若干類作為正類,若干類作為反類
糾錯輸出碼(Error Correcting Output Code, ECOC)
ECOC編碼對分類器錯誤有一定容忍和修正能力,編碼越長、糾錯能力越強。
對同等長度的編碼,理論上來說,任意兩個類別之間的編碼距離越遠,則
糾錯能力越強。
e.g.
3.6類別不平衡問題
類別不平衡(class imbalance)——分類任務中不同類別的訓練樣例差別很大的情況。
再縮放(rescaling)——類別不平衡學習的一個基本策略。
欠采樣(undersampling)
去除一些反例使正反例數目接近,在進行學習。
過采樣(oversampling)
增加一些正例使正反例數目接近
閾值移動(threshold-moving)
直接基於原始訓練集進行學習,但是採用再縮放嵌入到決策過程
小結
各任務下(回歸、分類)各個模型優化的目標
最小二乘法:最小化均方誤差
對數幾率回歸:最大化樣本分布似然(極大似然法)
線性判別分析(二分、多分):投影空間內最小(大)化類內(間)散度
參數的優化方法
最小二乘法:線性代數(變量求偏導)
對數幾率回歸:凸優化梯度下降、牛頓法
線性判別分析:矩陣論、廣義瑞利商
本文部分內容參考《機器學習》—周志華配套課件