SparkMLlib GBDT算法財產大大數據實戰案例

GB（Gradient Boosting）梯度提升算法，GB 共需要進行M次迭代，通過採用梯度下降的方法，每次迭代向損失函數的負梯度方向進行移動，從而使損失函數越來越小，進而使模型越來越精確。算法偽代碼如下：

GB算法跟原始的Boosting算法相比較，還是有比較明顯的區別。

Boosting算法開始的時候，是會給每個樣本附上權重的，在每次迭代的時候就會增加錯的樣本的權重，減少對的樣本的權重，經過N次迭代之後，會得到N個分類器，然後我們再將他們組合起來，得到最終模型。

GB算法與Boosting區別是，他的每一次迭代的目標都是減少上一次的殘差，所以在殘差減少的方向上建立一個新的模型。在GB算法框架上加入決策樹，就是GBDT（GradientBoost Decision Tree）算法。

GBDT主要的優點有：

1）可以靈活處理各種類型的數據，包括連續值和離散值。

2）在相對少的調參時間情況下，預測的準備率也可以比較高。這個是相對SVM來說的。

3）使用一些健壯的損失函數，對異常值的魯棒性非常強。比如 Huber損失函數和Quantile損失函數。

4）很好的利用了弱分類器進行級聯。

5）充分考慮的每個分類器的權重。

6）可以得到變量間的重要性排序。

GBDT的主要缺點有：

1）由於弱學習器之間存在依賴關係，難以並行訓練數據，不過可以通過自采樣的SGBT來達到部分並行。

2完整代碼實例

工業生產中，產品在制程過程中會有很多特性值，如果能對產品的特性值及時進行預測，得到特性值的具體數值，那麼就會幫組業務人員知曉產品的質量，做到產品的全檢，並能防止異常產品後流，造成不必要的浪費。

本次實戰代碼的採用的數據是半導體制程中某一道工序的機台的制程參數值，通過採用SparkMLlib中的GBDT算法對工業現場機台的制程參數進行建模，預測出經過該機台生產之後產品的膜層厚度。

模型最後輸出模型性能指標如下：

Mape（Mean Absolute Percentage Error）：0．23％

通過上圖模型輸出的預測值與實際值對比，發現預測出來的產品膜厚的數值走勢跟實際數值走勢基本符合，mape達到0．5％以內，擬合度相當可觀，後續還可以通過樣本篩選以及特徵工程等手段對該模型進行進一步調優。

在模型達到業務需求的擬合度等指標後，通過該模型進行部署，做到產品的「實時全檢」，從而做到產品質量的全面監控，杜絕異常產品後流；與工廠內的抽檢系統結合後，降低產品的抽檢率，提高工廠的效率。

GBDT算法的用途還是比較廣泛的，它不僅可以處理分類問題，能對線性與非線性回歸問題進行處理，還能通過輸出變量間重要因子排序，方便業務人員快速定位異常變量。在工業現場的頑固異常分析還是產品特性預測等領域，GBDT算法確實是很值得數據分析人員考慮的一種算法。

本文作者：

格創東智大數據工程師黃歡（轉載請註明作者及來源）

About 尋夢園

尋夢園是台灣最大的聊天室及交友社群網站。致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。擁有數百間不同的聊天室，讓您隨時隨地都能找到志同道合的好友！