化腐朽為神奇,看薩摩耶數科如何用目標編碼打造智能風控

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

AI領域的科學家,越來越像手藝人。

手藝人可以將在外人看來無用的東西,加工成一件件頗具價值的工藝品;而AI科學家則可以把字符、類別特征,變成智能風控系統中的重要一環。二者的區別在於,手藝人只能以人力一件一件地創作,而科學家們通過科技的手段,直接讓「量變」變成「質變」。

「外行看熱鬧,內行看門道」,科技公司的AI科學家們究竟是如何化腐朽為神奇的?本文將以薩摩耶數科在目標編碼上的應用為例,揭開智能風控一隅。

目標編碼:讓類別特征和字符特征變成數值

在聊目標編碼前,我們先聊聊全民都在參與的垃圾分類。

1噸廢塑膠可回煉600公斤無鉛汽油和柴油;回收1500噸廢紙,可避免砍伐用於生產1200噸紙的林木。因此,垃圾回收既環保,又節約資源。同時,垃圾回收也可以減少環境污染。廢棄的電池等含有金屬汞等有毒物質,會對人類產生嚴重的威脅,廢塑膠進入土壤,會導致農作物減產。

過去,居民生活產生的廢紙、廢塑膠等可回收垃圾將與廚餘垃圾、有害垃圾一並扔進垃圾桶,14億人日復一日將帶來多大的資源浪費?垃圾分類是在終端環節,將生活垃圾的價值最大化,做好垃圾分類,就能讓垃圾回收及處理等配套系統更高效地運轉。

目標編碼在智能風控中的價值也是如此,甚至目標編碼更進一步,讓沒有太多價值的「其他垃圾」變成可以創造價值的「可回收垃圾」。

具體而言,智能風控的3個重要方向:模型、策略、架構。在機器學習模型的構建和使用過程中,模型處理的資訊通常都是數值型。但在風控場景下,特別是貸前審批流程中,用戶資訊通常存在大量的字符型或類別特征。

比如1000名樣本中,有15名樣本在30天內坐過動車,這種數據必須經過轉換後,才能進入到風控模型中,而轉換後的特征表達效果,直接影響到模型的最終預測效果,因此針對類別特征或字符型特征的處理方法,其作用便尤為重要。

在風控場景下,由於更注重模型與變量的可解釋性,對於類別特征或字符型特征常用的處理方式就是目標編碼。

薩摩耶數科人工智慧團隊表示:「智能風控機器學習模型的構建和使用過程中,目標編碼起到非常重要的作用,如在信貸風控場景下,通過目標編碼可以實現模型與變量的可解釋性,從而提升模型的效果。」

目標編碼,也稱為均值編碼,是特征編碼的一種非常有效的方法。該方法是統計每個類別標簽對應目標值,每個類別標簽都被該類別的平均目標值替代。上文提到的1000名樣本,其中男性600名,女性400名,「在30天內坐過動車」標簽為1,相應的男性有10名標簽為1的樣本,女性有5名標簽為1的樣本,則對應的男性標簽目標編碼值為10/600 = 0.0167,女性標簽的目標編碼值為5/400 = 0.0125。

「將字符型數據或類別特征通過目標編碼變成目標值後,就可以進行風控建模。看上去和風控無關的數據,就變成了風控模型中的一顆‘螺絲釘’。」薩摩耶數科人工智慧團隊總結道。

讓目標編碼變「絲滑」,薩摩耶數科的智能風控實踐

實踐是查驗真理的唯一標準。目標編碼的原理並不龐雜,這並不意味著目標編碼在智能風控中的應用也一樣簡單,風控不是理論,而是實踐。

作為目標編碼的應用企業,薩摩耶數科意識到了目標編碼在智能風控中的價值,也發現了目標編碼的短板:當一個類別標簽其數量較少,但其對應的目標值較大,會導致其編碼值較大,但其在總體樣本占比較小,可信程度可能不高,從而導致模型會出現一定程度的過擬合。

舉個例子,A球員投籃,投100個,命中50個,命中率(即目標編碼值)50%可信度較高,但當他投3個命中3個,命中率100%,可信度可能不足以讓人信服。

故而,薩摩耶數科在目標編碼的應用中設置了閾值,對類別標簽數量少於閾值的,其編碼採用全量樣本的目標均值(即全部樣本的壞樣本率)來進行填充。

還是以球員投籃為例,假設教練設置了一個閾值是投球10個,A球員投了3個(在閾值之下),命中率100%,而他整個生涯的命中率(即整體樣本目標均值)為28%,最終的結果則以28%作為A球員的命中率填充。

化腐朽為神奇,看薩摩耶數科如何用目標編碼打造智能風控 科技 第1張

圖:編碼方式對比

蕭伯納曾說過的:「科學每解決一個問題,都要引發十個新問題。」這種填充方式則引入另一個問題—編碼噪聲,即在閾值附近,編碼值會發生突變,從而引入編碼噪聲。

繼續上例,閾值為10,A球員投了9個命中9個,此時A球員的命中率為28%,但A球員投了第10個球又命中了,則A的命中率從28%突然變成了100%。

而這種突變引起的噪聲會影響模型提取編碼資訊的能力,從而影響模型效果。智能風控是一項精密的工作,每一個數據的偏差都可能導致資金的損失,更何況是數據的突變?

為避免編碼噪聲出現,薩摩耶數科進一步對目標編碼存在的問題進行改進。「我們希望提出一種編碼方式來對其進行改進,清除這種突變帶來的影響,概率平滑編碼便由此誕生。」薩摩耶數科人工智慧團隊表示。

從具體方法而言,薩摩耶數科引入了一個機器學習模型中常用的概率平滑函數——sigmoid函數。

化腐朽為神奇,看薩摩耶數科如何用目標編碼打造智能風控 科技 第2張

引入概率平滑函數後,模型會發生什麼變化?

若A球員一次投籃40次,投中25個,則命中率是62.5%,整體命中率為28%,閾值為10,通過上述公式可得出其概率平滑函數值為0.9999,則其對應的目標編碼值0.28*(1-0.9999)+ 0.625*0.9999 = 0.6249。若A球員一次投籃8次,投中7次,命中率為87.5%,則其概率平衡函數值為0.1192,對應的目標編碼值為0.28*(1-0.1192)+0.875*0.1192 = 0.3509。

通過平滑函數,目標編碼避免了突變問題,此外,薩摩耶數科還通過增加平滑系數,來對函數的平滑程度進行控制,效果如下圖所示,圖中的綠線為概率平滑編碼,相比紅線的目標編碼值,當其類別標簽數量小於閾值時,其編碼值逐漸接近全量樣本平均目標值,大於閾值時,其編碼逐漸接近類別標簽對應的目標均值,從而有效避免噪聲的出現。

化腐朽為神奇,看薩摩耶數科如何用目標編碼打造智能風控 科技 第3張

以目標編碼的方式將類別特征或字符型特征變為數值,並將其優化為「絲滑」,這大大豐富了薩摩耶數科智能風控建模時的數據維度,大幅度優化了薩摩耶數科旗下的自動建模平臺AUTOMAN效果。

AUTOMAN自動建模平臺是將人工智慧應用在模型設計領域,可使模型開發周期減少60%-80%,最短1周內可完成千萬級樣本建模任務,具備樣本研判及處理、最優模型保存及部署、新樣本預測、模型訓練及調優四大功能,能通過便捷的方式直接接入金融機構的系統中,使得風控模型辨識風險的精準度更高。

為驗證改進目標編碼的效果,採用真實貸前審批業務場景特征,使用變量包含數值型變量和類別變量,分別使用均值目標編碼和概率平滑目標編碼方法對類別變量進行處理,對處理後的特征,使用Automan自動建模工具進行建模,建模效果如下圖所示:

化腐朽為神奇,看薩摩耶數科如何用目標編碼打造智能風控 科技 第4張

在同一份OOT樣本上,概率平滑編碼的AUC為0.714,略高於均值編碼AUC0.705,且在風控常用指標KS上,KS從均值編碼的0.33提升到了0.38,模型效果提升較為明顯,表明概率平滑編碼確實有助於清除均值編碼的噪音。

「數據決定AI算法的精度,算法精度決定AI產品質量。」薩摩耶數科董事長林建明說道,唯有精度高了才能幫助客戶構建智能化的風控大腦。不只是薩摩耶數科,任何金融科技平臺的人工智慧解決方案都需遵循這一前提。

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!