尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
如何從日益龐大的廣告庫中,選擇恰當的廣告內容並推薦給不同的受眾群體?基於Pegasus的Avazu個性化廣告推薦算法是如何解決這一問題的?
希望通過這篇深入剖析機器學習框架平台Pegasus的技術文章,能夠為我們解決這些疑問。
平台簡介
Pegasus是DotC United Group(以下簡稱DUG)推出的以DUG廣告業務算法模塊為原型而演化出的智能機器學習框架平台,不僅滿足了廣告核心業務對機器學習平台的各方面需求,同時可支撐熱點推薦、個性化推薦、作弊檢測、人臉識別、目標檢測、目標跟蹤、語義理解、篇章分析、情感分析以及其他計算機視覺與自然語言處理等相關的業務需求。目前,DUG已有超過20個主要產品都在使用Pegasus。隨著DUG在廣告、風控、文本、圖像、語音等業務的快速增長, Pegasus機器學習平台的功能也在日益強大。
平台架構
Pegasus以DUG超大規模分布式系統為基石,專注於充分利用大規模分布式系統和高效智能GPU集群的性能,為分布式環境的並行計算進行加速,能夠更快速地利用大規模數據進行AI 訓練和推理。
快速、簡單、易用是Pegasus機器學習平台的目標和特點,可以為不同行業提供完整的數據流接入、大規模分布式訓練集群和優化的算法解決方案。
在廣告點擊率預測、風險控制、個性化推薦等機器學習相關業務中,Pegasus平台提供了LR、SVM、GBDT、FM、FFM、MLR、WDN等表現良好的算法組件,為其在線實時預測、評估以及實時數據服務提供了強大的基礎。此外,在圖像、語音、文本等計算機視覺任務和自然語言處理任務中,Pegasus平台可提供了多種深度學習模型,為CV中的人臉識別、目標檢測、目標跟蹤及NLP中的文本自動摘要、語義理解、篇章分析、情感分析等不同的技術領域,提供了AI通用解決方案以及強有力的支撐。
Pegasus控制中心
Pegasus控制中心在Pegasus機器學習平台中扮演著至關重要的角色,它是底層分布式計算集群和上層業務應用的調度交互中心。也正是因為Pegasus控制中心的作用,才使得Pegasus成為一個面向商業業務、能應對超大規模數據集的、高性能的機器學習框架,其功能簡單易用,同時又能做到用戶友好化。
Pegasus控制中心可基於DAG進行任務依賴調度,並支持任務的自依賴以及優先級調度,包含了對數據管理、特徵提取、特徵存儲、特徵服務、模型訓練、模型評估、自學習服務、模型服務等流程的資源調度控制。在進行大規模機器學習、深度學習和實時處理的過程中,由於需要各種不同框架的配合使用共同完成一個任務,用戶只需要通過Pegasus控制中心對業務類型、數據、輸出位置進行選擇,即可生成一個用於自身業務的作業。
即使業務本身數據量每天按T級增長,模型和數據在不同集群之中,Pegasus控制中心仍能高效地將數據同步到模型訓練的集群。Pegasus的數據管理服務會在完成模型訓練後,自動根據訓練結果作出評估,對訓練數據進行刪除。
Pegasus數據挖掘
數據是算法和業務的基石。Pegasus機器學習平台擁有整套高效的數據挖掘流程,其百億乃至千億規模的特徵工程生成能力確保了樣本對真實問題空間的匹配程度,從而進一步保證了業務的精準建模。
基於大量的業務模型實踐與調優,Pegasus優化出了一套數據挖掘及特徵處理函數從而提升開發效率和業務效果。平台支持一系列特徵自動處理函數,包括piecewise、pickcat、descartes、combinehash等映射函數,可對特徵進行歸一化、離散化、ID化和組合等特徵處理。然而,特徵選擇以及參數調優是一項繁瑣但卻至關重要的任務,Pegasus的特徵選擇、參數調優模塊可以有效幫助算法工程師解決這個難題。
算法模型設計和選擇是至關重要的一步,是一個反復迭代不斷逼近的過程,需要不斷地嘗試,進而達到最優狀態。算法模型通常會發生過擬合、欠擬合問題,二模型判斷不可避免的問題,Pegasus針對過擬合、欠擬合提供了交叉驗證、計算準確率、召回率、F值、AUC值、繪制ROC曲線等各種專業工具,從而保證算法的正確選擇。
模型在線預測服務是Pegasus智能機器學習框架平台的一個重要功能。通常情況下,模型在線預測服務並發量大,對延時、可用性要求極高。
Pegasus平台上打造了一系列千億特徵流式學習系列算法,包括MLR—FTRL線性模型+千億級寬特徵的代表算法,充分發揮了高維度線性模型的優勢。另外,HDM-SVD是千億規模Embedding向量召回模型,MTDFM也是千億特徵深度學習算法,具備了從線性到淺層Embedding再到深層DNN網路的算法建設,做到了模型設計組件化,使其在構建模型時,可以更多的關注業務本身,真正做到做到時像搭積木一樣進行網路結構的設計和搭建。
Pegasus平台對於參數更新模式進行了相應改進,不間斷實時模型更新算法優化。以算法HDM-FTRL為例,當樣本量累積到很大時,很容易遇到數值穩定性問題和參數抖動問題,可用動態梯度平均策略和正則策略來彌補甚至消除動態抖動的影響。此外,還需對特徵進行高頻增刪,通過特徵權重動態衰減策略,及時從模型中剔除,以保證模型始終是正向更新的。
算法服務
Pegasus機器學習框架平台可以為各種不同的業務提供了成熟算法組件,以滿足不同業務需求。
在普通的機器學習任務中,算法組件不僅包括LR、RF、GBDT,CNN,LSTM、WDL等經典的算法模型,還加入了MLR、ESM-DSSM、MTDFM、ESDRL等優化改進的算法,同時也為了滿足其它不同業務算法的優化需要,提供了包括但不限於SGD、LBFGS、OWLQN、FTRL等優化算法。在計算機視覺任務中,Pegasus平台不僅提供了圖像去噪、濾波、邊緣檢測等基礎功能,還特別提供了Face Recognition,Object Detection,Object Tracking等特定領域的算法。在自然語言處理任務中,Pegasus平台也為情感分析,語義理解、文本摘要、機器翻譯等任務提供了強勁的支持。
在Pegasus的幫助下,模型設計將變得簡單容易,設計師只需關注模型的高層結構,而無需擔心任何瑣碎的底層問題。Pegasus可以大幅降低了對硬件的要求,縮短了研發的周期,讓端到端的深度學習變得更為簡單快速。
下面對某些算法組件進行介紹:
1)MLR
即混合邏輯回歸,MLR模型是對線性LR模型的推廣,它利用分片線性方式對數據進行擬合。基本思路是採用分而治之的策略:如果分類空間本身是非線性的,則按照合適的方式把空間分為多個區域,每個區域里面可以用線性的方式進行擬合,最後,MLR的輸出將變為多個子區域預測值的加權平均。
2)ESM-DSSM
ESM-DSSM即使基於全空間多任務學習的Deep Structured Semantic Model。其核心思想是在全特徵空間下,將query/doc中的關鍵信息(Term Vector)提取出來進行簡單的Word Hashing之後,將 query/doc域分別投影到固定維的子空間去。Query里的每個word都對應一個固定維的向量,一個query里也會有多個向量,可用sum求和操作得到一個匯總的固定維向量。
3)MTDFM
MTDFM即是Multi-task Deep FM模型,模型基礎的部分與GwEN和WDL模型類似,即Group-wise Embedding。MTDFM在多任務學習模式下,引入了代數式的先驗pattern,如FM模式,比較簡單直接,可給MLP提供先驗的結構范式。
4)DI2YOLO
DI2YOLO是Pegasus為人臉識別任務提供的一種多任務聯合訓練方法,算法能夠進行人臉檢測、人臉自動對齊和跨人種識別。DI2YOLO能夠在不同方向和角度的光照影響下,保持人臉識別正確率的穩定,並且在人臉遮擋的情況下,比以往算法有更大概率的識別出人臉。目前,DI2YOLO算法已率先應用到DUG旗下的相冊應用中,它能夠根據不同需求,對自拍獲得的圖片進行去噪、濾波、美顏、智能識別出人臉位置、智能瘦臉等功能。
5)XNNSC
XNNSC是Pegasus為自然語言處理任務中的情感分析任務提供的一種深度學習算法,算法能夠對文本進行褒義、貶義、中性的判斷。XNNSC的關鍵思想是利用形容詞和名詞性文本描述,把它們看作兩個(弱)監督信號以學習兩個中間情感表征,然後結合學習的表征並用於情感分類。比如,電商類應用可根據Pegasus提供的情感分析算法,提取正負面的評價關鍵詞,形成商品的標籤。基於這些標籤,用戶可以快速知道大眾對這個商品的看法;新聞類應用可根據Pegasus提供的情感分析算法對新聞的評論進行分析後,用戶便可知曉這個新聞的熱點情況,是積極導向,還是消極導向。
Pegasus案例
目前,Pegasus平台上已有很多成功的案例及應用,其中一個最為典型案例便是—Avazu個性化廣告推薦。值得一提的是,Avazu的廣告業務面向全球,體量巨大,為Avazu用戶提供廣告推薦會是一項非常具有挑戰性的任務。
Avazu的底層數據處理流程如下所示,Pegasus為其提供了大規模計算集群和大規模分布式存儲集群用來計算和存儲Avazu的全球廣告數據,同時也完成了數據挖掘的流程。
Avazu個性化廣告推薦算法使用了Pegasus提供的兩個深度神經網路模型,一個用於候選廣告集生成,一個用於廣告排序。
候選生成網路可以顯著減小可推薦的廣告數量。首先,從龐大的廣告庫中選出一組最大可能被用戶點擊的廣告,這樣生成的候選廣告集與用戶的相關性最高,也會對用戶評分進行預測。之後,便可得到一組規模更小但相關性更高的廣告集,系統將仔細分析這些候選內容,以便做出最佳的選擇,這項工作將由Pegasus提供的排序神經網路完成。它將根據廣告描述數據和用戶行為信息及其他信息,使用設計好的目標函數為每個廣告計算點擊概率,點擊概率最高的廣告將會被推薦出去。
基於Pegasus的Avazu個性化廣告推薦算法可以從非常龐大的廣告庫中選擇廣告,推薦給全球各個國家及地區的不同愛好的用戶,並面向用戶進行有針對性的推薦。這個方法還可擴展,將其他來源的內容也容納進來。
總結及展望
Pegasus面對的是海量用戶,需要瞬時的反應時間,這對於在常規平台上的實時處理用戶行為帶來了巨大的挑戰。
DUG在以下方面做出了重大的創新:
1)更高的平台框架兼容性 (包括但不限於Tensorflow、Mxnet、Pytorch等)
2)更靈活的編程模式
3)更簡單便捷的可視化系統操作
4)更低的交易成本
5)更快速的響應時間
6)更高的TPS處理能力
7)通過POI (Power of Identification) 平衡數據商業化價值與用戶隱私
Pegasus打造了一個開源的開發平台,是人工智能行業參與者基礎設施,將提升他們的效率和投入產出比。作為企業級的智能機器學習框架平台,Pegasus為大規模互聯網業務而生,其技術架構已達到一線大型互聯網公司的水平,代表著業內領先的一流水準。
智連世界,探索不同。DotC United Group始終致力為全球用戶創造更多的價值,提供更優質的用戶體驗。聚焦全球化過程中客戶(企業和用戶)的痛點,提供有競爭力的,差異化的產品和解決方案,為客戶創造價值,做到多贏。未來,DotC United Group將在技術迭代和顛覆創新的過程中不斷提升自己,而Pegasus平台也會在伴隨著業務發展過程不斷推進和演化。
● ● ●
本文由 Morketing整理髮布
申請轉載請在文末留言