基於協同過濾算法的推薦

2018-12-10 尋夢園科技 105 Views

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

雲棲君導讀：數據挖掘的一個經典案例就是尿布與啤酒的例子。尿布與啤酒看似毫不相關的兩種產品，但是當超市將兩種產品放到相鄰貨架銷售的時候，會大大提高兩者銷量。很多時候看似不相關的兩種產品，卻會存在這某種神秘的隱含關係，獲取這種關係將會對提高銷售額起到推動作用，然而有時這種關聯是很難通過經驗分析得到的。這時候我們需要借助數據挖掘中的常見算法-協同過濾來做到。這種算法可以幫助我們挖掘人與人以及商品與商品的關聯關係。

協同過濾算法是一種基於關聯規則的算法，以購物行為為例。假設有甲和乙兩名用戶，有a、b、c三款產品。如果甲和乙都購買了a和b這兩種產品，我們可以假定甲和乙有近似的購物品味。當甲購買了產品c而乙還沒有購買c的時候，我們就可以把c也推薦給乙。這是一種典型的user-based情況，就是以user的特性做為一種關聯。

（本實驗選用數據為真實電商脫敏數據，僅用於學習，請勿商用）

一、業務場景描述

通過一份7月份前的用戶購物行為數據，獲取商品的關聯關係，對用戶7月份之後的購買形成推薦，並評估結果。比如用戶甲某在7月份之前買了商品A，商品A與B強相關，我們就在7月份之後推薦了商品B，並探查這次推薦是否命中。

本次實驗選用的是PAI-Studio作為實驗平台，僅通過拖拽組件就可以快速做到一套基於協同過濾的推薦系統。本實驗的數據和完整業務流程已經內置在了PAI首頁模板，開箱即用：

二、數據集介紹

數據源：本數據源為天池大賽提供數據，數據按時間分為兩份，分別是7月份之前的購買行為數據和7月份之後的。

具體字段如下：

數據截圖：

三、數據探索流程

本次實驗選用的是PAI-Studio作為實驗平台，僅通過拖拽組件就可以快速做到一套基於協同過濾的推薦系統。

實驗流程圖：

1.協同過濾推薦流程

首先輸入的數據源是7月份之前的購物行為數據，通過SQL腳本取出用戶的購買行為數據，進入協同過濾組件，這麼做的目的是簡化流程，因為購買行為對這次實驗分析是最有價值的。協同過濾的組件設置中把TopN設置成1，表示每個item返回最相近的item和它的權重。通過購買行為，分析出哪些商品被同一個user購買的可能性最大。設置圖如下：

協同過濾結果，表示的是商品的關聯性，itemid表示目標商品，similarity字段的冒號左側表示與目標關聯性高的商品，右邊表示概率：

比如上圖的第一條，itemid1000和item15584的相似度為0.2747133918，相似度越高表示兩個物品被同時選擇的概率越大。

2.推薦

上述步驟介紹了如何生成強關聯商品的對應列表，這里使用了比較簡單的推薦規則，比如用戶甲某在7月份之前買了商品A，商品A與B強相關，我們就在7月份之後推薦了商品B，並探查這次推薦是否命中。這個步驟是通過下圖做到的：

3.結果統計

上面是統計模塊，左邊的全表統計展示的是根據7月份之前的購物行為生成的推薦列表，去重後一共18065條。右邊的統計組件顯示一共命中了90條，命中率0.4%左右。

根據上文的統計結果可以看出，本次試驗的推薦效果比較一般，原因在如下幾方面：

1）首先本文只是針對了業務場景大致介紹了協同過濾推薦的用法。很多針對於購物行為推薦的關鍵點都沒有處理，比如說時間序列，購物行為一定要注意對於時效性的分析，跨度達到幾個月的推薦不會有好的效果。其次沒有注意推薦商品的屬性，本文只考慮了商品的關聯性，沒有考慮商品是否為高頻或者是低頻商品，比如說用戶A上個月買了個手機，A下個月就不大會繼續購買手機，因為手機是低頻消費品。

2）基於關聯規則的推薦很多時候最好是作為最終推薦結果的補充或者是最基礎的推薦系統，真正想提高準確率還是要依靠機器學習算法訓練模型的方式，具體方法可以參考泛推薦系列的其它文章。