尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

IT時報測瞭三個月認為外賣平臺偷聽？實驗忽略瞭多種變量維度

最近，IT時報媒體記者發表了一篇文章，他們的讀者進行了投訴：沒有用其他App搜尋過奶茶，只提到想喝奶茶。結果發現餓了麼推薦了奶茶。

if (window.location.host != ‘www.xuehua.us’){window.location.href=’https://www.xuehua.us/2019/03/23/it%e6%97%b6%e6%8a%a5%e6%b5%8b%e4%ba%86%e4%b8%89%e4%b8%aa%e6%9c%88%e8%ae%a4%e4%b8%ba%e5%a4%96%e5%8d%96%e5%b9%b3%e5%8f%b0%e5%81%b7%e5%90%ac%ef%bc%9f%e5%ae%9e%e9%aa%8c%e5%bf%bd%e7%95%a5%e4%ba%86%e5%a4%9a’;}

該媒體記者用了3個多月的時間進行測試，他們宣稱，通過「模擬用戶使用場景」，對安卓手機、蘋果手機、蘋果平板電腦上的餓了麼和美團外賣進行了多輪測試。認為這是一個沒有答案的「巧合」。但事實如此嗎？

小編無法得出給出外賣平台有沒有偷聽的實質性證據（盡管有專業人士對美團的隱私保護持消極態度）。小編在這里要說的是，如果按照文章描述的實驗過程進行測試，那麼該實驗和存在很大問題（如果有些信息）。

什麼是對照試驗？　　

我們在初中學過名為「對照實驗」的方法：實驗設計的主要原則：對照性原則、隨機性原則、平行重復原則、單因子變量原則。（參見浙教版七年級科學上冊）。

IT時報測瞭三個月認為外賣平臺偷聽？實驗忽略瞭多種變量維度

接下來，讓我們看一下百度百科上對照實驗的定義：

IT時報測瞭三個月認為外賣平臺偷聽？實驗忽略瞭多種變量維度

那麼問題來了，僅憑不同場景、不同時間段、不同設備和麥克風狀態就能完成這個實驗嗎？

答案是否定的，從文章的描述的操作來看，有很多存疑的空間。

用戶行為分析有數百個特徵

據小編了解，互聯網公司為了更了解用戶，更好為用戶服務（或者殺熟），首先要搜集用戶數據，進行用戶行為分析，從而進行個性化推薦。

一些是合法的，沒有侵犯隱私：比如你登錄了自己的帳戶，平台看到你買過羽毛球拍，給你推薦羽毛球。

有些用戶行為是侵犯隱私的，為便於大家理解，小編簡單分類（並非科學權威分類）：

1、如果關聯到了特點的自然人（也就是具體的人，精確到你叫XXX）侵犯隱私，但定義出你是一類用戶（如喜歡吃日料的90後男性數位愛好者）則不侵犯隱私；

2、過度收集數據，如同時上傳你通訊錄里好友姓名和手機號；

3、未經授權收集數據，如偷聽你說話；

4、部分數據不應該被收集或收集後未經加密，如明文上傳密碼，上傳手機號後未不可逆加密（加密後僅用於對比是否相同，判斷為同一個人或共同好友）。

那麼問題來了，合法的用戶行為分析有多少個維度呢？小編曾從人工智能從業者出了解，BAT等大廠能夠通過五六百個特徵來對用戶進行個性化推薦（定義一個用戶是什麼樣的人）。

各種特徵會對用戶行為分析的預測結果有影響。而基於用戶行為的推薦，在學術界名為協同過濾算法。

這個技術是什麼樣的？可以達到什麼樣的效果？舉個不太恰當的例子：如果把用戶分為「土豪」和「屌絲」，當你越喜歡買貴的東西，你離「土豪」越近，相反離「屌絲」越遠（當然還會有更多維度），於是推送給你「土豪」常買的物品或「屌絲」常買的物品。（本文不存在消費水平歧視）

IT時報測瞭三個月認為外賣平臺偷聽？實驗忽略瞭多種變量維度

隨著技術的進步，用戶分析的方式引入了人工智能技術，機器學習是做到人工智能的一種方法，人工智能機器學習的過程就相當於（類似）回歸方程計算的過程。（回歸方程計算的過程請詳見人教版2017高中數學必修三第二章）

IT時報測瞭三個月認為外賣平臺偷聽？實驗忽略瞭多種變量維度

實驗的問題出在哪？

宅客頻道在調查偷聽事件時，發現有網友在「偷聽」新聞事件中展開了清奇的腦洞：

IT時報測瞭三個月認為外賣平臺偷聽？實驗忽略瞭多種變量維度

為什麼該媒體的記者會想到日料？存在這樣的情況：這家媒體在上海，如果記者是南方人，很難想到北方且沒有流行到全國的小吃，比如北京的豆汁；且按照大眾的消費水平，也很難想到百元到千元的波士頓龍蝦（本文不存在地域黑和消費水平歧視）。

因此，實驗錯在了沒有嚴格控制變量。首先要判斷「偷聽」行為能否通過實驗來測試，因為如果外賣平台使用了人工智能做推薦，變量特徵可能無法進行人工分解，更不用說控制變量了，導致實驗結論不成立。

我們假設能夠通過變量來測試「偷聽」，從而得出相對準確的結論，那麼需要考慮到的變量有哪些呢？

小編不是這些平台的技術人員，只能了解到一些公開的特徵，來自於外賣平台的隱私政策。小編參考外賣平台的隱私政策，將這些信息進行了分類（並非專業分類）

第一類：系統信息

1、手機號碼歸屬地和經營商：判斷你可能是哪里人；如果是虛擬經營商號碼，則平台認為高危用戶而瑟瑟發抖，因為黑色產業鏈經常使用這些號碼，進行刷單或者騙平台錢；

IT時報測瞭三個月認為外賣平臺偷聽？實驗忽略瞭多種變量維度

2、你的手機機型：你是蘋果還是安卓，系統是哪個版本了

3、位置信息：如家、公司和學校的地址等。如某學生放假回了上海的經常吃外賣，那麼去其他城市上學，也可能推薦上海菜

4、日志信息：如搜尋過的內容，當你天天搜肯德基時，可能會推薦你肯德基，還可能推薦麥當勞

第二類：個人信息

1、你的性別：小編身邊的女生喜歡喝奶茶的較多，但男生較少（只說身邊現象，不代表所有情況）；

2、消費習慣：如口味，消費額度等

第三類：間接搜集到的關聯信息

為確認交易狀態及為您提供售後與爭議解決服務，平台會通過用戶基於交易所選擇的交易對象、支付機構、配送公司等收集與交易進度相關的您的交易、支付、配送信息，可能將用戶的交易信息共享給上述服務提供者。

此外，用戶在授權使用第三方帳號登錄時，我們會從第三方獲取您共享的帳號信息（如頭像、昵稱等）。

第四類：「黑科技」信息

那麼，哪些「黑科技」變量可能可能會對結果造成干擾呢，鑒於平台間具有相似性，小編查詢了一些其他平台的資料，找到了一些可能帶來干擾的因素（不代表外賣平台一定使用）。我們可以把「黑科技」信息理解成用戶和平台的交互。

如：

螢幕活動記錄（看到奶茶就直接劃過去了，但是在日料前面點觸猶豫了很久）；

用戶操作記錄（把啤酒加入購物車又拿出來，第一次打開App有沒有點外賣）；

瀏覽商品（在搜尋炸雞後，不聽下滑，選擇了最想吃的一家店點開）；

廣告位（是否願意點開推薦的美食，點擊的是常吃的還是不常吃的）

IT時報測瞭三個月認為外賣平臺偷聽？實驗忽略瞭多種變量維度

當然，除此之外還有更多因素，這里不一一列舉……

實驗應該如何做

當了解這些這些因素會對行為造成干擾後，如何設計實驗就相對容易理解了。再次重復一遍，因可能存在數百個變量，無法通過人為控制的情況，所以實驗不能得出絕對準確的結論。

因此，相對實驗要考慮這些因素：

準備蘋果手機、安卓手機同類設備各兩台；

準備相同歸屬地、相同經營商的手機號；

保證測試的手機GPS軌跡相同；

登錄外賣平台的帳號必須為新註冊，註冊帳號沒有關聯過其他軟件，避免歷史行為帶來干擾；

手機上必須只有外賣軟件；

外賣收貨地址相同；

時間對菜品的干擾需要排除，比如外賣平台不會在早上推薦夜宵；

外賣軟件的狀態（前台正在顯示、後台沒有關閉、完全關閉是三個不同變量）；

在詞匯選擇方面，建議抽取網上公開的菜品生成列表庫（此處應該有相聲報菜名），並隨機抽取列表庫中的詞匯；

IT時報測瞭三個月認為外賣平臺偷聽？實驗忽略瞭多種變量維度

為了保證「黑科技」不被觸發（如果有的話），盡量保證App打開時間一致，操作軌跡一致；

特別要注意的是，因為不確定外賣平台是否把打開關閉錄音權限判斷為不同用戶，建議通過物理方式隔音，不要通過關閉麥克風權限這個行為來進行實驗！

這里也不列舉所有的因素了……

為了保證實驗更加準確，建議進行更多測試，如：準備蘋果手機和安卓手機不同型號多種、準備不同歸屬地的手機號、去往各地進行測試等等……

還需要討論的一點是，如何判斷外賣平台「猜中了」。人們在不同的場景下，對技術準確性的容忍度不同，搜尋引擎出現了快30年了，搜尋信息時，信息不在最合適的地方，也會去篩選。但能夠對話的智能音箱在最近今年才出現，因為一旦對話出現錯誤，忍不了。

IT時報測瞭三個月認為外賣平臺偷聽？實驗忽略瞭多種變量維度

當這些因素或更多因素都排除掉後，實驗才有意義。

結語

這家媒體還委托專家進行了數據包的抓取測試，但沒有得出分析結果，從技術上也沒有給出客觀事實證明。（小編註：通過一些方法可以解開加密的數據，但不透露了）

盡管從技術角度上來說，無感知「偷聽」可以做到。（詳情請見網路尖刀團隊的文章《說沒監聽可以，但說做到不了不行。》）在沒有證據的情況下，我們能證明外賣平台侵犯隱私嗎，應該以安全研究專家的測試結果為準。

我們不能放過任何一個壞人，也不能冤枉任何一個好人，不是嗎？

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

什麼是對照試驗？

用戶行為分析有數百個特徵

實驗的問題出在哪？

實驗應該如何做

結語

更多文章

什麼是對照試驗？