IT時報測了三個月認為外賣平台偷聽?實驗忽略了多種變量維度

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

IT時報測瞭三個月認為外賣平臺偷聽?實驗忽略瞭多種變量維度

最近,IT時報媒體記者發表了一篇文章,他們的讀者進行了投訴:沒有用其他App搜尋過奶茶,只提到想喝奶茶。結果發現餓了麼推薦了奶茶。

if (window.location.host != ‘www.xuehua.us’){window.location.href=’https://www.xuehua.us/2019/03/23/it%e6%97%b6%e6%8a%a5%e6%b5%8b%e4%ba%86%e4%b8%89%e4%b8%aa%e6%9c%88%e8%ae%a4%e4%b8%ba%e5%a4%96%e5%8d%96%e5%b9%b3%e5%8f%b0%e5%81%b7%e5%90%ac%ef%bc%9f%e5%ae%9e%e9%aa%8c%e5%bf%bd%e7%95%a5%e4%ba%86%e5%a4%9a’;}

該媒體記者用了3個多月的時間進行測試,他們宣稱,通過「模擬用戶使用場景」,對安卓手機、蘋果手機、蘋果平板電腦上的餓了麼和美團外賣進行了多輪測試。認為這是一個沒有答案的「巧合」。但事實如此嗎?

小編無法得出給出外賣平台有沒有偷聽的實質性證據(盡管有專業人士對美團的隱私保護持消極態度)。小編在這里要說的是,如果按照文章描述的實驗過程進行測試,那麼該實驗和存在很大問題(如果有些信息)。

什麼是對照試驗?  

我們在初中學過名為「對照實驗」的方法:實驗設計的主要原則:對照性原則、隨機性原則、平行重復原則、單因子變量原則。(參見浙教版七年級科學上冊)。

IT時報測瞭三個月認為外賣平臺偷聽?實驗忽略瞭多種變量維度

接下來,讓我們看一下百度百科上對照實驗的定義:

IT時報測瞭三個月認為外賣平臺偷聽?實驗忽略瞭多種變量維度

那麼問題來了,僅憑不同場景、不同時間段、不同設備和麥克風狀態就能完成這個實驗嗎?

答案是否定的,從文章的描述的操作來看,有很多存疑的空間。

用戶行為分析有數百個特徵

據小編了解,互聯網公司為了更了解用戶,更好為用戶服務(或者殺熟),首先要搜集用戶數據,進行用戶行為分析,從而進行個性化推薦。

一些是合法的,沒有侵犯隱私:比如你登錄了自己的帳戶,平台看到你買過羽毛球拍,給你推薦羽毛球。

有些用戶行為是侵犯隱私的,為便於大家理解,小編簡單分類(並非科學權威分類)

1、如果關聯到了特點的自然人(也就是具體的人,精確到你叫XXX)侵犯隱私,但定義出你是一類用戶(如喜歡吃日料的90後男性數位愛好者)則不侵犯隱私;

2、過度收集數據,如同時上傳你通訊錄里好友姓名和手機號;

3、未經授權收集數據,如偷聽你說話;

4、部分數據不應該被收集或收集後未經加密,如明文上傳密碼,上傳手機號後未不可逆加密(加密後僅用於對比是否相同,判斷為同一個人或共同好友)。

那麼問題來了,合法的用戶行為分析有多少個維度呢?小編曾從人工智能從業者出了解,BAT等大廠能夠通過五六百個特徵來對用戶進行個性化推薦(定義一個用戶是什麼樣的人)。

各種特徵會對用戶行為分析的預測結果有影響。而基於用戶行為的推薦,在學術界名為協同過濾算法。

這個技術是什麼樣的?可以達到什麼樣的效果?舉個不太恰當的例子:如果把用戶分為「土豪」和「屌絲」,當你越喜歡買貴的東西,你離「土豪」越近,相反離「屌絲」越遠(當然還會有更多維度),於是推送給你「土豪」常買的物品或「屌絲」常買的物品。(本文不存在消費水平歧視)

IT時報測瞭三個月認為外賣平臺偷聽?實驗忽略瞭多種變量維度

隨著技術的進步,用戶分析的方式引入了人工智能技術,機器學習是做到人工智能的一種方法,人工智能機器學習的過程就相當於(類似)回歸方程計算的過程。(回歸方程計算的過程請詳見人教版2017高中數學必修三第二章)

IT時報測瞭三個月認為外賣平臺偷聽?實驗忽略瞭多種變量維度

實驗的問題出在哪?

宅客頻道在調查偷聽事件時,發現有網友在「偷聽」新聞事件中展開了清奇的腦洞:

IT時報測瞭三個月認為外賣平臺偷聽?實驗忽略瞭多種變量維度

為什麼該媒體的記者會想到日料?存在這樣的情況:這家媒體在上海,如果記者是南方人,很難想到北方且沒有流行到全國的小吃,比如北京的豆汁;且按照大眾的消費水平,也很難想到百元到千元的波士頓龍蝦(本文不存在地域黑和消費水平歧視)。

因此,實驗錯在了沒有嚴格控制變量。首先要判斷「偷聽」行為能否通過實驗來測試,因為如果外賣平台使用了人工智能做推薦,變量特徵可能無法進行人工分解,更不用說控制變量了,導致實驗結論不成立。

我們假設能夠通過變量來測試「偷聽」,從而得出相對準確的結論,那麼需要考慮到的變量有哪些呢?

小編不是這些平台的技術人員,只能了解到一些公開的特徵,來自於外賣平台的隱私政策。小編參考外賣平台的隱私政策,將這些信息進行了分類(並非專業分類)

第一類:系統信息

1、手機號碼歸屬地和經營商:判斷你可能是哪里人;如果是虛擬經營商號碼,則平台認為高危用戶而瑟瑟發抖,因為黑色產業鏈經常使用這些號碼,進行刷單或者騙平台錢;

IT時報測瞭三個月認為外賣平臺偷聽?實驗忽略瞭多種變量維度

2、你的手機機型:你是蘋果還是安卓,系統是哪個版本了

3、位置信息:如家、公司和學校的地址等。如某學生放假回了上海的經常吃外賣,那麼去其他城市上學,也可能推薦上海菜

4、日志信息:如搜尋過的內容,當你天天搜肯德基時,可能會推薦你肯德基,還可能推薦麥當勞

第二類:個人信息

1、你的性別:小編身邊的女生喜歡喝奶茶的較多,但男生較少(只說身邊現象,不代表所有情況);

2、消費習慣:如口味,消費額度等

第三類:間接搜集到的關聯信息

為確認交易狀態及為您提供售後與爭議解決服務,平台會通過用戶基於交易所選擇的交易對象、支付機構、配送公司等收集與交易進度相關的您的交易、支付、配送信息,可能將用戶的交易信息共享給上述服務提供者。

此外,用戶在授權使用第三方帳號登錄時,我們會從第三方獲取您共享的帳號信息(如頭像、昵稱等)。

第四類:「黑科技」信息

那麼,哪些「黑科技」變量可能可能會對結果造成干擾呢,鑒於平台間具有相似性,小編查詢了一些其他平台的資料,找到了一些可能帶來干擾的因素(不代表外賣平台一定使用)。我們可以把「黑科技」信息理解成用戶和平台的交互。

如:

螢幕活動記錄(看到奶茶就直接劃過去了,但是在日料前面點觸猶豫了很久);

用戶操作記錄(把啤酒加入購物車又拿出來,第一次打開App有沒有點外賣);

瀏覽商品(在搜尋炸雞後,不聽下滑,選擇了最想吃的一家店點開);

廣告位(是否願意點開推薦的美食,點擊的是常吃的還是不常吃的)

IT時報測瞭三個月認為外賣平臺偷聽?實驗忽略瞭多種變量維度

當然,除此之外還有更多因素,這里不一一列舉……

實驗應該如何做

當了解這些這些因素會對行為造成干擾後,如何設計實驗就相對容易理解了。再次重復一遍,因可能存在數百個變量,無法通過人為控制的情況,所以實驗不能得出絕對準確的結論。

因此,相對實驗要考慮這些因素:

準備蘋果手機、安卓手機同類設備各兩台;

準備相同歸屬地、相同經營商的手機號;

保證測試的手機GPS軌跡相同;

登錄外賣平台的帳號必須為新註冊,註冊帳號沒有關聯過其他軟件,避免歷史行為帶來干擾;

手機上必須只有外賣軟件;

外賣收貨地址相同;

時間對菜品的干擾需要排除,比如外賣平台不會在早上推薦夜宵;

外賣軟件的狀態(前台正在顯示、後台沒有關閉、完全關閉是三個不同變量);

在詞匯選擇方面,建議抽取網上公開的菜品生成列表庫(此處應該有相聲報菜名),並隨機抽取列表庫中的詞匯;

IT時報測瞭三個月認為外賣平臺偷聽?實驗忽略瞭多種變量維度

為了保證「黑科技」不被觸發(如果有的話),盡量保證App打開時間一致,操作軌跡一致;

特別要注意的是,因為不確定外賣平台是否把打開關閉錄音權限判斷為不同用戶,建議通過物理方式隔音,不要通過關閉麥克風權限這個行為來進行實驗!

這里也不列舉所有的因素了……

為了保證實驗更加準確,建議進行更多測試,如:準備蘋果手機和安卓手機不同型號多種、準備不同歸屬地的手機號、去往各地進行測試等等……

還需要討論的一點是,如何判斷外賣平台「猜中了」。人們在不同的場景下,對技術準確性的容忍度不同,搜尋引擎出現了快30年了,搜尋信息時,信息不在最合適的地方,也會去篩選。但能夠對話的智能音箱在最近今年才出現,因為一旦對話出現錯誤,忍不了。

IT時報測瞭三個月認為外賣平臺偷聽?實驗忽略瞭多種變量維度

當這些因素或更多因素都排除掉後,實驗才有意義。

結語

這家媒體還委托專家進行了數據包的抓取測試,但沒有得出分析結果,從技術上也沒有給出客觀事實證明。(小編註:通過一些方法可以解開加密的數據,但不透露了)

盡管從技術角度上來說,無感知「偷聽」可以做到。(詳情請見網路尖刀團隊的文章《說沒監聽可以,但說做到不了不行。》)在沒有證據的情況下,我們能證明外賣平台侵犯隱私嗎,應該以安全研究專家的測試結果為準。

我們不能放過任何一個壞人,也不能冤枉任何一個好人,不是嗎?

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!