茫茫大數據,找不到真實的我

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

一、從App年度總結想開去……

這幾年每到年末,手機上一堆App就會為你推送各種年度總結回顧,IT之家小編也和大家一樣,什麼網易雲音樂的年度總結啊、支付寶年度帳單等等,看得不亦樂乎。

人嘛,對自我總是有著本能的關注,但尼采又說,「離每個人最遠的,就是他自己」,說明自我認知是一件困難的事情。

不過在互聯網科技發達的今天,我們有了認識自己的新途徑:數據,大數據。實際上互聯網廠商們爭相做的年度總結,就是大數據幫你認識自己的例子之一。

然而樂此不疲地刷著各種年度總結H5的時候,IT之家小編又產生了一些新的思考:這些總結真的準確嗎?未必,甚至有時候偏差很大。

茫茫大數據,找不到真實的我

例如網易雲音樂的總結中,小編在2018年的某天將某首歌連續聽了50多次,從這條記錄應該能得出一個直接的結論:IT之家小編很喜歡這首歌,但其實小編那天單曲循環這首歌時,人在忙別的,根本沒在聽歌;例如還是網易雲音樂總結,IT之家小編2018年最喜歡的十首歌有七首都是小編不怎麼聽的,因為小編更喜歡將喜愛的歌下載到本地,也經常會用手機自帶播放器聽;再如支付寶年度帳單,2018年的總結IT之家小編覺得是比較符合自己的估判的,但記得自己2017年看到帳單時是有些懵的,全年總消費那一欄里,自己當年壓根沒那麼多收入啊,記得當時網上也有很多網友如此反映。

當然,IT之家小編說這些並不是否定年度總結存在的意義,只是由此產生了一些思考:大數據的時代,真的能夠通過數據準確定義個人或者群體嗎?人是很複雜的動物,記得在哪里看過一句話:「事情可以計算準確,但人是很難計算的」,而大數據應用,最核心的還是統計人的行為,這似乎成為悖論。

如今大數據的重要性被推到很高的高度,已然成為未來大趨勢,商業、醫療、教育等各行各業在進行越來越深刻的數據化改造,將來我們各種決策都需要大數據的指引。但人,如何不被大數據支配,這是又是一個新的問題。

二、大數據究竟是什麼?

我們首先要清楚認識大數據,理解它的意義。

百度百科上的解釋是:

大數據指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

這段解釋涵蓋了大數據的三個特點:海量、高速變化、多樣化,從中可以衍生出另外兩個特點:因為海量,所以是低價值密度的;因為海量、高速變化且多樣化,所以也是具有真實性的。總結起來就是五個特點:海量、高速變化、多樣化、低價值密度、真實。當然,這不是IT之家小編總結的,是行業的普遍共識~

▲圖片來源Wikimedia Commons

但怎麼理解這五個特點呢?其實IT之家小編只需說一個例子就可以講通這五個特點,即對比傳統的統計調查數據。在傳統統計學中,因為過去我們收集數據處理數據的能力有限,不可能把所有數據都收集到,所以很強調數據樣本,樣本量的大小、豐富度,以及是否隨機,都影響統計分析的結果。通過數據樣本,分析數據相關性的規律,總結出一定的理論、模型,這是我們以前做的事情。

而大數據,則是反其道行之,它要的不是樣本,而是追求所有的數據,所有的數據相信大家都懂的,這是多麼龐大,而且是源源不斷產生的,每個人做不同的行為,都會產生不同的數據,所以也是多樣的,因為沒有樣本,它的價值稀疏,畢竟不是每個人做得每件事產生的每個數據都是有價值的,但是它很真實,而樣本和現實之間,永遠存在誤差。

大數據的思路之所以能夠做到,是因為在互聯網科技強大的今天,我們有能力去收集如此海量的數據,也有能力去處理、分析它們。通過一個大數據的邏輯圖,大家可以更好地理解它:

總體來說,大數據的體系邏輯包含數據收集、數據存儲、資源管理和服務協調、計算引擎和數據分析這五個層次。

數據收集,主要通過互聯網數據抓取和客戶端、終端推送,例如你在電商網站購買東西,使用手環運動的數據也會上送到數據中心,它的特點是分布式,多樣化,源源不斷地產生,並且是異構的,即有很多數據源;

因為收集的數據有這些特性,所以對於數據存儲,要求具有可擴展性,容錯能力高,並且支持多種存儲模型,這甚至體現在數據庫設計這種最要求精確的領域,傳統的關係型數據庫(如MySQL)和文件系統就比較難適應大數據時代的要求;

資源管理和服務協調,這里涉及到應用的部署,大數據時代,需要將應用部署在公共集群中,這樣才能提高資源利用率和做到數據的快速共享,否則那麼多數據對應獨立的服務器,要被拖死;

計算引擎和數據分析同理,數據量的極大豐富讓應用場景也越來越繁雜,計算引擎越來越多樣且專注,數據的分析同樣也需要分布式計算方法。

總的來說,大數據從技術上來說就是因為數據量實在是太大了,無論是數據的收集、存儲還是處理都需要很多機器一起做,這個過程,不得不提的就是雲計算。

所謂雲計算,IT之家小編總結就是將龐大集群的虛擬化電腦進行統一調度的能力,它天然滿足大數據的需求,所以雲計算是釋放浩瀚大數據價值的驅動力,兩者如同共生,為了不跑題,這里就不進一步講了。

三、只求相關,不問因果

大數據能成為未來的趨勢,有兩個條件,一是具備顛覆性,二是正面意義大於負面意義。那麼大數據顛覆了什麼?

英國牛津大學教授、數據科學家維克托·邁爾·舍恩伯格在他的《大數據時代》這本書中,將大數據的顛覆性凝練為三條:

  • 首先,要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。

  • 其次,我們樂於接受數據的紛繁複雜,而不再追求精確性。

  • 最後,我們的思想發生了轉變,不再探求難以捉摸的因果關係,轉而關注事物的相關關係。

從上面IT之家小編的介紹相信你能總結出,大數據帶來的各種改變,歸根結底在於其數量實在龐大多樣,它要的不是樣本,而是所有數據,這就造成它必然混雜,難以追求精確性,在大數據里,混亂不是缺點,而是一種必要,這已經是顛覆人的正常思維了;

再往下,以往我們需要樣本,總是需要在樣本數據中找到一些既定的因果關係,然後提煉成理論,從樣本到整體,然後總結成方法,這是我們做事的基本邏輯,而在大數據時代,你不需要這樣了,因為我們有足夠多的數據,我們要做的事情是找到目標數據之間的相關關係,然後發現趨勢,大數據會告訴我們接下來該幹什麼,而我們,不需要問為什麼,負責決策就行了,不要小看這個轉變,它說明我們認識世界方式的改變。

2003年,美國計算機專家奧倫·艾奇奧尼(Oren Etzioni)乘坐飛機,和乘客的交談中發現自己的機票買貴了,內心一萬頭草泥馬奔騰而過後,他萌生了一個想法:能不能有一個工具能夠預測機票的波動趨勢,幫大家省錢?說幹就幹,然後他就真的創立了一個系統:通過從旅遊網站爬取41天內的12000個價格樣本,來判斷機票的未來走勢,這個小項目後來發展成為科技創業公司Farecast並被必應收購。在後來的系統中,Farecast基於美國一個行業的機票預訂數據庫,跟蹤每一條航線每一架飛機每一個作為一年內的票價記錄,從而判斷機票價格變動的趨勢,然後這個系統大獲成功,還被用到其他領域。

▲奧倫·艾奇奧尼,圖片來源:Wikimedia Commons

這是大數據應用的一個經典案例,在這個案例中,奧倫·艾奇奧尼明確表示,他不需要弄清楚機票價格波動和時間或者其他因素之間的因果關係,只是要從所有的數據中分析出規律,然後給出可能的結果。你不要問為什麼,只需要知道機票接下來會漲還是會跌就行了。

還有一些例子,如沃爾瑪在上世紀九十年代就開始進行將產品記錄為數據的工程,2004年,他們對這個龐大的數據庫進行觀察,發現每當季節性颶風來臨,不僅颶風用品銷量增加,POP-Tarts蛋撻的銷量也隨之增加,所以他們把颶風用品和蛋撻放在一起,在這個例子中,你同樣不用知道人們買颶風用品的同時為什麼還喜歡買蛋撻而不是其他,你只需要發現這個現象,然後做決策就行,而且海量的大數據,能夠為這個趨勢的準確性提供一定的保證。

還有德國通過手機家庭太陽能用電的海量數據預測未來2-3個月智能電網需要的電量來降低成本;丹麥的維斯塔斯風能系統通過研究風力和天氣、湍流度等數據以及全球數萬個受控渦輪機組傳感器數據,來判斷渦輪發電機設置的位置,從而提高能源產出的效率和數量等等。

上面這些案例中,大家都不需要考慮事物之間的因果關係,不需要研究背後的原理,不需要建立模型,只需要對海量的龐大數據做分析。IT之家小編認為,這是大數據最大的顛覆性,如果我們的思維不轉變,最終會被大數據時代拋棄。

四、爭議

Google研發總監曾Peter Norvig在2011年的一次講話中表示,「我們沒有更好的算法,我們僅僅是有更多的數據」,後來他在一次對自己言論澄清的文章中說:

如果模型無論如何都有可能出錯,為什麼不看看你是否能讓計算機從數據中快速地學習模型,而不是讓一個人費力地從許多思想中推導模型?

這應該是對大數據很直接的解釋了。

▲Google研發總監曾Peter Norvig,圖片來源:Flickr

比這個更為激進的是《連線》雜誌主編克里斯·安德森(Chris Andersen),他在2008年就說過「數據爆炸使科學的方法都落伍了」,後來,他又在《The Petabyte Age》這篇文章中提出了「理論的終結」的觀點,說

現在已經是一個有海量數據的時代,應用數學已經取代了其他所有的學科工具,而且只要數據足夠,就能說明問題。

▲克里斯·安德森,圖片來源Wikimedia Commons

安德森的這篇文章當時引起了很大的爭議,數據取代理論,這聽起來的確有些荒謬。在《大數據時代》中,舍恩伯格對這個觀點進行了辯駁,他表示大數據從來不會叫囂「理論已死」,相反,大數據的方方面面也被理論影響著。例如在數據分析的時候,我們也需要理論的支持。

五、願問東西,且問因果

2009年,Google流感趨勢研究團隊(GFT)在《自然》雜誌上發表論文,展示了分析數十億搜尋中45個與流感相關的關鍵詞,從而能比疾病預防控制中心提前兩周預報2007-2008季流感發病率的過程。這在當時引起了震驚,這說明人們不需要等待疾控中心的報告,就能及時知道未來醫院的就診人數,從而提前預防,顯然這將讓很多人避免痛苦,免受巨大的損失。這成為Google運用大數據最早和最經典的案例之一。

然而,後來有學者發現,2009年,Google沒有準確預測到非季節性流感A-H1N1,而在2011年8月到2013年8月的時間里,Google有100周高估了CDC報告的流感發病率,到2013年,Google調整算法後仍然存在高估的現象。

又回到文章開頭:有時候,大數據可能也不那麼準,甚至可能離譜。

IT之家小編認為,存在這種情況的原因,可能恰恰就在於大數據最大的顛覆性:只追求數據的相關性,而不關心因果關係。所以,這就像硬幣的正反兩面,如果使用不當,也可能帶來嚴重的危害。特別是在風口期,大數據被鼓吹以至被濫用時,風險更大。

IT之家小編在文章開頭所說的App年度總結和你實際狀況不符合的案例,其實只是大數據最細枝末節的應用,現在到未來,毫無疑問大數據會被運用在更多的行業,風口也會越刮越強,但如果你沒有理智運用大數據,只是一昧的迷信,那麼後果可能也會慘烈,例如金融企業在數據量沒有達到標準的情況下就自以為通過大數據判斷個體的信譽程度而對外放貸,後果可想而知;再例如教育方面,未來你真的敢於完全聽憑大數據的分析結果來決定報考哪座院校和規劃職業生涯方向,而不是遵從自己的興趣?還有利用大數據相親的,則更不消說了。

你真的敢相信大數據里描繪的你的畫像,就是真實的你?即便它與你有90%以上的相似度,你真的敢將自己的所有決策放心交給大數據?

所以,IT之家小編認為,在大數據時代全面到來之前,我們首先需要探討的,是大數據運用的邊界在哪里?

當然,這個邊界不是IT之家小編一人就能劃定的,但小編認為,大數據之外,「小數據」仍然重要,「大小結合」是一種更可取的方式,我們既要判斷趨勢,也需要深究原理。

還有就是,在討論到和自我相關的問題時,永遠要遵從內心的自我,就像在大數據里,混雜比精確更重要,在現實里,對自己的感覺,往往比數據更重要。

總之,願問東西,且問因果,則幸甚。

本文參考資料:

芯聯天下,2018-06-21,《終於有人把雲計算、大數據和人工智能講明白了!》

CSDN,2017-30-014,《從Google流感趨勢談大數據分析的光榮與陷阱》

維克托?邁爾?舍恩伯格,2012,《大數據時代》

董西成,2018,《大數據技術體系詳解:原理、架構與實踐》

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!