曾成功預測H1N1病毒疫情,細數這些年大數據的神應用

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

導讀: 2003年至2008年間,Google利用自己的搜尋數據,推出「Google流感趨勢」(GFT)系統。 2009年,美國H1N1流感病毒疫情爆發,神奇的GFT成功預測了疫情在全美範圍內的傳播,與美國CDC的官方數據相比,準確率高達97%。

但從2011年起,GFT開始「翻車」,它會高估流感流行趨勢,原因眾說紛紜。 有分析認為,搜尋引擎的自動聯想功能可能是造成趨勢被高估的原因,如下同所示,在Google輸入「喉嚨」,會自動聯想「喉嚨痛」等相關搜尋。

曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-

盡管如此,提起大數據技術的應用,GFT仍然是人們津津樂道的神奇案例。 那麼大數據這些年都經歷了哪些發展? 還有哪些神應用?

作者:王宏志 何震瀛 王鵬 李春靜

來源: 大數據DT(ID:hzdashuju)

曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-

01 大數據的基本概念

一般來說,大數據泛指巨量的數據集。 當今社會,互聯網和物聯網,尤其是移動互聯網的發展,顯著加快了信息化向社會、經濟等各方面以及大眾生活的滲透,推動了大數據時代的到來。

近年來,人們能明顯地感受到大數據來勢迅猛。據有關資料顯示,1998年,全球網民平均每月使用流量是1MB,2003年是100MB,而2014年是10GB;全網流量累計達到1EB(即10億GB)的時間在2001年是一年,在2004年是一個月,而在2013年僅需要一天,即一天產生的信息量可刻滿1.88億張DVD光盤。

事實上,大陸網民數居世界首位,產生的數據量也位於世界前列,這其中包括淘寶網每天超數千萬次的交易所產生的超50TB的數據,百度搜尋每天生成的幾十PB數據,城市里大大小小的錄影頭每月產生的幾十PB數據,甚至包括醫院里CT影像抑或門診所記錄的信息。

總之,大到學校、醫院、銀行、企業的系統行業信息,小到個人的一次百度搜尋、一次地鐵刷卡,大數據存在於各行各業,連接著大眾生活的各個角落。

大數據因自身可挖掘的高價值而受到重視。 在國家寬帶化戰略實施、雲計算服務起步、物聯網廣泛應用和移動互聯網崛起的同時,數據處理能力也在迅速發展,數據積累到一定程度,會顯示出開發的價值。

同時,社會節奏的加快,要求快速反應和精細管理,急需借助數據分析和科學決策,這樣,我們便需要對上面所說的形形色色的海量數據進行開發。也就是說,大數據的時代來了。

有學者稱,大數據將引發生活、工作和思維的革命;《華爾街日報》也將大數據稱為引領未來繁榮的三大技術變革之一;麥肯錫公司的報告指出,數據是一種生產資料,大數據將是下一個創新、競爭、生產力提高的前沿;世界經濟論壇的報告認為大數據是新財富,價值堪比石油;等等。

因此, 大數據的開發和利用將成為各國家搶占的新的制高點。

曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-

02 大數據的4V

大數據是相對於一般數據而言的,目前對大數據尚缺乏權威的嚴格定義,但較普通的解釋是「難以用常規的軟件工具在容許的時間內對其內容進行抓取、管理和處理的數據集合」。通常用4V來概括大數據的特徵:

1. Volume(規模性)

大數據之「大」,體現在數據的存儲和計算均需要耗費海量規模的資源上。規模大是大數據最重要的標誌之一,事實上,數據只要有足夠的規模就可以稱為大數據。數據的規模越大,通常對數據挖掘所得到的事物演變規律越可信,數據的分析結果也越具有代表性。

例如,美國NASA收集和處理的氣候觀察、模擬數據達到32PB;而FICO的信用卡欺詐檢測系統要監測全世界超過18億個活躍信用卡帳戶。

不過,現在也有學者認為, 社會對大數據的關注,應更多地被引導到對數據資源的獲得與利用上來 ,因為對於某些中小型數據的挖掘也有價值,目前報導的一些大數據挖掘的應用例子,不少也只是TB級的規模。

2. Velocity(高速性)

大數據的另一特點是數據增長速度快,急需及時處理。例如,大型強子對撞機實驗設備中包含15億個傳感器,平均每秒收集超過4億的實驗數據;同樣在一秒內,有超過3萬次用戶查詢被提交到Google,3萬條微博被用戶撰寫。

而人們對數據處理速度的要求也日益嚴格,力圖跟上社會的節奏,有報導稱,美國中央情報局就要求利用大數據將分析、搜集數據的時間由63天縮短為27分鐘。

3. Variety(多樣性)

在大數據背景下,數據在來源和形式上的多樣性愈加突出。除以結構化形式存在的文本數據之外,網路上也存在大量的位置、圖片、音頻、視頻等非結構化信息。

其中,視頻等非結構化數據占有很大比例,有數據表明,2016年,全部互聯網流量中,視頻數據達到55%,那麼,有理由相信, 大數據中90%都將是非結構化數據。

並且,大數據不僅僅在形式上表現出多元化,其信息來源也表現出多樣性:大致可分為網路數據、企事業單位數據、政府數據、媒體數據等。

4. Value(高價值性)

大數據價值總量大,但價值稀疏,即知識密度低。大數據以其高價值吸引了全世界的關注,據全球著名咨詢公司麥肯錫報告:

如果能夠有效地利用大數據來提高效率和質量,預計美國醫療行業每年通過數據獲得的潛在價值可超過3000億美元,能夠使得美國醫療衛生支出降低8%。

然而,大數據的知識密度非常低,IBM副總裁CTO Dietrich表示:

可以利用Twitter數據獲得用戶某個產品的評價,但是往往上百萬記錄中只有很小的一部分真正討論這款產品。

並且,雖然數據規模與數據挖掘得到的價值之間有相關性,但是兩者難以用線性關係表達。這取決於數據的價值密度,同一事件的不同數據集即便有相同的規模(例如對同一觀察對象收集的長時間稀疏數據和短時間密集數據),其價值也可以相差很多,因為數據集「含金量」不同,大數據中多數數據是重復的,忽略其中一些數據並不影響對其分析的結果。

注意

大數據之所以難處理不僅在於規模大,更大的挑戰是其隨時間變化快和類型的多樣性,隨時間和類型的變化增加了大數據的複雜性,同時也豐富了大數據的內涵。

對大數據僅僅冠以「大」這個形容詞是不全面的,只不過在大數據4V中,規模相對於變化和類型這兩個特徵量來說容易定量,而且即便是單一類型的數據集,只要具備足夠的規模也能稱得上是大數據。

當然,數據的規模越大,通常對數據挖掘所得到的事物演變規律越可信,數據分析的結果也越有代表性。因此對大數據突出規模大這一特徵是可以理解的。

數據分析挖掘需要有足夠規模的數據,但前提是這些數據要有一定的時間或空間跨度,即要具有普遍性。例如,每分鐘將一個人的身體數據記錄下來以了解其身體狀況是有效的,如果將頻率改為每秒鐘,數據規模有所增加,但其價值並無提升。

顯然, 數據樣本密度與被觀察對象有關 ,如風力發電機的很多傳感器每毫秒就要檢測一次,以檢查葉片等的磨損程度。

曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-

03 無處不在的大數據

大數據是無處不在的。大數據包括:

1. 數目極龐大的網路數據

有自媒體數據(比如社交網路),有日志數據(比如用戶在搜尋引擎上留下大數據),還有流量最大的富媒體數據(比如視頻、音頻)等。

例如,淘寶網每天的數據量就超過50TB;新浪微博晚高峰時每秒鐘要接受100萬次以上的請求;美國YouTube網站每分鐘就有72小時的視頻被下載。

2. 企事業單位數據和政府數據

一家醫院一年能接受包括醫療影像、患者信息在內的500TB數據;中國聯通每秒鐘記錄用戶上網條數近百萬,一個月的數據量大概是300TB;國家電網信息中心目前累計收集了2PB的數據。

3. 我們身邊的一些公用設施所記錄的數據

就監控而言,很多城市的交通錄影頭多達幾十萬個,一個月的數據就達到數十個PB,另外,基本上所有的超市都覆蓋了錄影頭,這些都可以是大數據的基本來源並可被挖掘利用;在北京,每天公交一卡通的刷卡記錄有4000萬條,而每天地鐵刷卡的記錄也有1000萬條,這些數據可以用來改善北京的交通狀況,優化交通路線。

4. 國家大型公用設備和科研設備等產生的數據

例如,波音787每飛一個來回可產生TB級的數據,美國每個月收集360萬次飛行記錄;風力發電機裝有測量風速、螺距、油溫等的多種傳感器,每隔幾毫秒就要測量一次,這些數據用於檢測葉片、變速箱、變頻器等的磨損程度;一個具有風機的風場一年會產生2PB的數據,這些數據用於預防和維護,可使風機壽命延長3年,極大降低了風機的成本。

5. 一些地理位置、基因圖譜、天體運動軌跡的數據

總之,任何可以利用數據分析的地方就會有大數據的存在。

曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-

毋庸置疑,大數據將帶動產業和市場,包括服務器、存儲器、聯網設備、軟件與服務等,但是硬件、軟件和服務僅僅是狹義上的大數據產業:通過大數據挖掘,大數據被應用到各行各業,可有效提升生產效益、支撐節能降耗、促進經濟發展,因此廣義上的大數據產業的產值更多地體現在工業、農業、交通運輸、建築製造等行業。

事實上,大數據分析在社會治理和民生服務上的效益更為顯著,這遠不是GDP可以衡量的。也就是說,大數據的社會效益大於經濟效益,大數據受到廣泛重視也是因其溢出效應明顯。

04 大數據在各領域的應用實例

大數據計算是關係國民經濟發展與國家安全的重大需求,是把握信息產業的制高點。在大數據中,我們可以獲得比其他方式更及時、更精準的統計特徵,繼而建立相應的數據模型,輔助政策制定者更有效地制定決策、觀察反饋、優化調整。

總的來說,在 各行各業研究大數據都有非凡的意義 ,大數據可以輔助社會管理、推動科學發展、提高企業效益、改善人民生活,以下是大數據在各個領域的一些具體作用和應用實例。

1. 在宏觀經濟領域

淘寶網根據網上成交額比較高的390個類目的商品價格來得出CPI, 比國家統計局公布的CPI更早地預測到經濟狀況。 國家統計局統計的CPI主要根據剛性物品得出,如食品,百姓都要買,差別不大。可是淘寶網是利用化妝品、電子產品等購買量受經濟影響較明顯的商品進行預測,因此淘寶網的CPI更能反映經濟走勢。

美國印第安納大學利用Google公司提供的心情分析工具,從近千萬條簡訊和網民留言中歸納出6種心情,進而預測道瓊斯工業指數,準確率高達87%。

2. 在企業經營領域

華爾街對沖基金依據購物網站的顧客評論,分析企業的銷售狀況;一些企業利用大數據分析做到對採購和合理庫存的管理,通過分析網上數據了解客戶需求,掌握市場動向;美國通用電氣公司通過對所產生的2萬台噴氣引擎的數據分析,開發的算法能夠提前一個月預測需求,準確率達70%。

3. 在農業領域

矽谷的氣候公司利用30年的氣候變化和60年的農作物收成變化、14TB的土壤歷史數據、250萬個地點的氣候預測數據和1500億例土壤觀察數據,生成10萬億個模擬氣候據點,可以預測下一年的農產品產量以及天氣、作物、病蟲害和災害、肥料、收獲、市場價格等的變化。

4. 在商業領域

商家得到消費者在網上的消費記錄後,就可以留意其上網蹤跡和消費行為,並適時彈出本公司商品的廣告,這樣就很容易達成交易,最終的結果是顧客、商家,甚至相關網站都有收益。

再比如,沃爾瑪將每月4500萬條網路購物數據與社交網路上產品的大眾評分結合,開發出「北極星」搜尋引擎,以方便顧客購物,在線購物的人數因而增加了10%~15%。

5. 在金融領域

阿里公司根據淘寶網上中小型公司的交易狀況,篩選出財務健康、誠信優良的企業,為其免擔保提供貸款達上千億元,壞帳率僅有0.3%,相較於需要擔保的商業銀行,壞帳率要低很多;華爾街德溫特資本市場公司通過分析3.4億條留言判斷民眾心情,以決定公司股票的買入和賣出,從而獲得了較好的收益。

6. 在醫療衛生領域

一方面,相關部門可以根據搜尋引擎上民眾對相關關鍵詞的搜尋數據建立數學模型進行分析,得出相應的預測進行預防。例如,2009年,Google公司在甲型H1N1爆發前幾周,就預測出流感形式,與隨後的官方數據相關性高達97%;而百度公司得出的中國愛滋病感染人群的分布情況,與後期衛生部公布的結果基本一致。

另一方面, 醫生可以借助社交網路平台與患者就診療效果和醫療經驗進行交流,能夠獲得在醫院得不到的臨床效果數據。 除此之外,基於對人體基因的大數據分析,可以做到對症下藥的個性化診療,提高醫療質量。

7. 在其他領域

如在交通運輸中,物流公司可以根據GPS上大量的數據分析優化運輸路線,以節約燃料和時間,提高效率;相關部門也會通過對公車上手機用戶的位置數據分析,為市民提供交通實時情況。

大數據還可以改善機器翻譯服務 ,Google翻譯器就是利用已經索引過的海量資料庫,從互聯網上找出各種文章及對應譯本,找出語言數據之間的語法和文字對應的規律來達到目的的。

大數據在影視、軍事、社會治安、政治領域的應用也都有著很明顯的效果。 總之,大數據的用途是無處不在的。

曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-

當然,大數據不僅僅是一種資源, 作為一種思維方法,大數據也有著令人折服的影響。 伴隨大數據產生的數據密集型科學,有學者將它稱為第四種科學模式,其研究特點在於:

  • 不在意數據的雜亂,但強調數據的規模;

  • 不要求數據的精準,但看重其代表性;

  • 不刻意追求因果關係,但重視規律總結。

如今,這一思維方式廣泛應用於科學研究和各行各業,成為從複雜現象中透視本質的重要工具。

關於作者 王宏 ,哈爾濱工業大學計算機科學與技術學院教授、博士生導師,英才學院副院長。研究方向為大數據、數據科學、數據管理與分析。在VLDB、SIGMOD等國內外重要會議和期刊上發表學術論文200餘篇,出版學術專著兩本,其論文被SCI收錄50餘次,他引千餘次。

何震瀛 ,博士,復旦大學計算機科學學院副教授,中國計算機學會數據庫專業委員會委員、大數據專業委員會通信委員。主要研究興趣是數據管理和數據分析等。

王鵬 ,畢業於哈爾濱工業大學軟件工程專業,研究生學歷。曾就職於中國普天信息技術研究院,並擔任架構師、技術總監等職使。曾代表企業主導網路存儲國家行業標準制定,擁有相關專利3項。

李春靜 ,工學碩士,現任北京華育興業科技有限公司大數據講師,並承擔高校大數據技術與應用資源建設工作。主要從事Hadoop、HBase、Hive、Spark、大數據庫、機器學習等課程研發工作。

本文摘編自 《 大數據管理系統原理與技術 》 ,經出版方授權發布。

曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-

曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-曾成功預測H1N1病毒疫情,細數這些年大數據的神應用-

延伸閱讀 《 大數據管理系統原理與技術 》

長按二維碼了解及購買

轉載請聯繫微信:DoctorData

推薦語: 本書介紹了多種數據庫管理系統的基本概念以及代表性數據庫管理系統的使用和優化方法,覆蓋了傳統的關係數據庫、數據倉庫,以及列族、鍵值、文檔、圖等NoSQL數據庫系統。

有話要說 :point_down:

Q:  這次疫情中,大數據發揮了哪些作用?

歡迎留言與大家分享

猜你想看 :point_down:

  • 騰訊阿里都在用!機器學習最熱研究方向入門,附學習路線圖

  • 搜尋引擎的競價排名是怎樣做到的?

  • 盤點科幻作品中的機器人,哆啦A夢、阿拉蕾、變形金剛…你最想擁有?

  • 一個月讀完6本書?這些燒腦神書,你能讀完1本,就是學霸!

更多精彩 :point_down:

在公眾號對話框 輸入以下 關鍵詞

查看更多優質內容!

PPT  |  讀書  |  書單  |  硬核  |  乾貨  

大數據  |  揭秘  |  Python  |  可視化

AI  |  人工智能  |  5G  |  中台

機器學習  |  深度學習  |  神經網路

合夥人   1024  |  大神  |  數學

據統計,99%的大咖都完成了這個神操作

>曾成功預測H1N1病毒疫情,細數這些年大數據的神應用

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!