大大數據的四大大特點和五大大治理核心身分

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

大大數據的四大大特點和五大大治理核心身分 科技 第1張大大數據的四大大特點和五大大治理核心身分 科技 第1張

1.大量

大數據的特徵首先就體現為「大」.從先Map3時代,一個小小的MB級別的Map3就可以滿足很多人的需求,然而隨著時間的推移,存儲單位從過去的GB到TB,乃至現在的PB、EB級別。只有數據體量達到了PB級別以上,才能被稱為大數據。

1PB等於1024TB,1TB等於1024G,那麼1PB等於1024*1024個G的數據。隨著信息技術的高速發展,數據開始爆發性增長。社交網路(微博、推特、臉書)、移動網路、各種智能工具,服務工具等,都成為數據的來源。

淘寶網近4億的會員每天產生的商品交易數據約20TB;臉書約10億的用戶每天產生的日志數據超過300TB。迫切需要智能的算法、強大的數據處理平台和新的數據處理技術,來統計、分析、預測和實時處理如此大規模的數據。

2.高速

就是通過算法對數據的邏輯處理速度非常快,1秒定律,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同。

大數據的產生非常迅速,主要通過互聯網傳輸。生活中每個人都離不開互聯網,也就是說每天個人每天都在向大數據提供大量的資料。並且這些數據是需要及時處理的,因為花費大量資本去存儲作用較小的歷史數據是非常不划算的,對於一個平台而言,也許保存的數據只有過去幾天或者一個月之內,再遠的數據就要及時清理,不然代價太大。

基於這種情況,大數據對處理速度有非常嚴格的要求,服務器中大量的資源都用於處理和計算數據,很多平台都需要做到實時分析。數據無時無刻不在產生,誰的速度更快,誰就有優勢。

3.多樣

如果只有單一的數據,那麼這些數據就沒有了價值,比如只有單一的個人數據,或者單一的用戶提交數據,這些數據還不能稱為大數據。

廣泛的數據來源,決定了大數據形式的多樣性。比如當前的上網用戶中,年齡,學歷,愛好,性格等等每個人的特徵都不一樣,這個也就是大數據的多樣性.

當然了如果擴展到全國,那麼數據的多樣性會更強,每個地區,每個時間段,都會存在各種各樣的數據多樣性。任何形式的數據都可以產生作用,目前應用最廣泛的就是推薦系統,如淘寶,網易雲音樂、今日頭條等,這些平台都會通過對用戶的日志數據進行分析,從而進一步推薦用戶喜歡的東西。

日志數據是結構化明顯的數據,還有一些數據結構化不明顯,例如圖片、音頻、視頻等,這些數據因果關係弱,就需要人工對其進行標註。

4.價值

這也是大數據的核心特徵。據羿戓產品設計所了解,現實世界所產生的數據中,有價值的數據所占比例很小。

相比於傳統的小數據,大數據最大的價值在於通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,並通過機器學習方法、人工智能方法或數據挖掘方法深度分析,發現新規律和新知識。

你如果有1PB以上的全國所有20-35年輕人的上網數據的時候,那麼它自然就有了商業價值,比如通過分析這些數據,我們就知道這些人的愛好,進而指導產品的發展方向等等。

如果有了全國幾百萬病人的數據,根據這些數據進行分析就能預測疾病的發生,這些都是大數據的價值。大數據運用之廣泛,如運用於農業、金融、醫療等各個領域,從而最終達到改善社會治理、提高生產效率、推進科學研究的效果。

大大數據的四大大特點和五大大治理核心身分 科技 第3張大大數據的四大大特點和五大大治理核心身分 科技 第3張

大數據已經成為過去幾年中大部分行業的遊戲規則,行業領袖,學者和其他知名的利益相關者都同意這一點,隨著大數據繼續滲透到我們的日常生活中,圍繞大數據的炒作正在轉向實際使用中的真正價值。

當今的大型企業,內部分工日趨細化,採購、服務、市場、銷售、開發、支持、物流、財務、人力等各個環節,無不每時每刻產生著大量的數據。數據的格式也越來越多樣化,包括IT系統里存儲的結構化、非結構化數據,各樣電子文檔數據等。與此同時,企業管理者對數據的困惑也與日俱增,這些數據從哪里來?我們能相信這些數據嗎?數據之間有什麼樣的關係?誰能理解這些數據?

零散化存放是數據問題根源

造成上述情況最根本的原因是:數據零散化存放。大型企業在不同發展階段,會根據業務需求建設很多內部IT支撐系統,比如ERP(企業資源計劃)系統、CRM(客戶服務管理)系統、財務管理系統等,這些系統的分散建設,數據割裂,造成了數據零散化存放的現狀。

基於數據作分析,首先需要數據的聚合,但由於生產系統和數據的離散化,造成了數據標準、數據模型不統一,因而企業最需要做的就是對數據整合和標準化。

大數據治理帶來全面解決之道

大數據治理是諸多數據問題的全面解決之道。根據DAMA(國際數據管理協會)的定義,數據治理(DG,Data Governance)是指對數據資產的管理活動行使權力和控制的活動集合(規劃、監控和執行)。作為DAMA數據管理職能框架(圖1)的10項職能之一,起著指導其他數據管理職能如何執行的作用,它通過制定正確的政策、操作規程,確保以正確的方式對數據和信息進行管理。

大大數據的四大大特點和五大大治理核心身分 科技 第5張大大數據的四大大特點和五大大治理核心身分 科技 第5張

大數據治理,即基於大數據的數據治理。大數據,一般指符合4V特徵的數據,包括社交數據、機器數據等,大數據對傳統數據治理工作帶來很多的擴展,在政策/流程上,大數據治理應覆蓋大數據的獲取、處理、存儲、安全等環節,需要為大數據設置數據管理專員制度;

需考慮大數據與主數據管理能力的集成,需要對大數據做定義,統一主數據標準;在數據生命周期管理各階段,如數據存儲、保留、歸檔、處置時,要考慮大數據保存時間與存儲空間的平衡,大數據量大,因此應識別對業務有關鍵影響的數據元素,檢查和保證數據質量。此外,在隱私方面,應考慮社交數據的隱私保護需求,制定相應政策,還要將大數據治理與企業內外部風險管控需求建立聯繫。

大數據治理的商業價值

企業只有建立了完整的大數據治理體系,保證數據的質量,才能夠真正有效地挖掘企業內部的數據價值,對外提高競爭力。

首先,高質量數據是企業業務創新、管理決策的基礎。隨著互聯網企業對其他各行業的衝擊,加劇了市場的競爭,許多企業面臨收入增速放緩、利潤空間逐步縮小的局面,過去單純的外延式增長已經難以為繼。

因此,必須向外延與內涵相結合的增長方式轉變,未來效益的提升很大程度上要依靠企業的內部挖潛做到,這從客觀上對企業的創新能力提出了更高的要求,而提升企業內部數據管理的精細化水平,是企業開展業務創新和管理決策的重要基礎,能夠為企業創造巨大效益。

其次,標準化的數據是優化商業模式、指導生產經營的前提。許多企業的 IT 系統經歷了數據量高速膨脹的時期,這些海量的、分散在不同角落的數據導致了數據資源利用的複雜性和管理的高難度,形成了一個個系統豎井。

系統之間的關係、標準化數據從哪里獲取都無從知曉,通過數據治理工作,可以對分散在各系統中的數據提供一套統一的數據命名、數據定義、數據類型、賦值規則等的定義基準,通過數據標準化可以防止數據的混亂使用,確保數據的正確性及質量,並可以優化商業模式,指導企業生產經營工作。

最後,多角度、全方位的數據是企業開展市場行銷、爭奪客戶資源的關鍵。數據已成為企業最核心的隱形財富,誰掌握了準確的數據誰就能獲得先機,在當前競爭日益激烈的市場上,企業如何在不同的細分市場構建客戶畫像、開展精準行銷,如何選擇競爭策略、進行經營管理決策,都必須基於360度全方位、準確的客戶數據加以分析判斷才能得出。

明確數據治理責任,建立數據治理組織

數據出了問題,到底是誰的責任?因為數據主要是IT系統產生的,所以一直以來,解決數據問題都被認為是IT部門的職責。

而IT部門也飽受其苦,數據定義和業務規則,業務部門最清楚;

數據錄入,業務人員負責;數據使用,業務人員是用戶;

數據考核,業務部門有權力……但實際上,要切實解決數據問題,開展數據治理工作,就必須先清楚一點:

數據治理,是業務部門和IT部門共同的職責。

圖2是典型的中國式數據治理組織架構,數據治理/管理主管小組設在信息化主管小組之下,可以單設,也可以是信息化主管小組的一個職責,而虛框中的數據治理部門可能是實體部門,也可能是由牽頭業務部門和IT部門聯合組成的虛擬團隊。

大大數據的四大大特點和五大大治理核心身分 科技 第7張大大數據的四大大特點和五大大治理核心身分 科技 第7張

值得一提的是,越來越多的企業開始重視數據治理工作,一些企業高管團隊中也產生了一個全新的職位——首席數據官(CDO),是組織內大數據戰略的制定者和推動者,負責組織內數據資產的開發和利用,通過數據推動組織業務的創新和發展,通常直接匯報給CEO或CIO。

管理出成效,制度是保障

大數據治理需要管理和制度的有力支撐,可結合企業的現狀,制定相應的管理辦法、管理流程、認責體系、人員角色和崗位職責等,頒布相關的數據治理的企業規章制度等。

舉個例子,在筆者負責過的一個數據治理項目中,為了加強數據保密管理,根據重要程度、公開範圍、數據使用頻次和數據安全要求,針對數據制定了四個重要級別:極敏感級、敏感級、較敏感級、低敏感級,並根據不同級別實施相應的管理舉措,級別越高,數據管理的要求越高。

數據規範:沒有規矩,不成方圓

數據規範是指對企業核心數據進行有關存在性、完整性、質量及歸檔的測量標準,為評估企業數據質量,並且為手動錄入、設計數據加載程序、更新信息以及開發應用軟件提供的約束性規則,數據規範一般包括數據標準、數據模型、業務規則、元數據、主數據和參考數據。

制定數據標準的目的是為了使業務人員、技術人員在提到同一個指標、名詞、術語的時候有一致的含義。數據模型對企業經營過程中涉及的業務概念和邏輯規則進行統一定義。

業務規則是一種權威性原則或指導方針,用來描述業務交互,並建立行動和數據行為結果及完整性的規則。元數據能夠幫助增強數據理解,可以架起企業內業務與 IT 部門之間的橋梁。主數據用來描述參與組織業務的人員、地點和事物。參考數據是系統、應用軟件、數據庫、流程、報告中及交易記錄中用來參考的數值集合或分類表。

數據治理活動,理論結合實踐

數據治理活動是指為做到數據資產價值的獲取、控制、保護、交付以及提升,對數據規範所做的計劃、執行和監督工作,一般包括以下活動。

數據架構管理,用於定義企業數據需求,設計做到數據需求的主要藍圖,通常包括數據標準管理、數據模型管理、數據集成架構等;數據質量管理,指通過計劃、實施和控制活動,運用質量管理技術度量、評估、改進和保證數據的恰當使用;

元數據管理,指通過計劃、實施和控制活動,以做到輕鬆訪問高質量和整合的元數據;數據安全管理,指通過計劃、制定並執行數據安全政策和措施,為數據和信息提供適當的認證、授權、訪問和審計;參考數據和主數據管理,指通過計劃、實施和控制活動,達到保證參考數據與主數據的一致性。

數據治理軟件:工欲善其事,必先利其器

目前業界流行的數據治理軟件,一般也稱為數據資產管理產品、數據治理產品,主要包括的功能組件有元數據管理工具、數據標準管理工具、數據模型管理工具、數據質量管理工具、主數據管理工具、數據安全管理工具等。

利用數據治理軟件主要解決企業不同來源數據集成過程中遇到的問題,需要數據治理軟件能夠為企業提供統一的元數據集成、數據標準管理、數據模型設計、數據質量稽核、數據資產目錄、數據分析服務等能力。

基於大數據的人工智能時代的到來,為各行業帶來基於數據資產進行業務創新、管理創新的契機,伴隨著企業數字化轉型過程,越來越多的數據被收集,大數據治理將為企業提供更全面更準確的數據,屆時人類的大部分行為將可以被計算和預測,這種對社會成員的行為邏輯、社會事件的發展態勢提前作出判斷、預測和模擬,將使社會治理模式得到極大變革,從而極可能推動社會治理也由傳統的人類精英經驗治理向基於大數據的智能化治理轉型。

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!