大數據ETL系統相關技術和需求綜合注意事項

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

需求綜合

需求綜合的含義是:收集並且理解所有已知的將會影響ETL系統的需求、現實和約束等。需求的列表可能會很長,但在開始ETL系統開發前,都已經收集到了表中。

需求一:業務需求

用戶的信息需求。用戶用於制定明智的商業抉擇所需要的信息內容。因為商業需求直接驅動對數據源的選擇以及選擇的數據源在ETL系統中轉換的結果。

在項目支持業務需求定義期間,必須維護一個揭示關鍵性能指標的列表,以及業務用戶需要研究某個關鍵指標為什麼發生變化時,所需要的下鑽和跨鑽目標。

需求二:合規性

合規性

列出所有數據以及最終報表主題需要遵守的法律限制。列出這些數據輸入和數據轉換的步驟,需要維護「監管鏈」,現實並且證明最終報表是來自發布的數據源的原始數據。

對於合規性,我工作還沒有這方面嚴格的要求。

需求三:數據質量

數據質量

需要將那些已經知道的不中意的數據元素記錄下來,是否與源系統達成共識以便在獲取數據之前進行更正。

列舉數據分析期間發現的那些需要在ETL過程中持續監控和標記的數據元素。

需求四:安全性

安全性

1,對於大多數DW/BI小組來說,安全通暢處於時候考慮的位置且被視為負擔而不受歡迎。

2,應該將合規性列表擴展,使其包含熟知的安全和隱私需求。

3,數據應該被限制發送給那些需要知道的那些人。

4,物理備份也需要做安全性的檢查。

5,在需求綜合期間,DW/BI小組應該尋求高管層的明確指示,指明DW/BI 系統的那些方面應該運用額外的安全措施。如果沒有明確指示,也沒有安全管理員參與的時候,使用最小擴散範圍。

需求五:數據集成

數據集成

1,對於數據集成來說,我們的最終目標是做出 企業的全景視圖。

2,全面的數據集成很難做到,除非企業具有全面的、集中式的主數據管理系統(Master Data Management ,MDM)系統,即使有的話,也仍然可能會有一些重要的數據並沒有進入到主 MDM 中。

3,一致性維度意味著跨不同的數據庫系統建立公共維度屬性。一致性意味著對公共業務度量達成一致,公共業務度量包括跨不同數據庫的關鍵性能指標KPI,只有這樣,才能使用這些數據通過計算差異和比率開展數學比較工作。

4,應當充分利用業務過程的總線矩陣建立一致性維度的優先列表,對每個總線矩陣的行進行標註,知明參與到集成過程中的業務是否有明確的執行需求。

需求六:數據延遲

數據延遲

1,標註每個需求,明確業務團體是否了解與他們特定選擇相關的數據質量的權衡。

2,數據延遲需求對 ETL 架構具有較大的影響。高效的處理算法、並行化以及強大的硬件系統可以加快傳統的面向批處理的數據流,但是在有些情況下,如果數據延遲需求非常緊迫,ETL 系統的架構必須從批處理方式轉換為微批處理方式或者面向流處理的方式。

需求七:歸檔與世系

關注小編並私信「大數據」即可獲取更多大數據組件源碼級別的學習資料和(源碼,筆記,PPT,學習視頻) 還會分享(Hadoop,spark,kafka,MapReduce,scala,flink,推薦算法,實時交易監控系統,用戶分析行為,推薦系統)

歸檔與世系

1,每個數據倉庫也都需要有以往數據的各種副本,要麼與新數據比較以便建立發生變化的記錄,要麼重新處理。

2,建議在每個ETL流水線的主要活動發生後暫存數據(將其寫入磁盤):在數據被獲取、清洗和一致化、發布後 暫存數據。

3,那麼什麼時候將暫存轉入歸檔,我喜歡將所有暫存數據歸檔。除非有專門的定義明確認為特定的數據集合將來不在需要。

4,每個暫存/歸檔數據集合都應該包含描述來源和建立數據的處理步驟的元數據。按照某些合規性需求的需求,對該世系的跟蹤是明確需要的,應該成為每個歸檔環境的一部分內容。

5,應當記錄數據源和歸檔的中間數據步驟以及保留政策、安全和隱私方面的約束。

需求八:BI發布接口

1,數據的內容和結構能夠是BI引用簡單而快速。以模糊的方式將數據推到BI應用是不負責任的表現,將會增加應用的複雜性,減緩查詢或報表的構建,不必要地增加了商業用戶使用數據的複雜性。

2,列出BI工具需要的所有OLAP多維數據庫和特定的數據庫結構,列出所有您已經打算建立用於支持BI性能的已知的索引和聚類。

需求九:可用的技能

1,查清所在部門的操作系統,ETL工具,腳本語言,編程語言,SQL,DBMS以及OLAP技能,這樣可以理解如何暴露出所缺乏的技能。

2,列出需要支持當前系統以及未來可能有的系統的那些技能。

需求十:傳統的許可證書

1,目前我們大多使用的是開源軟件。還沒有遇到許可證書的問題。

2,列出現有操作系統 的許可證書,無論他們是獨家使用授權還是僅僅被建議使用的情況。

3,當打算更換目前的正在使用的許可證書時候,需要做出充分的準備。

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!