阿里大數據架構師必備技能,你「佩奇」了嘛?

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

這兩天真的是被《什麼是佩奇》這支廣告片刷屏了。佩奇明明是個喜劇角色,卻把所有人都給看哭了!

中間的劇情,小孫子一句:「想要佩奇」,結果爺爺就開始了滿村子的尋找佩奇,到最後尋找到了小編認為是最好看的佩奇

不知道大家看了之後是什麼感覺,反正我看了之後的感覺是非常感動了。不過經過幾天的發酵,「佩奇」這兩個字似乎有了更多的含義了!各種」佩奇「齊出不窮,女人的「佩奇」是什麼樣的?工程師的「佩奇」是什麼樣的?

今天在這里我就給大家分享一下,大數據工程師的「佩奇」是什麼樣的!

必備技能

1.編程能力

無論是Java還是Python,學習編程語言一定要先沉下心來專攻某一門,尤其是開放源代碼工具,在任何公司都廣泛運用。

比如對Java語言基礎語法、OOP編程、多線程及網路編程、MySQL數據庫、Maven項目管理等開發入門工具的學習,可以訓練自己掌握大數據必備的基本編碼能力,也為後續學習大數據分析或是推薦系統等高級的內容打下堅實基礎。

2.Hadoop

Hadoop在大數據技術體系中的地位至關重要,Hadoop是大數據技術的基礎,對Hadoop基礎知識的掌握的紮實程度,會決定在大數據技術道路上走多遠。Hadoop里麵包括幾個組件HDFS、MapReduce和YARN,HDFS是存儲數據的地方就像我們電腦的硬盤一樣文件都存儲在這個上面,MapReduce是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。YARN是體現Hadoop平台概念的重要組件有了它大數據生態體系的其它軟件就能在hadoop上運行了,這樣就能更好的利用HDFS大存儲的優勢和節省更多的資源比如我們就不用再單獨建一個spark的集群了,讓它直接跑在現有的hadoop yarn上面就可以了。下面是Hadoop的常用模塊架構圖:

3.Spark

它是用來彌補基於MapReduce處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬盤。特別適合做迭代運算,所以算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。

4.Storm

Storm是一個免費並開源的分布式實時計算系統。利用Storm可以很容易做到可靠地處理無限的數據流,像Hadoop批量處理大數據一樣,Storm可以實時處理數據。Storm簡單,可以使用任何編程語言。

5.Kafka

Kafka is a distributed,partitioned,replicated commit logservice。它提供了類似於JMS的特性,但是在設計做到上完全不同,此外它並不是JMS規範的做到。kafka對消息保存時根據Topic進行歸類,發送消息者成為Producer,消息接受者成為Consumer,此外kafka集群有多個kafka實例組成,每個實例(server)成為broker。無論是kafka集群,還是producer和consumer都依賴於zookeeper來保證系統可用性集群保存一些meta信息。

6.Flink

Flink是一款分布式的計算引擎,它可以用來做批處理,即處理靜態的數據集、歷史的數據集;也可以用來做流處理,即實時地處理一些實時數據流,實時地產生數據的結果;也可以用來做一些基於事件的應用,比如說滴滴通過Flink CEP做到實時監測用戶及司機的行為流來判斷用戶或司機的行為是否正當。

7.Hive

Hive 由 Facebook 做到並開源是基於 Hadoop 的一個數據倉庫工具可以將結構化的數據映射為一張數據庫表並提供 HQL(Hive SQL)查詢功能底層數據是存儲在 HDFS 上Hive的本質是將 SQL 語句轉換為 MapReduce 任務運行使不熟悉 MapReduce 的用戶很方便地利用 HQL 處理和計算 HDFS 上的結構化的數據,適用於離線的批量數據計算。8.ElacsticSearch

ES是一個基於Lucene的分布式全文搜尋服務器,和SQL Server的全文索引(Fulltext Index)有點類似,都是基於分詞和分段的全文搜尋引擎,具有分詞,同義詞,詞幹查詢的功能,但是ES天生具有分布式和實時的屬性,本隨筆演示在Windows環境中安裝ElasticSearch,以及用於管理ElasticSearch的Head插件。

總結

在技術行業里面,每天都會有新的東西出現,需要關注最新技術動態,不斷學習。任何一般技術都是先學習理論,然後在實踐中不斷完善理論的過程。

如果你覺得自己看書效率太慢,你可以網上搜集一些課程。

快速學習的能力、解決問題的能力、溝通能力在這個行業是真的非常重要的指標。

要善於使用StackOverFlow和Google來幫助你學習過程遇到的問題。以上也是我個人的一點拙見,歡迎大家指點糾錯,也可以補充更多的知識點!

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!