尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
2019一開年,阿里巴巴便收購了一家德國創業公司Data Artisans,交易金額為1.033億美元。
不熟悉的Data Artisans的朋友,很容易因那些平淡的新聞標題如「阿里巴巴收購德國數據公司」而錯過背後的信息。
其實,Data Artisans手里掌握著一項當今為數不多的前沿技術 —— 它的名字,叫做Flink。
據了解,目前阿里巴巴很多業務,包括子公司都採用了Flink技術。
這項技術到底有什麼魅力,能被阿里如此「寵幸」?
並在一開年就迫不及待地拿下?
Flink,阿里的血液
搜尋,是像阿里這樣的電商獲取客戶的關鍵入口,並承載了阿里大部分在線收入。
一個強大的搜尋引擎由何造就?
答案是:盡可能為每個用戶提供實時相關和準確的結果。
而這就牽扯到了當今工業界的一項核心技術 —— 實時計算。
無論是傳統的大數據統計還是新興的人工智能,實時計算的能力都至關重要。
可是,在實時計算的運用上,阿里遇到了大難題:
作為世界上最大的電子商務零售商之一,如何設計出一個低延遲、exactly once、能夠支撐足夠大體量的複雜實時計算引擎,是一項十分艱巨的任務。
阿里巴巴的高級技術專家王紹翾在一次採訪中說道:
「我們當時嘗試過很多實時計算工具,什麼Spark Stream、Kafka Stream、Storm….都用了,但是都不太符合阿里的需求。
Spark streaming 不是特別適合於做秒級甚至亞秒級的計算;Kafka streaming 很難滿足我們對大體量的複雜計算的需求;Storm 又沒有批處理能力….
最後,我們發現了Flink,並且驚喜地發現它幾乎完美滿足了我們所有的需求!」
Apache Flink 介紹
Flink是一款分布式的計算引擎。
- 它可以用來做【批處理】,即處理靜態的數據集、歷史的數據集;
- 也可以用來做【流處理】,即實時地處理一些實時數據流,實時地產生數據的結果;
- 還可以用來做一些基於事件的應用,比如說滴滴通過Flink CEP做到實時監測用戶及司機的行為流來判斷用戶或司機的行為是否正當。
Flink的好處還有很多,其中包括:
提供準確的結果(甚至在出現無序或者延遲加載的數據的情況下)、支持容錯、支持超大規模運行(在阿里巴巴中作業的state大小超過TB的是非常常見的)、支持exactly-once的一致性語義…..
那麼,Flink在阿里的業務中還有哪些應用呢?
Flink的運用場景
接下來,就給大家舉2個Flink運用案例。
雙11大屏
每年雙11阿里都會聚合有價值的數據展現給媒體,GMV大屏是其中之一。
整個GMV大屏是非常典型實時計算,每條交易數據經過聚合展現在大屏之上。從DataBase寫入一條數據開始,到數據實時處理寫入HBase,最後展現在大屏之上,整個過程的鏈路十分長。
這就需要像Flink這樣可以保持精確性、秒級延遲、不卡頓、在一個Job中聚合完成…等高性能的實時計算框架。
實時機器學習
機器學習一般有兩個重要的組件:Feature 和Model。傳統的機器學習使用批計算對Feature的采集和Model的訓練,可這樣更新頻率太低,無法適應數據在不斷變化的應用的需求。例如在雙11時,商品的價格、活動的規則與平時完全不同,依據之前的數據進行訓練得不到最優的效果。
然而,採用了Flink實時收集Feature並訓練Model,就能擬合出較為滿意的結果。
哪些崗位/公司需要Flink人才?
幾乎每個互聯網公司都需要掌握實時計算的人才。因為如果沒能擁有,就意味著在商業競爭中有被對手趕超甩開的可能。
舉個例子,在美國,如AWS、Twitter、Uber….等公司,非常青睞具有Flink相關經驗的求職者。
而在國內,除了阿里巴巴外,騰訊、字節跳動、美團、餓了嗎….都在廣招有Flink經驗的人才。
哪里可以學?
來Offer人工智能與數據科學強化課程,全新推出 【Apache Flink流數據實時計算】項目:
除此之外,此課程,還有多個project供你選擇,助你攻破data求職所有職位!
更多科技求職資訊,請關注「來Offer」!