eBay:將60PB的MPP DBMS遷移至Spark的經驗

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

eBay使用MPP數據倉庫已經有二十年的歷史,他們的系統有60PB的數據,上萬張的核心表,這些數據支撐著eBay最核心的商務邏輯和站點功能。從17年開始,eBay將這個龐大的數倉向Spark做遷移,使用 eBay 開發的工具,這其中90%的工作都可以自動化地完成,並且通過優化Spark框架,些措施使得整個流程節省了一半的記憶體。本次演講eBay將分享這遷移過程中的實踐,經驗與優化。主要包括以下知識:

  • 自動化數據遷移工具集:元數據管理,SQL轉換器,管道生成器,數據驗證,工作流控制等;
  • 數據的物理布局:如何對表做bucket和partition;
  • 使用Spark的Adaptive Execution簡化參數配置,優化記憶體使用,處理數據傾斜;
  • 使用Spark的Indexed Bucket提升大量核心表的查詢性能。

關注Hadoop技術博文(iteblog_hadoop) 並回復 ebay 獲取本文相關ppt。

eBay:將60PB的MPP DBMS遷移至Spark的經驗

eBay:將60PB的MPP DBMS遷移至Spark的經驗

eBay:將60PB的MPP DBMS遷移至Spark的經驗

eBay:將60PB的MPP DBMS遷移至Spark的經驗

eBay:將60PB的MPP DBMS遷移至Spark的經驗

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!