專訪英特爾戴金權 | AI和大數據正在這樣重塑英特爾

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

加入LINE好友

允中發自凹非寺

量子位報導 | 公眾號 QbitAI

漢堡也能用大數據賣？

沒錯，而且可以賣得更好。

專訪英特爾戴金權 | AI和大數據正在這樣重塑英特爾科技第1張

漢堡王就正在展開這樣的實踐，在他們的菜單螢幕，可以基於用戶的點餐行為、背景資訊，給出個性化推薦。

而且還能結合時間、地點、氣候等因素……用戶下單更省心，賣家業績還更好。

懂技術的朋友或許早已看穿，背後必然有 Transformer模型加持，但可能意料之外的是，實現消費級商用的精準推薦，漢堡王這套系統不光是單純套用。

Transformer Cross Transformer（TxT），這是漢堡王推薦系統背後的核心模型技術。

此外，這套模型系統還是拿來就用的那種。

因為替漢堡王打造這套模型的，是一個名為 Analytics Zoo的端到端平臺，而這個端到端平臺的打造者，是不常出現在 「軟體」新聞裡的 英特爾。

但隨著AI浪潮深入、數據和軟體算法當紅，這家過去以硬件奪目的公司，軟的那一面開始被更多註目。

而且這一面的代表人物，還是一位中國技術專家：

戴金權，英特爾Fellow、大數據技術全球CTO，大數據分析和人工智慧創新院院長。

專訪英特爾戴金權 | AI和大數據正在這樣重塑英特爾科技第2張

以及兩大知名機器學習平臺 BigDL和 Analytics Zoo的項目創始人。

但在戴院長看來，軟體硬件只是技術的不同形式承載，背後更本質的趨勢是數據。

在量子位專訪中，他還強調，在AI和5G作用力之下，數據洪流所至，軟體在變，硬件更開放，過去按照軟硬劃分的疆界格局，變化已再明顯不過。

英特爾的軟實力

戴金權院長從大數據領域來舉例。

他說英特爾在該領域的研發投入，核心是源自需求的驅動。

分為三個階段：

第一階段：存儲和處理數據。

第二階段：查詢和分析數據，並且對於時延的要求越來越高，最終需要的是 實時查詢和分析。

第三階段：預測和推薦。

戴院長說，特別是在大數據平臺長進行各種機器學習、深度學習的數據建模和預測，成為了當前非常重要的技術和應用方向。

而從產業應用上看，消費互聯網領域，沒有哪家互聯網公司不在強化預測和推薦方面的能力。產業互聯網一側，也在追求更多業務數字化之後，能夠展現預測和推薦之力。

比如一開始提到的漢堡王。

所以對於英特爾而言，在此基礎上希望高舉高打，提供一個大數據統一應用平臺。

這種思路之下，誕生了 BigDL和 Analytics Zoo。

專訪英特爾戴金權 | AI和大數據正在這樣重塑英特爾科技第3張

特別是Analytics Zoo，作為開源大數據AI軟體平臺，核心要解決的就是幫助用戶將機器學習或深度學習等算法模型，直接在分布式大數據平臺上運行，而且可以做到無縫擴展。

沒有這樣的平臺，路徑就會曲折得多。

通常情況下，會先建立一個分離架構，並以大數據集群的方式拜訪和處理數據湖數據。

大數據集群處理之後，還可能需要深度學習集群把存儲系統中的數據讀取出來，再進行深度學習或機器學習處理。

那Analytics Zoo能帶來什麼不同？

可以提供一個統一架構來支持端到端AI流水線。

用戶的數據還是存儲在數據湖、數據倉庫當中，可以運行在K8S上或Hadoop集群上，或者部分用戶在雲裡面可能有幾臺虛擬機實例，就可以有一個集群，在這個集群上利用Analytics Zoo就可以把基於Spark的大數據分析和基於TensorFlow、PyTorch、BigDL或OpenVINO等這樣的深度學習框架直接統一在一個架構中。

整個流程裡，一方面可以可以大大減少中間數據傳輸的開銷。

另一方面還能提升開發、部署和處理的整體效率。

這種效率的提升，戴金權引用了浪潮的實踐效率——

以前可能需要 幾個季度才能開發完的一個應用，現在只需要 兩三個月就可以了。

端到端的開發效率，顯著大幅提升。

而這種開發效率提升，在當前技術發展趨勢下，戴金權認為更加關鍵。

一方面是無論是5G還是AI，相幹行業中的需求使數據呈現指數級增長。

另一方面，統一的大數據和AI處理分析，是下一個十年的關鍵性應用需求。

所以理解了這種對於未來確實的判斷，也就能看懂當前英特爾正在呈現的變化。

這家以硬件知名的巨頭，正在從硬件、軟體和整個生態層面，提供大數據、機器學習和深度學習方面的長期支持。

更加概括地來說， 軟體和硬件不本質，本質的是如何處理、分析和使用數據。

而基於數據出發的本質認知，自然能理解英特爾何以越來越多元、開放和無處不在。

專訪英特爾戴金權 | AI和大數據正在這樣重塑英特爾科技第4張

專訪戴金權院長

量子位：大數據和AI，給英特爾帶來的變化是什麼？

戴金權：英特爾很早就開始投入大數據領域研發，比如跟UC伯克利基於Apache Spark，進行了許多技術開發和應用合作。

到後來隨著大數據的發展，我們明確了趨勢：從一開始的擴展、處理大量數據，到如何進行分析，再到如安在上面進行機器學習和深度學習的建模和預測未來。

我認為這和AI發展的趨勢也非常吻合。如果說現在AI有什麼趨勢？我覺得是AI變得無處不在。

可能開始是在一些互聯網公司，或者一家自動駕駛公司會使用大量AI技術……

但是今天不管餐飲行業還是電信運營商以及制造業，他們越來越多希望把AI用到各種各樣的應用場景中，所以AI從實驗室就慢慢進入了生產環節。

在實驗室中，很多時候大家關心的是用各種各樣的方法提高數據集上模型的準確率。

量子位：AI在現實場景應用中會有什麼挑戰？

戴金權：挑戰會很多，比如最直觀的大數據。現實環境中的數據量非常大，這就需要和現有生產數據結合。

我們曾經和一家大型互聯網公司合作，他們有很多AI研究員開發了AI模型後，想把其模型在生產數據上運行。

但是後來他們發現生產數據都在大數據系統中，他們根本不知道如何把AI運行在那些大數據上，於是就做數據複製，把數據從一個集群複製到另外一個集群。

很多時候我們需要跨數據中心的複製，那麼如何直接應用AI並將其擴展到相應大數據平臺上是一個很大挑戰。

量子位：這也是為什麼會有Analytics Zoo這樣的平臺？

戴金權：對，端到端的流水線非常重要。

並非只有一個AI模型，比如對模型進行訓練或者推理時，經常出現很長的端到端鏈路，包括數據導入、數據處理、特征提取、特征轉換等。如何使端到端流水線更有效率也是很重要的因素。

當然，還有針對各種各樣的AI應用，如何使這些智能計算支撐上層AI應用場景。

量子位：所以英特爾開源開放一面越來越被關註。

戴金權：英特爾其實做了非常多開源的工作，比如在Linux操作系統、虛擬化方面。

在大數據方面也是如此，我們基於大數據AI開源軟體生態做了非常多工作，英特爾在開源社區做了非常大的投入，目標是能夠將開源軟體應用在整個生態系統中，使用應用或技術得到很大提升。

比如當英特爾和加州大學伯克利分校開始合作的時候，Spark只是他們的一個博士項目，我們共同做了很多開源和開發，最終Spark成為了一個Apache軟體基金會頂級開源項目。

包括在AI方面，在PyTorch、TensorFlow各個開源框架中的優化，以及我們構建的BigDL、Analytics Zoo開源平臺，英特爾一直希望通過開源的工作推進整個大數據和AI的生態建設。

量子位：這個過程中，會有什麼其他收獲嗎？

戴金權：我們會和很多用戶合作或交互，也會更加關註如何將下一代的技術發展趨勢和技術方向融合到軟體平臺中來。

福特曾經說，「如果問我們的用戶想要什麼，他們永遠說想要更快的馬車。但事實上他們要的是汽車。」

其實也是一樣的道理，我們會和很多用戶合作，當我們在做Apache Hadoop的時候，用戶提了很高要求，他們說需要更快的Hadoop，你們需要把它優化的更好。

但是我們意識到他們要的是類似Spark這樣的下一代大數據處理分析引擎，因為它能通過新技術、新架構解決其現有問題，而非在現有平臺長進行優化。

而我們在做BigDL和Analytics Zoo的時候也是如此。我們發現用戶的需求，就考慮如何將AI應用到大規模分布式的大數據場景和平臺中，以幫助其解決問題。

量子位：現在有一種觀點是AI軟體正在重塑英特爾，你怎麼看？

戴金權：無論在軟體還是硬件上，英特爾在AI領域都有非常多的工作，AI是英特爾非常重要的方向。

比如我們的XPU、CPU、GPU等，這些是硬件方面的工作。

在軟體方面，我們考慮的是如何提供更好的支持，因為今後的智能計算肯定是一個超異構的XPU架構。

對於軟體開發者，他們希望有統一的編程接口。作為數據科學家，我們並不希望處理不同的硬件。所以我們基於OneAPI這種能夠統一XPU的編程模式會做很多工作。

在此之前，我們針對各種硬件平臺以及深度學習、機器學習的庫或框架優化也會做很多工作，包括在PyTorch、TensorFlow等領域的各種各樣的優化。

我們希望為用戶不同的AI應用場景提供支持，以提高他們端到端的性能效率和開發效率。

包括大數據AI，其實我們的目標就是幫助用戶將端到端的AI流水線打通，使其能夠擴展到一個分布式的架構上。

量子位：效率提升這條主線上，AutoML近年很火。

戴金權：英特爾有一個工具是做低精度轉換的，在低精度上可以大幅提高效率，但需要大量人工操作才可以達到這個效果……於是我們利用AutoML，利用一個自動化工具把低精度的事情完成。

很多時間序列的應用場景，都可以自動化特征提取、模型選擇、超參調整等。

量子位：這其實也是降低AI應用門檻的需求反映，甚至在開發側，大家都在談低代碼\無代碼？

戴金權：還是那句話，不存在一個解決方案可以支持所有場景。

業內會有不同的開發人員，有一些開發人員是硬核開發人員，基於OneAPI這樣的工具，可以幫助他們在底層性能和框架長進行開發。

有一些是數據科學家或數據工程師，他們會基於Python或Java這樣的平臺開發。還有更高層次的分析師，甚至一些人完全不是編程人員，比如希望對X光片進行分析的醫生。

這可能需要一些更高層次的應用，可能就不想寫代碼，或者只是做一些簡單的工作，這是另外一個方向。

英特爾有一些工作會做得比較多，比如OneAPI，或是基於框架、大數據平臺的工作。

我們還有很多合作夥伴，包括在去年年底我們收購了一家專門做超參優化的公司叫SigOpt，它是業界對機器學習參數進行自動化優化的領先公司，還提供雲服務。

這樣的技術就可以整合到英特爾很多工具裡，進而把很多工作自動化，大幅提高開發效率。

我覺得這個可能在不同層面以及針對不同的受眾、開發人員會提供不同的技術給他們。

量子位：上面談到的這種滿足需求，是現在英特爾「異構」談得越來越多的原因嗎？

戴金權：AI有不同的細分市場。有CPU AI、GPU AI、以及各種各樣專用的加速器AI。英特爾有CPU、GPU、加速器（比如Habana方面的工作），也有邊緣和客戶端的一些工作。

其實各自有其更適合的場景，我們希望通過類似OneAPI這樣的軟體，可以將這些不同的超異構硬件結合起來。

比如我們也有可以使用FPGA來進行加速的場景。我們希望利用OneAPI將編程模式統一，而且OneAPI本身也是一個工業界的標準，並非英特爾獨有。

除支持英特爾自身的XPU硬件之外，它也可以支持其他硬件。比如有人在上面做ARM的支持等等。

從英特爾角度來說，我們看到的是XPU的超異構架構，不同的GPU、CPU、加速器等，針對不同場景的應用會有更好效果。

我們通過類似OneAPI這樣的軟體平臺不僅能夠幫助用戶輕松實現各個硬件平臺的高效率和高性能，還能高效開發跨平臺應用場景。

當你看到整個端到端的AI流水線，不能說它只能在某種場景下工作。CPU AI有CPU AI的優勢，GPU AI有GPU AI的應用場景，加速器AI有加速器AI的應用場景。

量子位：所以如果從端到端的AI流水線、數據維度來看英特爾，其實軟體方面的努力是容易被忽視的？

戴金權：我認為，對開發人員或數據科學家來說最看重的是軟體生態，這是英特爾過去幾十年一直在做的，包括我剛剛說的開源軟體以及各種各樣的工作，關鍵就是如何打造一個軟體生態。

比如BigDL更適合的軟體生態是Spark。我是Spark的用戶，很多數據工程師原來用Spark做了非常多數據處理、數據分析甚至機器學習相幹工作。採用BigDL這樣的工具可以在Spark大數據生態中實現很高效的開發。

我們研發並推出BigDL，不是說要和TensorFlow或者誰競爭，這不是我們的目的。

我們希望針對不同的軟體生態用戶社區可以提供最好的工具給他們，所以在Analytics Zoo當中，我們會把像BigDL、TensorFlow、PyTorch或OpenVINO整合進來，最終幫助用戶解決問題。

我們的目的是採用所需工具解決新問題，也就是如安在大規模、分布式的大數據平臺上更好地擴展。

— 完—

本文系網易新聞•網易號特色內容激勵計劃簽約帳號【量子位】原創內容，未經帳號授權，禁止隨意轉載。

免費報名 | 快速入門NLP、讓你的文字會說話！

7.28晚8點，英偉達專家將在線講解「 語音合成技術」的工作流程與原理、深度學習模型在語音合成中的應用，並代碼實戰演示如何 快速實現自然語言生成。掃碼-關註，根據提示即可報名~

點這裡 👇關註我，記得標星哦～

一鍵三連「分享」、「點讚」和「在看」

科技前沿進展日日相見~

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

更多文章