英特爾陳玉榮：全面解析英特爾人工智能計算平台｜CCF-GAIR 2018

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

雷鋒網按：2018 全球人工智能與機器人峰會（CCF-GAIR）在深圳召開，峰會由中國計算機學會（CCF）主辦，雷鋒網、香港中文大學（深圳）承辦，得到了深圳市寶安區政府的大力指導，是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流盛會，旨在打造國內人工智能領域最具實力的跨界交流合作平台。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

7月1日，在「AI晶片專場」，英特爾首席研究員、英特爾中國研究院認知計算實驗室主任陳玉榮帶來「英特爾計算平台助力人工智能發展」的主題演講。

陳玉榮介紹到深度學習的發展使得在特定任務領域，機器在視覺識別和語音識別方面已經超過人類。此外，深度學習還廣泛應用到其他領域解決現實世界的問題，包括健康醫療的腫瘤檢測、金融投資的文檔分類、能源行業的油氣田勘探、智能設備中的語音助手、工業應用中的缺陷檢測和基因工程中的基因測序等。

但是，深度學習的部署是多方面的，深度學習的訓練其實只是其中很小一部分，更重要的是理解整個解決方案是怎麼運作的，以及怎麼樣無縫的集成到更大的數據分析的流程里面去。

陳玉榮介紹了英特爾最廣泛的端對端人工智能計算平台，包括通用晶片，深度學習定制加速器如Nervana神經網路處理器，FPGA，Movidius VPU，Mobileye EyeQ，GNA IP，集成顯卡等硬件，和各種軟件工具如OpenVINO、Movidius SDK、MKL-DNN、clDNN等，以及英特爾的前沿及前瞻性的研究，如何整合起來助力人工智能發展。

以下為陳玉榮演講全文，雷鋒網進行了不改變原意的編輯整理。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

大家下午好！今天非常高興能參加這個論壇來介紹英特爾人工智能計算平台和我們的相關研究工作。我今天更多的是講目前已有的計算平台和我們正在做的研究。

什麼是人工智能？人工智能的定義不斷演化，但其核心主要是講機器模擬和超越與人類心智相關的認知功能的能力。人工智能包含有很多種不同的做到方法，以數據為中心的機器學習是一種最主要的方法，因為它在解決人工智能的三個主要子任務，包括感知、計劃/推理和控制方面取得了很好的效果。深度學習則是機器學習的一個子集，近年來成為人工智能發展的主要推動力。但並不是說別的方法不重要，像簡單神經網路、經典機器學習算法、基於推理的系統，以及其它新興的算法，都非常重要。我相信人工智能最終一定是通過多種方法的融合來做到的。

在人工智能算法這塊，機器學習包含很多種統計和規划算法，包括經典的回歸、分類、聚類、決策樹、外推等算法，它們的優點是適用於小數據，計算要求低，得到結論的透明度比較好，缺點是需要大量的人工設計，對於圖象識別這樣的複雜問題識別準確率很低。近年來深度學習成為主流的算法，用來解決圖像語音識別、自然語言處理、模式識別等很多問題。它的準確率很高，但它本身也有一些問題，比如，需要大量的數據訓練，需要大量的計算資源；同時它缺乏理論基礎，也就是我們常說的黑箱問題，你不知道該怎麼樣去設計一個好的神經網路。最後是容易被大家忽略的推理相關的算法，它們可以從不同的海量數據中發現相似性和檢測異常情況，可以用在反洗錢和檢測金融欺詐等應用里面。

得益於深度學習的發展，在特定任務領域，機器在視覺識別和語音識別方面已經超過人類。此外，深度學習還被廣泛應用到其他領域解決現實世界的問題，包括健康醫療中的腫瘤檢測、金融投資里面用到的文檔分類、能源行業的油氣田勘探、智能設備中的語音助手、工業應用中的缺陷檢測和基因工程里面的基因測序等。我們以工業應用中的缺陷檢測為例來看看深度學習解決方案是如何開發的。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

整體解決方案通常包括發現機會、設定假設、準備數據、訓練模型、部署模型、對解決方案進行迭代和評估。我們採用一個真實客戶的案例，把深度學習解決方案的開發周期進行了百分比細分。不同的深度學習解決方案在時間百分比細分上不太一樣，但是它們的步驟基本是一致的。你需要做數據的標註、加載、增強，你要對DNN模型結構做試驗，然後調試模型參數，最後還需要做推斷的支持和結果分享。虛線部分是計算密集型的模型訓練部分，它非常重要，但是它只占了深度學習開發周期的很小一部分，大約30%左右。另外，大家可以看到深度學習的開發也只是整個解決方案開發的一小部分，很重要的是說你怎麼樣使用IT的預算更快的部署人工智能解決方案，而不是花額外的錢來加速整體解決方案的一小部分。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

還是用缺陷檢測這個例子，我們來看看一個真正的端對端深度學習解決方案是如何部署的。左邊是案例的功能布局圖，它用10個錄影頭來對生產設備進行監控，以檢測缺陷。最早要做的事情是人類的專家對有缺陷的圖片進行標註，產生很大的數據集，這樣就可以用來訓練一個神經網路模型。訓練好的模型被存儲和部署在系統上，來對後繼的視頻進行推斷。發現缺陷時，會把推斷結果發送到服務層和解決方案層。推斷結果可以作為決策的依據，我們就可以採取一些行動，比如呼叫技術人員或者關閉生產線。從右邊的數據中心設計圖中，你可以看到里面有很多種硬件。這里想說的是，深度學習的部署是多方面的，深度學習的訓練也只是其中很小一部分，更重要的是理解整個解決方案是怎麼運作的，以及怎麼樣無縫的集成到更大的數據分析的流程里面去。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

我很讚同很多學者的說法，我們正處於人工智能計算時代的早期，或者說是黎明時期。英特爾不僅致力於為人工智能發展鋪平道路，而且在引領這一新興領域方面也處於最有利的位置。我們通過提供業界最全面的計算平台，幫助用戶獲得更智能的結果，而所有這一切都是由用戶的需求和細分市場的需求來驅動的。使用人工智能第一步是要準備好數據，我們和我們的很多合作夥伴提供很多種解決方案來存儲、處理和管理數據。作為全球領先的計算硬件廠商，我們的硬件支持從混合型到專用型，從雲端到終端的最廣泛的AI應用負載。除了硬件，軟件也是非常重要的。剛才魏老師（魏少軍）也說了，人工智能在某種意義上是軟件比硬件更重要。我們確保所有的英特爾硬件引擎具有通用的AI體驗，具有最大的一致性、互操作性和安全性。我們提供多種軟件工具組合來幫助加速AI解決方案的開發周期。除了硬件和軟件工具外，我們還採取基於社區和解決方案驅動的方法，以拓展AI和豐富每個人的生活。我們和我們的合作夥伴一起提供多種行業現成的解決方案，包括金融、健康、零售、工業、政府、能源等等。面向未來，我們通過領先的研發和投資，包括資助頂尖的學術研究，內部研發和對領先創新者的投資，以及進一步推動政策和道德主管力來繼續推動人工智能的發展。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

在工具方面，英特爾投資於增值的AI軟件工具，來幫助大家用好英特爾的每一種硬件，簡化開發過程，最終縮短整體解決方案的開發時間。對於應用開發者，我們提供了很多工具來提升性能和幫助加速解決方案的部署。針對深度學習，開源的OpenVINO和英特爾Movidius SDK 可以通過模型的轉換和優化，提供針對英特爾各個目標硬件優化的深度學習推斷部署。我們也正在開發英特爾深度學習Studio，能夠幫助縮短端對端深度學習解決方案的開發周期（包括訓練）。除了深度學習，英特爾Saffron AI還能夠提供認知推理的解決方案，可以用於反洗錢和預測性維護的應用。

對於數據科學家，我們致力於優化一系列廣泛用於機器和深度學習的開源庫。目前已經有一些機器學習庫可以充分利用英特爾硬件，包括Python 、R、分布式的一些庫。我們還對常用的深度學習框架直接做優化，確保所有主要的深度學習框架和拓撲能夠在英特爾硬件上運行良好。目前已完成CPU優化的框架包括Tensor flow 、MXNet、Caffe等，未來希望能夠通過英特爾nGraph編譯器做到更多的框架。對於庫開發者，我們提供了很多基礎構建模塊，能夠充分利用英特爾的硬件。其中包括針對機器學習優化的英特爾Python分發版以及包含機器學習的英特爾數據分析和加速庫DAAL，還有針對英特爾CPU和集成顯卡優化的DNN基礎函數庫MKL-DNN和clDNN，這兩個庫對於深度學習的模型開發是最相關的。剛才我提到英特爾nGraph編譯器，這個編譯器可以幫助我們從不同框架里面獲取計算圖並轉換為一個中間表示，這個中間表示可以調用英特爾針對特定硬件的計算加速軟件來執行。這樣，開發者就可以不需要使用底層軟件和數學加速庫對每個目標硬件進行深度學習框架和模型的直接優化。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

英特爾硬件方面，除了深度學習以外的其它人工智能應用，比如剛剛說的數據分析、機器學習還有推理等，就可以使用至強或者其它的CPU做，因為這些計算負載並不像深度學習那樣具有高計算強度和高並行度的特點。針對深度學習，英特爾提供了一個廣泛的產品組合來滿足不同客戶的獨特需求。對於訓練，目前可以使用至強或基於至強的集群做訓練。如果需要加速也可以考慮用加速器，明年英特爾會有專門針對深度學習訓練的英特爾Nervana神經網路處理器。對於推斷，目前在數據中心和工作站，實際上至強處理器還是當今市場的標配（更多還是用至強處理器）。如果需要做高強度的推斷，也可以考慮用加速器，英特爾有很多加速器供大家選擇。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

下面介紹一下英特爾的深度學習推斷加速器。大家知道數據中心、邊緣計算和終端設備，對於深度學習推斷的性能、功耗和成本要求，實際上是有很大區別的。英特爾FPGA可以在數據中心和邊緣計算設備上對深度學習的推斷進行定制和快速原型設計。英特爾Movidius VPU是低功耗計算機視覺和深度推斷的解決方案。在邊緣計算方面，可以通過使用多個Movidius VPU，做到高強度、高效的媒體和視覺推斷。在終端，Movidius VPU在超低能耗下可以提供優異的推斷吞吐量，可以用於物聯網傳感器、個人計算機和其他終端產品中進行視覺處理和推斷。英特爾Mobileye EyeQ技術是自動駕駛的推斷平台，同時也可以作為一個完整的自動駕駛解決方案提供給客戶。英特爾GNA，混合高斯模型和神經網路加速器IP是一個超低功耗的語音和音頻推斷解決方案，它可以被設計集成到很多智能音響、移動設備、智能汽車方向盤或者PC晶片里面。最後是英特爾集成顯卡，大家很容易忽略，實際上它內置深度學習推斷加速的能力。

下面講講英特爾Movidius VPU和集成顯卡。去年發布的Myriad X是英特爾Movidius最新一代的VPU，它是一款低功耗的SoC，可以用在高能效圖象處理、計算機視覺和深度學習的設備里面，包括服務機器人、監控錄影頭、可穿戴設備、無人機、AR-VR頭盔和智能家居設備等。相比上一代產品Myriad 2，Myriad X多了一個神經計算引擎（Neural Compute Engine），這是一個集成在晶片上的DNN加速器。有了這個加速器，深度學習推斷吞吐量可以達到1TOPS，也就是每秒超過1萬億次運算，理論峰值可以達到4TOPS。英特爾Movidius VPU的微小尺寸和優越的每瓦特計算性能極大的滿足了廣大用戶對計算機視覺和深度學習在終端設備上的需求。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

配合Movidius VPU，我們發布了Movidius的軟件開發包，它是一個面向視頻處理單元的綜合軟件開發套件。它使用內置的有向圖框架降低原型系統開發時間和複雜性，可以使用它進行快速原型開發。它也包含很多庫，比如計算機視覺和圖像信號處理以及一些線性代數庫。這樣可以使用C/C++編程來達到最佳的性能，同時它也支持使用豐富的工具套件來進行圖形化開發。英特爾Movidius技術已經被廣泛應用在很多智能設備里面，包括海康威視智能錄影頭、大疆無人機、宇視IP錄影頭、摩托羅拉360度相機、大華工業相機、GoogleAIY視覺套件和Clips智能相機等。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

英特爾集成顯卡提供內置的深度學習推斷加速能力，只是大家用得比較少。實際上英特爾集成顯卡存在於很多英特爾SoCs中，包括英特爾凌動處理器、英特爾酷睿處理器和英特爾至強E3處理器等。英特爾集成顯卡具有領先的媒體性能，包含快速視頻同步技術，使用固定功能媒體處理模塊來降低功耗、提升性能，可以快速、方便處理媒體以及創建和轉換視頻。另外就是英特爾Media SDK，它提供訪問硬件加速的編解碼器的API，這是大家用得比較多的。此外，英特爾集成顯卡還支持豐富的數據類型和SIMD乘累加指令。同時CPU和GPU之間採用片上共享記憶體架構，可以降低延遲和功耗。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

現在大家使用英特爾clDNN，就可以很方便的做到英特爾集成顯卡上的深度神經網路計算。clDNN是英特爾集成顯卡上的深度學習加速中間件，上個月我們剛剛在GitHub上開源，大家通過網頁可以了解更多信息。另外，clDNN是英特爾深度學習部署工具包和英特爾OpenVINO工具包的組成部分。OpenVINO也是一個新的開源軟件工具包，上個月剛剛發布，用於幫助在英特爾平台上提高計算機視覺解決方案的性能，同時降低解決方案開發時間。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

OpenVINO包含英特爾深度學習部署工具包，包括模型優化器和推斷引擎，模型優化器可以將Tensorflow、Caffe等框架的推斷模型轉換為中間表示，這個中間表示通過推斷引擎自帶的用於英特爾CPU、GPU、VPU和FPGA的插件，就可以支持跨平台的深度學習推斷部署和加速。OpenVINO還包含很多針對英特爾平台優化的傳統的計算機視覺工具和函數庫，包括針對英特爾CPU和GPU優化的OpenCV、OpenVX和英特爾自己的攝影視覺函數庫，以及針對英特爾集成顯卡優化的Media SDK和OpenCL驅動程序和運行時，還有針對英特爾FPGA優化的運行時環境和比特流，所有這些都是為了方便大家更快更好的開發計算機視覺應用，而不需要關心更多底層優化的部分。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

下面主要介紹我們自己相關的深度學習加速的研究工作。大家知道，網路模型壓縮是深度學習推斷加速的一個主要方式，這方面我們做了很好的研究工作，我們提出了一個領先的低精度深度壓縮解決方案，這個解決方案可以將DNN模型的權值和激活值都轉換為低精度的二進制表示，並做到百倍級無損壓縮。這為深度學習的高效推斷引擎在硬件和軟件做到上鋪平道路。這個技術本身包含三個模塊：優化DNN結構的動態網路手術技術DNS，用來降低DNN權值精度的漸進網路量化技術INQ，還有降低DNN激活值精度的多尺度編碼量化技術MLQ，這三項工作都在頂級的機器學習和人工智能會議上發表。它們可以保證模型的預測準確率不降低的情況下做到DNN模型的壓縮。

英特爾陳玉榮：全面解析英特爾人工智能計算平臺｜CCF-GAIR 2018

以AlexNet為例，採用低精度深度壓縮解決方案，我們首次做到了接近無損的、壓縮比達到100倍以上的二進制DNN模型。由於壓縮模型的權值和激活值都是二進制表示，從而使所有的乘法操作都可以變成簡單的移位操作。使用定制硬件就可以做到數十倍甚至上百倍的加速。我們的壓縮技術和英特爾低功耗硬件相結合，就可以為霧計算、邊緣計算提供深度學習推斷的硬件加速能力。採用FPGA友好的DNN設計，並結合低精度深度壓縮解決方案可以充分利用FPGA的邏輯計算單元，在邊緣計算或者霧計算的場景里面來提高DNN計算的速度，降低功耗和延遲，提高吞吐量。另外，剛才已經提到，英特爾Movidius VPU本身已經具備一個DNN計算加速器，結合我們的低精度壓縮技術，將來就可以提供對低精度DNN計算的支持，從而在邊緣設備上進一步提升DNN計算的速度和吞吐量。

當然，我們也不只限於設計專用神經網路處理器，英特爾研究院正在進行一系列智能萬物的變革性研究，包括先進算法、神經擬態計算、自主系統和量子計算等。今年CES展上我們發布了神經擬態研究晶片Loihi以及具有49量子位的超導量子測試晶片Tangle-Lake。這兩項研究可能幫助各個行業、科研機構以及全社會解決目前困擾著傳統計算機的問題。我們的前瞻性研究正在穩步推進，希望能夠為人工智能的未來發展以及支持未來新型計算做好準備。

最後，我希望用「知未來創未來」結束我的演講。英特爾不改初心，始終堅持合作和創新，我們希望能夠和學術界、產業界一起通過合作和創新，來共同創造人工智能的美好未來。謝謝大家！