2019WAIC｜微眾銀行CAIO楊強：聯邦學習領跑人工智慧最後一公里

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

摘要：數據的各個擁有方，在各自數據不出本地的情況下建立模型，並且讓這個模型能夠共享，那麼在建立模型的過程中便不會侵犯用戶的隱私，整個建模的過程就叫聯邦學習的框架和算法。微眾銀行首席人工智能官楊強教授在大會主論壇——「科學前沿」演講時表示，聯邦學習已經成為AI在學術界和工業界的新趨勢，未來行業面臨的社會大眾的要求和監管會越來越嚴格，聯邦學習能夠在滿足用戶隱私保護和數據安全需求的同時，做到多方共贏。

8月29日，2019世界人工智能大會（WAIC）於上海世博中心拉開帷幕，海內外大咖齊聚，學術界工業界交匯，共話人工智能未來。微眾銀行首席人工智能官楊強教授在大會主論壇——「科學前沿」演講時表示，聯邦學習已經成為AI在學術界和工業界的新趨勢，未來行業面臨的社會大眾的要求和監管會越來越嚴格，聯邦學習能夠在滿足用戶隱私保護和數據安全需求的同時，做到多方共贏。

2019WAIC｜微眾銀行CAIO楊強：聯邦學習領跑人工智慧最後一公里科技第1張

微眾銀行作為聯邦學習的國內首倡者和主管者，在楊強教授的帶領下首次提出了「聯邦遷移學習」，並通過領銜聯邦學習國際標準（IEEE標準）制定、開源自研聯邦學習框架Federated AI Technology Enabler（簡稱FATE）等來推動聯邦學習技術在行業中的落地。

以下為微眾銀行首席人工智能官楊強教授演講全文：

大家好，今天非常高興跟大家討論這樣一個題目——人工智能最後一公里。為什麼會起這樣一個題目呢？現在我在微眾銀行負責人工智能的工作，接觸到很多人工智能的應用場景。像微眾銀行這樣一個互聯網銀行，它服務的用戶數已經超過了1.7億，提供服務主要借助的手段就是人工智能和機器人。在服務過程中有很多環節，比方說業務咨詢、審核批准貸款文件、對申請人進行人臉識別、語音識別等身份核驗、客服問答等。在金融領域，不僅要建立用戶畫像和模型找到用戶，更要建立一整條長鏈路來服務廣大的用戶。

我們已經很熟悉這些人工智能領域的應用，但我想說的是，這些應用都離不開一個元素——數據，尤其是大數據。但是我們看看我們的周邊，卻發現數據非常有限。在法律領域，積累一條有效的數據是需要很長時間的；在金融領域，尤其是大額貸款、理財領域，有效的數據也是非常少的；在醫療領域面臨的是數據割裂的現象，每個醫院都有很多的醫療影像數據，卻出於監管、安全、利益等原因不能夠互相傳遞，無法形成合力。

在這種情況下，數據聚合的需求十分強烈，卻很難得到滿足。其中有一個很重要的原因是社會對於用戶隱私的要求越來越高。現在世界各地的監管機構紛紛出台強有力的法規，比方說歐盟在去年正式提出《通用數據保護條例》（GDPR），對個人隱私、個人數據的擁有權，包括模型的使用和可解釋性都提出了非常嚴格的要求。中國的法律也在快步推進，連續出台了一系列關於用戶隱私、用戶數據安全和擁有權的法規，也將會嚴格限制企業之間的數據交換。

我們一方面面臨數據割裂，沒有大數據來訓練人工智能；另一方面，法律法規和社會對安全的嚴格要求又限制了數據的融合。大數據變成了人工智能的挑戰。

我們如何應對這個挑戰？放棄人工智能嗎？僅允許擁有大數據的公司來做人工智能嗎？這都不對，我們的回答是，要積極地尋找一些新的技術方向來解決數據挑戰。

我們提出的方法和方向叫做「聯邦學習」，英文叫「Federated Learning」。數據的各個擁有方，在各自數據不出本地的情況下建立模型，並且讓這個模型能夠共享，那麼在建立模型的過程中便不會侵犯用戶的隱私，整個建模的過程就叫聯邦學習的框架和算法。

Google在2016年就開始進行一個項目，在安卓系統的手機用戶中建立聯邦學習，解決用戶個人終端設備的數據隱私問題。首先初始化模型下載到各終端，各終端根據自己本身的數據更新模型參數，不同的終端就會產生不同的更新結果，這些更新被送到雲端進行聚合，匯總後的模型參數將作為下一次更新的初始參數，這樣一直迭代直到收斂。用這樣的一個方法既能保證用戶隱私，同時又能共享一個通用模型，利用群體智能在雲端不斷更新。

這樣的模型不僅需要一個機器學習算法，更需要一個分布式的機器學習算法。在分布式的機器學習算法之上，還要有各種加密的算法。在這個基礎上，我們仔細地分析了一下，發現一共有三種模式來進行聯邦學習。

第一種模式叫橫向聯邦學習，是指當兩個數據集的用戶不同，重疊較少，但用戶特徵重疊較多時，我們把數據集按照橫向 (即用戶維度) 切分，並取出雙方用戶特徵相同而用戶不完全相同的那部分數據進行訓練。

2019WAIC｜微眾銀行CAIO楊強：聯邦學習領跑人工智慧最後一公里科技第2張

第二種叫做縱向聯邦學習，是說兩個數據集的用戶特徵重疊較少，但它們卻有較多的重疊用戶，那麼我們就把數據集按照縱向 (即特徵維度) 切分，並取出雙方用戶相同而用戶特徵不完全相同的那部分數據進行訓練。

2019WAIC｜微眾銀行CAIO楊強：聯邦學習領跑人工智慧最後一公里科技第3張

最後，如果兩個數據集既不重疊用戶特徵，又不重疊用戶，那麼在這個場景下，我們也提出一個新的算法，叫做聯邦遷移學習。它可以利用遷移學習的算法，把這兩方數據模型的本質挖掘出來，把抽象的模型加以聚合，在聚合的過程中保護用戶隱私，也取得非常大的成功。

2019WAIC｜微眾銀行CAIO楊強：聯邦學習領跑人工智慧最後一公里科技第4張

雖然聯邦學習的框架最近才提出來，但是它在產業界的應用已經有成熟的進展。比方說我們最近在一個金融信貸的場景下就取得了非常成功的應用：一方是互聯網企業，有很多用戶的行為數據；另一方是金融企業——銀行，需要建立一個更準確的用戶信貸模型。這時利用縱向聯邦學習，把兩邊的模型加以共享，進行更新，這樣模型就能夠更有利，隨著數據量的增加，效果也大為增加。以下是效果圖。

2019WAIC｜微眾銀行CAIO楊強：聯邦學習領跑人工智慧最後一公里科技第5張

同時，我們也嘗試了很多不同的應用場景，比方說在城市管理領域，利用散落在各地的割裂的計算機視覺數據來建立一個安全、共享的模型；在語音識別領域，不同的機構有不同的語音數據，不同的服務中心，它們也可以建立一個聯邦學習來解決用戶隱私的問題。

2019WAIC｜微眾銀行CAIO楊強：聯邦學習領跑人工智慧最後一公里科技第6張

剛剛講的這些應用都離不開一個概念，叫做生態。聯邦學習生態的建立需要我們不斷地去倡導。我們在學術界和工業界也做了一系列的推動工作，包括在剛剛結束的第28屆國際人工智能聯合會議(IJCAI 2019)上舉辦了首屆國際聯邦學習研討會；在Linux Foundation開放了全球首個聯邦學習的開源項目，叫FATE（Federated AI Technology Enabler），和更多的開發者一起為聯邦學習開源做出積極貢獻。同時，我們也正在建立一個聯邦學習國際標準（IEEE標準），讓不同的機構之間可以有共同的語言，在建立聯邦學習共同模型的時候大家的溝通會更敏捷；在國內，我們也取得了很大的成就，牽頭建立國內首個關於聯邦學習的團體規範標準——《信息技術服務聯邦學習參考架構》團體標準。

最後，機器學習離不開大數據，大數據離不開安全和保護隱私的考慮。聯邦學習是一個既能建立大數據模型，又能保護數據安全和用戶隱私的有利的工具，希望更多的人能加入我們一起建立聯邦學習生態。謝謝大家！

>2019WAIC｜微眾銀行CAIO楊強：聯邦學習領跑人工智能最後一公里

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

更多文章