科大訊飛魏思：技術在不斷發展的同時，也在朝著歷史「回歸」

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接

加入LINE好友

在剛剛結束的全球1024開發者節上，科大訊飛研究院魏思就模式識別和人工智能的發展關係和發展歷史問題，做了他自己15年來的A.I.追光故事分享。

他在分享中提出如下觀點：

技術在不斷發展的同時，也在朝著歷史「回歸」

如何去定義這些問題，並在有限的場景下去部分解決問題，才是我們下一步的發展方向

……

這些觀點是非常值得我們去學習和思考的，我們將魏思院長的演講文稿整理出來，希望對大家未來的研究之路能夠有所啟發。

以下為演講稿的文字整理，有部分微調

我叫魏思，來自科大訊飛研究院，我大概有15年的時間一直在從事模式識別方面的工作。

模式識別大概有60、70年的發展歷史，最近這十年好像行業技術發展得很好，但實際上我認為它是朝著歷史回歸了。

目前所有研究的方向、模型都回歸到了條件相關性或者是條件依賴性的數學模型上，而此模型是在80年代中期由美國科學家Judea Pearl提出來的，後來這套模型演變成了圖模型，目前的基於深度學習的模型和圖模型在數學上的變化非常小，但是實際效果變化卻非常大。

接下來我會從4個方向去講述這幾十年來技術的發展脈絡。這4個方向分別是人類或者動物的神經元信號的傳遞機理和人工神經網路；統計和模式識別；語音和語言方面的研究；圖像識別的研究進展。

從生物神經網路到人工神經網路

18世紀，義大利的科學家伽伐尼發現青蛙的蛙腿放在金屬上會引起抽搐，這是人類第一次發現肌肉可以由電刺激而產生動作，於是伽伐尼猜測了生物電的存在。

1920年阿德里安通過實驗證明了神經元動作電位的存在。而早在20世紀初的時候，科學家伯恩斯坦提出了靜息膜電位的概念，並發現靜息膜電位為-70mv，同時他猜測帶電物體穿越細胞膜或許是動作電位產生的機理。

1939年霍奇金和赫胥黎通過槍烏賊神經元的系列精細實驗證明了神經元的細胞內外確實存在電流，並測量出了動作電位的大小（110mv）。他們發現是鈉離子的內流形成了真正的動作電位，鈉離子內流之後鉀離子外流保持細胞內外的靜息膜電位。然後他們猜測了兩件事情，第一，膜上有離子通道，第二，存在離子轉運蛋白保持膜內外離子平衡，這些後來都被分子生物學所證明。靜息膜電位，離子內外流動和轉運蛋白一起完成了動作電位的產生。

科大訊飛魏思：技術在不斷發展的同時，也在朝著歷史「回歸」

魏思現場演講

同期（1920-1930）Loewi，Dale，Katz發現了神經遞質乙酰膽鹼，乙酰膽鹼引起離子通道打開從而在神經元間形成動作電位，完成了信息在不同神經元之間的傳遞，至此，神經元的信號傳遞分子機理基本梳理清楚了。

在此基礎上，1943年McCulloch和Pitts提出一種非常簡單的數學模型（MP模型）去近似神經元的信號處理機制。1958年美國科學家羅森布拉特首次發現可以用MP模型，去完成很簡單的模式識別任務，也就是讓機器識別物體和數字，這也是第一代神經網路，我們稱之為感知機。

我們把那個階段稱之為神經網路第一次浪潮，但很快浪潮就過去了，因為當時的感知機的識別性能比較低，在實際中很難發揮作用。

同時在50年代，Kuffler，Hubel和Wiesel發現了視覺神經系統的工作機理，原來視覺不是響應彌散光的照射，而是響應不同形狀的光照。他們創造性的提出了感受野的概念，現在我們知道這就是濾波器。

受此研究的影響，貝爾實驗室的科學家LeCun在80年代末90年代初想到了利用卷積或者形狀響應機理設計一種算法去進行文字的識別，但當時，模式識別界被SVM主導，這個發明並沒有引起很大的反響。

科大訊飛魏思：技術在不斷發展的同時，也在朝著歷史「回歸」

魏思現場演講

同時，從80年代到90年代，Hopfield提出了動態神經網路，Schmidhuber和Hochreiter提出帶遺忘機制的動態神經網路模型。但那時並不被看好，直到近幾年這個模型才逐漸流行開來。2006年以後，Hinton復興了深度學習，並在語音和圖像上取得了突破性進展，深度學習也獲得了極大的應用。這就是我們說的從神經元的工作機理，到人工神經網路的發展歷史。

統計和模式識別的發展

統計的雛形是概率和計算，而最早的廣為人知的統計算法是最小二乘法，它是在1805年由勒讓德首先發明的，並在1824年由高斯用誤差分析的方式重新闡述以後獲得了極大的影響力，是前模式識別時代應用最廣泛的算法。

1885年弗朗西斯·高爾頓發明了回歸，同時利用數據統計和圖形化首次得到了二維正態密度的分布圖和相關係數等重要概念，要說現代統計肇始於高爾頓也不為過。

高爾頓讚助卡爾.皮爾遜在倫敦大學學院(UC London)成立了統計實驗室，造就了20世紀早期開始的統計學革命。費舍爾（Sir R. A. Fisher）在1936年提出的線性區分性分析（LDA），紐曼，愛根·皮爾遜（卡爾·皮爾遜的兒子）同期提出的似然比檢驗（Likelihood Ratio Test）則可以稱之為現代分類器的雛形。這些概念後來演變成了現代模式識別體系。

1950年美國科學家Abraham Wald系統地將「統計決策理論」闡述清楚。從那時候開始，模式識別慢慢成熟，我們有了很多可用的模型，比如說線性分類器、樹分類器，GMM模型，HMM模型等。

這里面特別值得一提的就是條件相關性模型，1985年Judea Pearl提出來貝葉斯網路，此後，Judea Pearl對圖模型的學習、推理等進行了系統性的研究，並解決了一系列數學問題。他在科普書(The book of why)中自豪的稱自己的工作解決了人類智慧的秘密（尋找事物之間的因果關係），他也因此得了2011年圖靈獎。

科大訊飛魏思：技術在不斷發展的同時，也在朝著歷史「回歸」

魏思現場演講

但事實上圖模型的學習和推理非常難（數學上的術語是圖模型的學習是NP-Hard的），在實際應用中的效果並不是很好。在2006年到2010年期間，以Hinton為代表的人工智能學者發現在用神經網路讓模型通過數據和算法自動去獲數據之間以及數據和標籤之間的條件相關性，可以獲得非常好的效果。

從上面我們可看到，模式識別也慢慢地發展到了對條件相關性的利用和訓練方向上來了。

語音和語言的發展

在語音方面我會講兩個方向，語音合成和語音識別。

語音合成在90年代以前都只是實驗室的項目，到了90年代後，研究人員發現可以通過預先錄制很多的語音，在實際使用的時候把數據拿出來進行拼接來進行語音合成。奇怪的是，這麼簡單的做法，居然可以獲得相當好的效果。但是這樣得到的語音連貫度和平滑度不夠，所以研究人員設計了很多的啟發式的規則和方法，去調整語音合成的連貫度和平滑度。

2000年，日本科學家Tokuda把語音識別中的常用方法HMM用到了語音合成上，提出了新的語音合成方法，雖然在當時它的效果不是很好，但很快人們發現用這種新的方法，在語音合成的效率、平滑度問題上，都有很好的表現。

2016年年Google提出了WaveNet，我們也利用條件自回歸模型取得了較大進展。目前，由於利用了長時的相關性，我們的語音合成效果非常棒，語音合成也慢慢收斂到條件相關性上來了。

語音識別歷史就更長了，而且更有意思。 1971年JennyBaum發明了HMM，1975年James Baker把HMM用到了語音識別上。80年代到90年代，GMM/HMM的EM算法被幾個小組（CMU，IBM，Bell lab）重新定義（1977年Dempster就已經從數學上把EM算法做出來了），一批科學家從無到有地將EM算法和HMM語音識別上的整套體系建立起來了。自此語音識別被HMM主導並由於HTK（HMM Toolkit, Cambridge）的出現而得到了大面積的推廣。

2010年，Hinton首次提出利用深度網路結合HMM進行語音識別，並和微軟研究院俞棟和鄧力合作在SWB上獲得了相對30%的提升，從此語音識別翻開了新的一頁。

綜上所述，可以看出語音合成和語音識別也都收斂到條件相關性的數學模型上來了。

科大訊飛魏思：技術在不斷發展的同時，也在朝著歷史「回歸」

魏思現場演講

下面，我們來看看語言。

在很早的時候，語言是定性和分析的科學。

到了90年代，隨著HMM模型的普及，特別是HMM在機器翻譯上的成功應用，語言也進入了統計的時代。

2001年JohnLafferty發明了條件隨機場模型，這個模型考慮了特徵域和標籤域的條件相關性（相比HMM，多考慮了標籤域的相關性），由於考慮到了更多的條件相關性，條件隨機場的效果好過其他的模型，也獲得了大量的應用。在2001年之後，條件隨機場幾乎主導了需要處理動態信息的自然語言處理系統。

2012年，Minklov首次利用（RNN）語言模型取得了語音識別的顯著提升，同時他們發現可以利用RNN語言模型生成符合語法規範的句子，而在此之前機器自動生成合乎語法規範的句子幾乎是不可能完成的任務。

2015年，Google和Universityof Montreal幾乎同時提出了利用編碼解碼機制去進行機器翻譯，再加上注意機制（Attention）的引入，機器翻譯在過去的幾年間發生了翻天覆地的變化。機器翻譯的效果在簡單場景下已經達到了人工的水平。而這套模型也是利用了神經網路做到了特徵域和標籤域的全部條件相關性。

由上我們可以看到，語音和語言，也都收斂到了條件相關性模型上了。

圖像識別的研究進展

圖像識別的發展可以分為2個階段， 2012年之前和2012年之後。

在2012年以前，大部分圖像識別類的任務都是在發明非常精巧的算法，或者定義更加複雜有效的濾波器。這些工作雖然比較漂亮，但在實際複雜場景下的推廣性不佳，如說人臉識別和物體識別。視覺識別方面（如人臉，物體，物體分割等）的研究也一直沒有獲得大規模應用。

2012年Krizhevsky和Hinton首次提出了利用多層子卷積神經網路來進行圖像識別，在2012年的ImageNet比賽上遙遙領先傳統方案，以顯著優勢獲得第一名。從2012年以後，深度卷積網路幾乎主導了計算機視覺的研究，現在幾乎所有的視覺類任務都可以看到深度卷積網路。

為什麼會出現這樣的現象？實際上所有人工設計的分類器或者特徵，都是在試圖用人工的方法去找到特徵之間的條件相關性，這是非常困難的。

而深度卷積網路讓機器通過海量數據自動去提取條件相關性，這樣可以發現非常複雜和隱藏的相關性。

由此可見，圖像識別也收斂到了條件相關性上來了。

科大訊飛魏思：技術在不斷發展的同時，也在朝著歷史「回歸」