尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
前言:近年來,深度學習發展如此迅猛,最為關鍵的因素是擁有海量的數據支撐。然而,在現實生活中,並沒有那麼多的數據可以去采集。因此,少樣本學習成為了這幾年來深度學習領域非常重要的一個前沿研究方向。最近,吳恩達在接受媒體採訪時表示,目前人工智能技術取得了重大進展,可以用較少的數據得出準確的結論。他認為,第一波深度學習進展主要來自大公司,如果想構建語音識別系統,需要使用 100,000 個小時的數據進行訓練,如今,他越來越多地看到在小數據上的結果,即使你有 1000 張照片,也產生了很好的結果。
深度學習如何突破數據瓶頸?
當前,深度學習取得了巨大成功,這是毋庸置疑的,而其中最為關鍵的因素就是利用大量的數據去驅動模型訓練,使其獲得良好的效果。但是,擁有大數據的企業畢竟是少數,很多其他企業並沒有那麼多的數據可以去采集,而且無限制的獲取用戶信息的管道,必然會侵犯到個人隱私,甚至是涉及保密、法律的問題,而挖掘已有的用戶信息,數據量往往是不夠的。
最近,美國媒體 VentureBeat 採訪了包括吳恩達、Yann Lecun 在內的四位人工智能領域權威學者,詢問了他們對於 2018 年人工智能領域發展的看法,以及他們認為 2019 年人工智能和機器學習可能產生的突破。
其中,吳恩達談到了自己對 2019 年人工智能和機器學習發展趨勢的總體展望。他表示,在新的一年,人工智能 ( AI ) 和機器學習 ( ML ) 研究中有兩個特定領域的進步將有助於推動整個領域的發展。此外,他還指出,目前人工智能技術取得了重大進展,可以用較少的數據得出準確的結論,有人稱其為 ” 少樣本學習 ( Few-Shot Learning ) “。他認為,第一波深度學習進展主要來自大公司,他們有大量的數據訓練非常大的神經網路,因此,如果想構建語音識別系統,需要用 100,000 個小時的數據進行訓練。想培訓機器翻譯系統?用平行語料庫的大量句子訓練它,這會產生很多突破性的結果。而如今,嘗試用小量數據變得越來越多,比如 1000 張圖像,也產生了很好的結果。
吳恩達——人工智能和機器學習領域國際最權威學者之一
對於自身就擁有海量數據的科技巨頭來說,數據量越大就能做出越好的人工智能產品,這些企業又能吸引更多的用戶貢獻數據,如此循環,就會形成一些數據壟斷。如今,少樣本學習的出現,正打破數據的壁壘,為初創企業提供機會。
什麼是少樣本學習 ?
那麼,什麼是少樣本學習呢?少樣本學習研究的就是如何從少量樣本中去學習。對於人類而言,在識別物體的時候,僅需要少量圖像或者無需圖像,而通過對物體的描述信息就能基於以往的經驗做到對物體的識別,為什麼我們人類能夠快速學習到未知的事物呢?
這是因為人類天生的思考能力以及生活中各種知識的積累。天生的思考能力意味著強大的大腦算力,知識的積累意味著人類會利用自己的先驗知識來進行學習。所謂先驗知識,指的是先於經驗的知識。在哲學上,它使人聯想到下述思想:人類頭腦包含有若干內在的特徵,它可以為人類理性和悟性提供基礎。人類智能的一個重要特性是,人類具有從少量樣本中進行學習的能力,並且具有極強的泛化性,即所謂舉一反三,融會貫通。
受到人類少樣本學習能力的啟發,人們對機器少樣本學習的興趣愈發濃厚。既然人類具備少樣本學習能力,那麼深度學習如果按照現在的思路去發展,應該也是可以做到該能力的。正因為如此,少樣本學習成為了近年來深度學習領域非常重要的一個前沿研究方向。
如何做到少樣本學習?
目前,做到少樣本學習的方法有很多,包括元學習、遷移學習以及多任務學習等。其中,少樣本學習一直以來與元學習的關係非常緊密。
元學習 ( Meta Learning ) 或者叫做學會學習 ( Learning to Learn ) ,是機器學習的一個子領域。元學習學習到的是學習能力,而不是知識本身。它自動學習一些應用於機器學習實驗的元數據,主要目的是使用這些元數據來自動學習如何在解決不同類型的學習問題時變得靈活,從而提高現有的學習算法,它會隨著獲得的數據進行更新和快速的學習。這改變了傳統的深度學習模式必定需要龐大的數據量的情況,意味著深度學習可以在少量樣本的情況下,得到不錯的結果。
寫在最後:
相信在未來,元學習將進一步推動少樣本學習領域的發展。同時,隨著科技的發展,少樣本學習和深度強化學習必將會融合成一體,只有這樣才符合人類學習,真正提升人工智能技術的水平。