尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
摘要:如上 a 為機器學習中常見的全連接網路,b 則是香港科技大學研究者提出的全光學神經網路(AONN),它們都會進行非線性變換。首先,德國這項研究中的系統是單層的,而本文中提出的是一個 16 個輸入、2 個輸出的雙層全光學神經網路,還帶有 4 個具有非線性光學激活函數的中間神經元。
機器之心報導
機器之心編輯部
完全通過光學,不要計算機也能構建個神經網路?港科大的研究團隊提出了一種全光學神經網路,所有線性變換、激活函數通過光學模塊就能做到。
圖源:鵬城實驗室 Olivia Wang
在處理模式識別、風險管理以及其他同樣複雜的任務時,最強大的計算機都無法與人腦匹敵。但是,近來光學神經網路取得的進展通過模擬人腦中神經元的反應方式縮小了計算機與人腦之間的差距。這種光學神經網路比 ML 中的網路能耗更低、運算更快,是未來大規模應用 AI 的堅實基礎。
最近,來自香港科技大學的研究團隊在《Optica》雜誌上發表了一篇論文,詳細描述了他們提出的雙層全光學神經網路。這是一個功能完善的全光學神經網路(AONN),其中所使用的線性函數和非線性激活函數都是完全根據光學做到的。而且這種全光學神經網路還能擴展到更加複雜的神經網路架構,從而完成圖像識別等更複雜的任務。
論文鏈接:https://www.osapublishing.org/optica/abstract.cfm?uri=optica-6-9-1132
這個複雜的東西就是一個兩層的全光學神經網路,它和機器學習中的兩層全連接網路有點「類似」。
研究團隊成員之一 Junwei Liu 表示:「我們提出的全光學神經網路能夠以光速執行光學並行計算,並且耗能極少。這種大規模的全光學神經網路可應用於圖像識別以及科學研究等諸多領域。」
港科大的全光學神經網路是什麼
在傳統混合光學的神經網路中,光學組件通常用於線性運算,而非線性激活函數通常使用電子的方式做到。這主要因為非線性光學元器件需要高功率的雷射器,這在光學神經網路中是很難做到的。
為了克服這方面的問題,研究者使用具有電磁感應透明度的冷原子做到非線性函數。研究團隊的 Shengwang Du 說:「這種光感應效應可以通過非常小功率的雷射器做到,且該效應是基於非線性量子干涉的。因此這種效應可以將我們的系統擴展到量子神經網路,從而解決經典方法難以解決的問題。」
為了確認新方法的能力與可行性,研究者構建了一個雙層全連接全光學神經網路,它的輸入單元與輸出單元數目分別是 16 與 2。研究者使用他們的全光學網路分類 Ising 模型(一種磁場的統計學模型),即 order 和 disorder 階段兩個類別。結果表明,全光學神經網路與一般基於計算機的神經網路一樣準確。
圖 1:全連接網路的結構與全光學神經網路的一般結構。
如上 a 為機器學習中常見的全連接網路,b 則是香港科技大學研究者提出的全光學神經網路(AONN),它們都會進行非線性變換。與一般的 ONN 不同,AONN 沒有複雜的電場神經元,AONN 所有的信都通過光學的方式進行編碼。
非線性光學激活函數
這篇論文核心的突破就是採用了基於光學的非線性激活函數,因此整個網路才能稱為「全」光學神經網路。那麼什麼是非線性光學激活函數?簡單而言,它就是一種基於電磁感應透明的模塊(electromagnetically induced transparency, EIT)完成的,我們只要知道 EIT 是一種原子躍遷之間的光量子干涉效應就行了。
EIT 非線性光學激活函數由雷射冷卻的 85Rb 原子在 dark-line 二維磁光阱(MOT)中做到,如下圖 3(a) 所示。圖 3(b) 所示為原子能級,原子在基態|1>中制備。
在沒有耦合光束的情況下,原子介質對共振探測光束是不透明的,它如圖 3(c) 透射光譜中的做到所示最大程度地被原子吸收。
圖 3:EIT 非線性光學激活函數的做到。
對「光學神經網路」的不懈追求
當然,香港科技大學的這個全光學神經網路並非研究者在該領域的唯一探索。今年 5 月份,在《Nature》的一篇論文中,德國的研究人員提出了一種在毫米級光子晶片上做到的、基於相變非線性材料的全光學脈沖神經網路。該網路內部沒有光到電的轉換,輸入的數據被電子調制成不同的波長以注入網路,但之後所有數據都會停留在晶片上。利用集成相變材料來做到權重調制和神經元集成;它們位於兩種微環諧振器上,具有突觸或神經功能。
在不同工作波長情況下注入的未調制光接收到在相變材料中累積的神經元激活,之後將它們傳遞到網路下一層。即使沒有晶片上光學增益(在這個過程中,一種介質將能量傳遞給通過它傳輸的光),這個設置也可能擴展至更大的網路。作者在其上做到了小規模的監督學習和無監督學習。
利用上述全光學神經元進行監督學習和無監督學習。a 和 b 表示兩個神經元在不同輸入模式下的輸出;C:全光學神經元的無監督學習機制;d:重復顯示「0110」模式時四個突觸的權重隨時間的變化。
香港科技大學的研究者在論文中也提到了這項研究,但他們指出,這兩項研究存在根本差別。首先,德國這項研究中的系統是單層的,而本文中提出的是一個 16 個輸入、2 個輸出的雙層全光學神經網路,還帶有 4 個具有非線性光學激活函數的中間神經元。而且,港科大的研究者利用 EIT 量子干涉做到了非線性光學激活函數,這與那項研究的方法完全不同。
除了上述全光學神經網路,還有研究者嘗試從局部入手,把神經網路的一部分替換為光學卷積層。
去年 8 月,史丹佛大學在《Nature》子刊《Scientific Reports》上發表論文,提出在 CNN 網路前端替換一個光學卷積層(opt-conv)的方案,可以在保持網路性能的同時顯著降低能耗,並在 CIFAR-10 數據集的分類任務上驗證了其結論。
光學卷積層也就是用光學器件做到的卷積層,其光學運算具備高帶寬、高互聯和並行處理特性,並能光速執行運算,功耗接近於零。該技術有望在低功耗機器學習領域得到進一步發掘。
光學卷積層設計。(a)4f 系統圖,可以通過在傅里葉平面上放置相位掩模來做到光學卷積層(opt-conv)。(b)數字卷積層的標準組成,包括輸入圖像、卷積核堆棧和相應的輸出量。(c)opt-conv 層中的等效組成,核和輸出以二維數組的形式平鋪在平面,而不是堆疊在深度維數中。
此外,為了做到光速運算,加州大學洛杉磯分校(UCLA)的研究者甚至用 3D 列印打造出了固態的神經網路。該網路利用層級傳播的光衍射來執行計算,做到了手寫數字的圖像識別,相關成果已發表在《science》雜誌上。
這一想法看似新奇,其實也很自然。神經網路中執行的線性運算,恰好和光衍射的線性相互作用對應,神經元的權重、激活值概念也能和光的振幅、相位對應(可調)。此外,固態光衍射計算還具有能耗小、無發熱、光速執行(盡管傳統計算機電路中的電場傳播也是光速的,但並未直接對應神經網路的計算過程)等優點。
當然,也有人對此提出質疑,認為這種固態的神經網路對安裝精度和環境震動要求比較嚴格,可行性有待考證。
更複雜的光學神經網路
最後,研究者還計劃擴展全光學的這種方法,從而構建具有複雜架構的大規模全光學深度神經網路,這些網路能用於更複雜的圖像識別等任務。該論文的作者說:「盡管我們的工作是概念性驗證,但它展示了全光學神經網路在未來人工智能中的可能性。下一代的 AI 硬件在本質上應該更快、更低能耗,從而高效支持複雜的 AI 應用。」
參考鏈接:
https://phys.org/news/2019-08-all-optical-neural-network-deep.html
https://spectrum.ieee.org/tech-talk/semiconductors/optoelectronics/ai-at-speed-of-light
>光速執行AI運算,港科大雙層全光學神經網路不要計算機也能做分類