人工智慧加持，已經擋不住科學的步伐了

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

點擊上方關注，All in AI中國

最新的AI算法正在探測星系的演化、計算量子波函數、發現新的化合物等等。還有什麼是事情是科學家不能自動化的呢？

沒有人類或一個團隊能夠完全跟上當今許多物理學和天文學實驗所產生的海量信息。他們中的一些人每天都要記錄TB的數據，而且洪流只會越來越大。 Square Kilometer Array是一台預定在20世紀20年代中期開啟的射電望遠鏡，每年將產生與整個互聯網一樣多的數據流量。

「洪流」讓許多科學家轉向人工智能尋求幫助。人工神經網路（人工神經網路 – 模擬大腦功能的神經元的計算機模擬網路）等人工智能系統可以通過最少的人工輸入，就能處理海量數據，突出異常並檢測人類永遠無法發現的模式。

當然，使用計算機來輔助科學研究大約可以追溯到75年前，而通過手工研究數據以尋找有意義的模式的方法起源於數千年前。但是一些科學家認為，機器學習和人工智能的最新技術代表了一種全新的科學方法。其中一種方法，即生成建模，可以幫助在對觀測數據的各種相互矛盾的解釋中找出最可信的理論，這種理論只基於數據，並且重要的是，沒有任何預編程的知識，可以在所研究的系統中起作用的物理過程。生成模型的支持者認為它足夠新穎，可以被認為是了解宇宙的潛在「第三條道路」。

現在讓我們從腦海中抹去關於天體物理學的一切知識。我們在多大程度上可以只使用數據本身重新髮現這些知識？ Kevin Schawinski

傳統上，我們通過觀察了解了自然。可以仔細研究下約翰內斯·開普勒（Johannes Kepler）在第谷布拉赫（Tycho Brahe）的行星位置表，並試圖辨別出潛在的模式。（他最終推斷出行星在橢圓軌道上運動。）科學也通過模擬推進。一位天文學家可能會模擬銀河系及其鄰近星系仙女座星系的運動，並預測它們將在數十億年後發生碰撞。觀察和模擬都有助於科學家產生假設，然後可以通過進一步的觀察進行測試，生成的建模不同於這兩種方法。

「它基本上是觀察和模擬之間的第三種方法，」天文物理學家和生成模型最熱情的支持者之一Kevin Schawinski表示，「這是解決問題的另一種方式。」

一些科學家將生成建模和其他新技術視為傳統科學的動力工具。但大多數人都認為人工智能正在產生巨大影響，而且它在科學中的作用只會增長。 Fermi國家加速器實驗室的天體物理學家Brian Nord使用人工神經網路來研究宇宙，他們擔心「人類科學家沒有什麼是不可以做到自動化的」這種論斷。

一代人的發現

自研究生畢業以來，Schawinski一直以數據驅動的科學為名。在攻讀博士學位期間，他面臨著根據外觀對數千個星系進行分類的任務。因為這份工作沒有現成的軟件，所以他決定將其進行眾包，因此銀河動物園公民科學項目誕生了。從2007年開始，普通計算機用戶通過記錄他們對哪個星系屬於哪個類別的最佳猜測來幫助天文學家，多數規則通常導致正確的分類。該項目取得了成功，但是，正如Schawinski指出的那樣，人工智能已經讓它變得過時了：「如今，具備機器學習和雲計算訪問背景的才華橫溢的科學家可以在一個下午就完成整個工作。」

Schawinski在2016年轉向了生成建模的強大新工具。從本質上講，生成建模會詢問在給定條件X的情況下，你會觀察到結果Y的可能性有多大。這種方法已被證明是非常有效的。例如，假設您為生成模型提供一組人臉圖像，每張臉都標有人的年齡。當計算機程序梳理這些「訓練數據」時，它開始在較舊的臉部之間建立聯繫並增加皺紋的可能性。最終，它可以「老化」它所給予的任何面孔，也就是說，它可以預測任何年齡的特定臉部可能經歷的物理變化。

這些面孔都不是真實的。頂行（A）和左列（B）中的面是由生成對抗網路（GAN）使用真實臉部的構建塊元素構建的。然後，GAN將A中臉部的基本特徵（包括其性別、年齡和臉部形狀）與B中臉部的更精細特徵（例如頭髮顏色和眼睛顏色）相結合，以在網格的其餘部分中創建所有臉部。

最著名的生成建模系統是「生成對抗網路」（GAN）。在充分暴露於訓練數據之後，GAN可以修復已經損壞或丟失像素的圖像，或者它們可以使模糊的照片清晰。他們學會通過競爭來推斷缺失的信息（因此稱為「對抗性」）：網路的一部分，稱為生成器，生成假數據，而第二部分，即鑒別器，試圖區分假數據和真實數據。隨著程序的運行，兩部分都會越來越好。你可能已經看到了最近流傳的一些超現實主義的，GAN製作的「面孔」，正如一個標題所說的那樣，「極其真實但是實際上並不存在」的形象。

更廣泛地說，生成建模採用數據集（通常是圖像，但並非總是如此），並將每個數據分解為一組基本的抽象構建塊 – 科學家將其稱為數據的「潛在空間」。該算法操縱潛在空間的元素，看看它如何影響原始數據，這有助於發現系統中正在運行的物理過程。

潛在空間的概念是抽象的，難以想像，但作為一個粗略的類比，想想當你試圖確定人臉的性別時你的大腦可能在做什麼。也許你會注意到髮型、鼻子形狀等，以及你不能輕易用語言表達的圖案。計算機程序同樣在尋找數據中的顯著特徵：雖然它不知道小鬍子是什麼或性別是什麼，但是如果它是在數據集上訓練的，其中一些圖像被標記為「男人」或「女人」，並且其中有些人有一個「小鬍子」標籤，它會很快推斷出一個連接。

在12月發表於《天文學與天體物理學》(Astronomy & Astrophysics)雜誌上的一篇論文中，Schawinski和他的蘇黎世聯邦理工學院的同事Dennis Turp和Ce Zhang使用生成模型來研究星系在演化過程中所經歷的物理變化。（他們使用的軟件對待潛在空間與生成對抗網路對待它的方式有所不同，因此技術上並不是GAN，盡管類似。）他們的模型創建了人工數據集，作為測試物理過程假設的一種方式。例如，他們詢問恒星形成的「淬火」 – 形成速率的急劇下降 – 與星系環境密度的增加有什麼關係。

對於Schawinski來說，關鍵問題是有多少關於恒星和星系過程的信息可以單獨從數據中挑出來。「讓我們抹去我們所知道的關於天體物理學的一切，」他說。「我們可以在多大程度上重新髮現這些知識，只使用數據本身？」

首先，銀河系的圖像被縮小到它們的潛伏空間；然後，Schawinski可以調整該空間的一個元素，其方式與星系環境中的特定變化相對應 – 例如，周圍環境的密度。然後他可以重新生成銀河系，看看出現了什麼差異。「所以現在我有一台假設生成機器，」他解釋道，「我可以拍攝一大堆最初處於低密度環境中的星系，並通過這個過程使它們看起來像是在高密度環境中。」Schawinski、Turp和Zhang發現，當星系從低密度到高密度的環境轉變，它們的顏色變得更紅，並且它們的恒星變得更加集中。 Schawinski認為，這符合現有的關於星系的觀測結果。問題是為什麼會這樣。

Schawinski說，下一步還沒有做到自動化：「我必須以一個人類的身份進入，然後說，’好吧，什麼樣的物理學可以解釋這種效應？」對於這個過程，有兩個看似合理的解釋：也許星系在高密度環境中變得更紅，因為它們含有更多的塵埃，或者由於恒星形成的減少而變得更紅（換句話說，它們的恒星往往更老）。通過生成模型，兩種想法都可以進行測試：潛在空間中與塵埃和恒星形成率相關的元素被改變，以了解它如何影響星系的顏色。「答案很明確，更紅的星系是恒星形成的地方，而不是塵埃變化的星系。所以我們應該讚成這個解釋。」

使用生成模型，天體物理學家可以研究星系從宇宙的低密度區域到高密度區域時的變化，以及這些變化導致的物理過程。

該方法與傳統模擬有關，但存在重大差異。 Schawinski表示，模擬「基本上是假設驅動的」。「這種方法的意思是，’我想我知道導致我在系統中看到的所有東西的潛在物理定律是什麼。’所以我有一個關於恒星形成的配方，我有暗物質行為的配方，等等。我把所有的假設放在那里，然後讓模擬運行起來。然後我問：這看起來像現實嗎？「他說，他在生成建模方面所做的是」在某種意義上，與模擬完全相反。我們什麼都不知道;我們不想假設任何事情。我們希望數據本身告訴我們可能會發生什麼。」

在這樣的研究中，成功建模顯然並不意味著天文學家和研究生已經成為冗餘，但它似乎代表了可以通過人工做到對天體物理學對象和過程的學習程度轉變。系統在電子指尖上的功能遠遠超過龐大的數據庫。「這不是完全自動化的科學，但它表明我們能夠至少部分地構建使科學過程自動化的工具。」

生成建模顯然是強大的，但它是否真正代表了一種新的科學方法，這一問題值得商榷。對於紐約大學和Flatiron研究所（與Quanta一樣，由Simons基金會資助）的宇宙學家David Hogg來說，這項技術令人印象深刻，但最終只是一種從數據中提取模式的非常複雜的方法，這也是天文學家所擁有的幾個世紀以來一直在做的事情。換句話說，它是一種先進的觀察和分析形式。 Hogg自己的工作，如Schawinski的工作一樣，嚴重依賴AI；他一直在使用神經網路根據恒星的光譜對其進行分類，並使用數據驅動模型推斷恒星的其他物理屬性。但他認為他的作品以及Schawinski的作品都是久經考驗的科學。「我不認為這是第三種方式，我只是認為我們作為一個社區正在變得越來越複雜，我們如何使用這些數據。特別是，越來越好。但在我看來，我的工作仍完全處於觀察模式中。」

勤奮的助手

無論它們在概念上是否具有新穎性，很明顯AI和神經網路已經在當代天文學和物理學研究中發揮了關鍵作用。在海德堡理論研究所，物理學家Kai Polsterer主管著天文信息學小組，這是一個專注於新的，以數據為中心的天體物理學方法的研究小組。最近，他們一直在使用機器學習算法從星系數據集中提取紅移信息，這在以前是一項艱巨的任務。

Polsterer認為這些新的基於人工智能的系統是「勤奮的助手」，可以連續數小時梳理數據而不會對工作條件感到厭倦或抱怨。他說，這些系統可以完成所有繁瑣乏味的工作，讓你「自己做一些很酷而有趣的科學」。

但他們並不完美。Polstere警告說，算法只能做他們訓練過的事情。系統對輸入是「不可知的」。給它一個星系，軟件就可以可能它的紅移和它的年齡，但是給同一個系統提供自拍照或腐爛的魚的圖片，它也會輸出一個（非常錯誤的）年齡。他說，最終人類科學家的監督仍然至關重要。

對於他而言，Nord在費米實驗室警告說，神經網路不僅要提供結果，而且要提供誤差條，就像每個本科生都需要接受訓練一樣。他說，在科學領域，如果你進行測量卻不報告相關誤差的可能，那麼沒有人會認真對待這些結果。

像許多人工智能研究人員一樣，Nord也關注神經網路產生的結果的不可穿透性；通常，系統給出一個答案而不提供如何獲得結果的清晰圖像。

然而，並非每個人都認為缺乏透明度必然是一個問題。法國CEA Saclay理論物理研究所的研究員LenkaZdeborová指出，人類的直覺往往同樣難以理解。你看一張照片，立即認出一只貓，但其實你不知道自己的大腦是如何思考的，就像是一個黑匣子一樣。

不僅天體物理學家和宇宙學家正在向人工智能推動的數據驅動科學發展。像Perimeter理論物理研究所和安大略滑鐵盧大學的Roger Melko這樣的量子物理學家已經使用神經網路來解決該領域中一些最棘手和最重要的問題，例如如何表示描述a的數學「波函數」多粒子系統。 AI是必不可少的，因為Melko稱之為「維數的指數性詛咒。」也就是說，波函數形式的可能性隨著它描述的系統中的粒子數量呈指數增長。難度類似於嘗試在象棋或圍棋這樣的遊戲中找出最佳走法：你試圖向前看下一個走法，想像你的對手會玩什麼，然後選擇最好的回應，但每次動作，可能性就會激增。

當然，人工智能系統已經掌握了這兩款遊戲幾十年前的國際象棋以及2016年的圍棋，當時稱為AlphaGo的AI系統擊敗了一名頂級人類玩家。 Melko表示，它們同樣適用於量子物理學中的問題。

機器的思想

無論Schawinski是否正確地聲稱他找到了做科學的「第三條道路」，或者像Hogg所說的那樣，它只是傳統的觀察和數據分析，很明顯AI正在改變科學發現的味道，而且它是肯定會加速它。那麼，人工智能革命將在科學方面走多遠？

有時，人們對「機器人科學家」的成就提出了很大的要求。十年前，一位名叫亞當的AI機器人化學家研究了麵包酵母的基因組，並研究出哪些基因負責製造某些氨基酸。（亞當通過觀察某些基因缺失的酵母菌菌株，並將結果與具有這些基因的菌株的行為進行比較來做到這一點。）《有線》雜誌的標題是「機器人通過自身進行科學發現」。

要有創意，你必須討厭無聊。而且我不認為電腦會覺得無聊。

最近，格拉斯哥大學的化學家Lee Cronin一直在使用機器人隨機混合化學物質，看看形成了什麼樣的新化合物。通過質譜儀、核磁共振儀和紅外光譜儀實時監測反應，系統最終學會預測哪種組合最具反應性。克羅寧表示，即使不能進一步發現，機器人系統也可以讓化學家將研究速度提高90％左右。

去年，蘇黎世聯邦理工學院的另一個科學家團隊使用神經網路從數據集中推導出物理定律。他們的系統，一種類似於機器人開普勒，從地球上看到的太陽和火星在天空中的位置記錄重新髮現了太陽系的日心模型，並通過觀察碰撞球來計算出動量守恒定律。由於物理定律通常可以不止一種方式表達，研究人員想知道該系統是否可能提供新方法，也許是更簡單的方法，來思考已知的定律。

這些都是AI啟動科學發現過程的例子，盡管在每種情況下，我們都可以討論新方法的革命性。也許最具爭議的問題是，僅從數據中就能收集到多少信息——在這個數據堆積如山(而且還在不斷增加)的時代，這是一個緊迫的問題。無論何時你看到一篇論文或研究都以無模型的方式分析數據時，你可以確定研究的結果只是總結，也許是變換，而不是解釋數據。

‘,

>人工智能加持，已經擋不住科學的步伐了

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

更多文章