DNA:精妙的資訊存儲體

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

提起存儲信息的媒介,我們一般想到的是硬碟、光盤,或者還有早先的軟盤和磁帶,恐怕誰也不會想到,大自然最古老、迄今容量最大的存儲媒介其實在我們每個人身上,也在身邊每一個生物體內,那就是存儲生命密碼的DNA。

自地球上最早的生命出現以來,大自然通過DNA存儲信息至今已經沿用了35億年。硬碟、光盤在地上摔幾次恐怕就要報廢,再也讀不出數據來,而DNA卻不怕摔,不怕凍,經久耐用,即便離開生物體,在自然環境中也能保存數萬年而不腐。

當然,最令人羨慕不已的還是它那驚人的存儲能力。我們知道組成DNA的基本單元是脫氧核苷,每個脫氧核苷都帶一個鹼基,而鹼基共有四種類型:腺嘌呤(A)、鳥嘌呤(G)、胸腺嘧啶(T)、胞核嘧啶(C)。如果用0、1、2、3各代表一個鹼基,就組成一個四進制的存儲方式。人類基因組包含大約相當於750 MB的信息,這麼多信息就儲存在一條比細胞還小得多的DNA上。這些信息事無巨細地告訴我們的身體:鼻子該長哪兒,眼睛長成什麼顏色,某個蛋白該怎麼合成……

大自然既然早已經為我們發明了這麼強大的存儲工具,我們為何不利用起來呢?科學家早就想到了這一點,並且近年來隨著生物技術的突飛猛進,這一設想正走向現實。

在生命體內「刻字」

起初,科學家的設想是把信息存到生物體的DNA中。

我們知道,在DNA上,不僅存放著那些與生命活動有關的基因,還存放著大量曾經與生命活動有關、但後來失效了的基因。我們稱這種基因為「垃圾基因」。對於有用的基因,一個鹼基都不能隨便更改,而對於垃圾基因,其上面的鹼基不論怎麼改動都不會對生命活動造成影響。如果我們把DNA比喻成一本書,這些垃圾基因就相當於書中插進去的一段段亂碼。在亂碼段落里,里面的字符不論怎麼排,都不影響我們對整本書內容的理解,——因為除了傻子,誰會去讀這些亂碼呢。

不可思議的是,在大多數生物體DNA這本大書中,竟然多數段落都是亂碼。就拿人類的DNA來說,97%的區域都被垃圾基因占據了,人類基因組22000個有用基因,總長度僅占DNA的3%。

於是科學家想,既然DNA上的「亂碼區」可以隨意填寫,那何不填寫上我們需要保存的信息呢?舉個例子。現在要在DNA上存儲「大科技」三個字。我們先把它們轉化為電腦上的二進制碼,然後再把二進制碼轉化為DNA上的「鹼基文字」,譬如說轉化結果是「A-T-T-A-C-C-G」,最後在某個細菌的DNA上的垃圾基因截取一段,把該段的「亂碼文字」用「A-T-T-A-C-C-G」替代。那麼隨著這個細菌不斷繁殖,只要這段區域不發生基因突變,所有後代身上都將帶上了「A-T-T-A-C-C-G」這段信息。幾百年後,我們的後人只要抓起一個細菌,通過基因測序,把這段代碼測出來,就可以還原它所代表的意思——哦,原來是「大科技」!

2000年,美國生物學家就把一段信息「刻」進了細菌的體內,當然不是「大科技」三個字——我們還沒有這麼榮幸。他們刻進去的是愛因斯坦著名的質能方程「E=MC2」。2003年,有人又把迪士尼動畫片中的一段曲子「刻」進了細菌體內。2010年,當首個人造細胞誕生時,主管該項工作的美國基因學家卡耐基·文特爾又把所有參與該項目的科學家的名字「刻」進了人造細胞的DNA上。

在人造DNA上刻寫

順便提一下,為什麼上述實驗都要用細菌刻寫呢?因為細菌是無性生殖的,也就是說,除非發生基因突變,子代和母代的DNA是完全相同的。有性生殖的生物就不行,因為在交配過程中,基因要發生重組,來自另一方的「亂打字符」將插進你刻的信息里頭,到了下一代的DNA上,你恐怕就讀不出原先的意義來了。

這種方法很巧妙,是不是?可惜還有缺點。因為生物體的基因總在發生著突變,不論有用還是沒用的基因概不例外。基因突變在分子水平上表現為核苷酸上的鹼基要麼被取代,要麼缺失,要麼插進新的鹼基。所以,你「刻寫」在生物體上的信息,一代代隨著時間的推移,錯誤將越來越多,譬如,「刻」在細菌DNA上的「大科技」過上幾千年讀出來說不定就成「小科技」了,再過上幾千年壓根兒就完全沒有意義了。

為了避開這個缺點,由美國哈佛大學的分子生物學家喬治·邱奇主管的一個小組2012年8月嘗試了另一種辦法。他們所用的材料不是活細胞的DNA,而是人工合成的DNA。人造DNA除了不會發生基因突變這一優點外,還有一個好處是整條DNA都可以用於刻寫,不像活細胞的DNA,刻寫時你得小心翼翼地避開有用的基因。

在刻錄的時候,他們先把文字、圖片都轉化成電腦上的二進制代碼;然後用A或C代替0,用G或T代替1(這樣做實際上把DNA上的四進制簡化成了二進制);最後按這個編碼在試管里合成出人造DNA。因為目前人工合成長鏈DNA還比較困難,他們就採用了好多段短鏈DNA,這些短鏈DNA有秩序地排布在玻璃晶片上,信息則被分存在這些短鏈DNA上,——這類似把硬碟分成幾個扇區。讀的時候,用基因測序儀器按秩序讀出這些DNA上的鹼基編碼,然後還原成二進制0和1的編碼,最後電腦就可以把信息所包含的文字、圖片都顯示出來。

驚人的存儲能力

這一次,邱奇等人竟然在人造DNA上「刻」進了整整一本書的內容,這本書包含53246個英文單詞,11張圖片和1個電腦程序,總計5.27MB。所儲存的信息量比過去DNA上「刻」進信息的最高紀錄還要高600多倍。出錯率僅為百萬分之二,就是說,這麼一本厚書,僅出錯幾個字母。這些信息在常溫下至少能穩定保存40萬年。

用DNA存儲信息,容量大得驚人。在這次實驗中,科學家總共用了55000段短鏈DNA,但DNA總質量還不到萬億分之一克。據計算,單1克的DNA就能存儲4.55×1020比特,倘若把這些信息刻成光盤,需要1000億張DVD。目前人類每年生產的全部數字信息,僅用4克DNA就可儲存。

不過,用DNA存儲跟同光盤存儲一樣有個缺點,那就是一旦製作成,就只能讀,不能寫。因此,這種辦法比較適用於需要長期備份保存的大容量數據,像我們電腦上寫文章,需要經常修改,那就沒必要用它來保存數據了。

目前,DNA存儲還有另兩個缺點,一個是費用比較昂貴,還有一個是刻錄和讀取都比較慢。比如這次為了刻這本書,科學家就用了好幾天。但隨著生物技術的發展,這兩個缺點未來都將會被克服。就拿基因測序的費用來說(因為DNA存儲和讀取都需要用到基因測序技術),2012年的費用僅是2001年的百萬分之一。

所以用DNA做超級硬碟,廉價、快速地存儲海量信息不是遙遠的夢想。