尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
導讀:以假亂真的圖片生成技術來源於一種左右互博術——生成對抗網路(GAN)。這一概念由機器學習研究者Ian Goodfellow在2014年提出。
之所以叫「生成」是因為該模型的輸出為圖像一類的信息,而非與輸入數據相關的預測值(比如「該圖像是否是根熱狗」的預測);「對抗網路」則是因為該模型使用兩組貓鼠遊戲一般相互競爭的神經網路,就像收銀員和偽造者鬥智鬥勇一樣:一方試圖欺騙另一方認為它拿的真實鈔票,而另一方則試圖區分鈔票的真偽。
編譯:張秋玥、蔣寶尚
來源:大數據文摘(ID:BigDataDigest)
你能看出上面兩張圖片,哪張是真的,哪張是假的麼?
其實,最開始的那一批生成對抗網路(GAN)圖像很容易就能被發現不是真實照片。
比如2014年的這些圖片:
▲Radford等,2014,無監督代表學習與深度卷積生成對抗網路(也被縮寫為DCGAN)
但2017年10月發布的最新GAN生成圖像就不那麼好區分了:
▲Karras等,2017,改進質量、穩定性與變化程度的GAN網路(也被縮寫為PGAN或ProGAN)
如何識別出GAN生成的圖像?應該著重強調臉部的問題,因為絕大多數研究者們都是使用人臉圖像來進行試驗的,並且許多人臉圖像中會出現的問題經常也會在其他類型圖像中出現。
以下是識別虛假圖像的幾個要點:
01 看似畫筆塗上的直發
長髮很容易出現這種超級直的效果——只有一小把的話看起來其實還挺好的,但一大把直發看起來就像是有人用畫刀或者大筆刷塗了一把丙烯酸顏料上去一樣。
02 難以辨認的文字
訓練於生成人臉的GAN模型不太能夠抓住背景中的複雜結構。此外,GAN模型同時顯示訓練數據的原始與鏡像版本,這意味著他們不太能夠抓住文字的特徵因為它一般只在單一方向出現。
03 超現實風格背景
GAN模型生成人臉很可信的一個原因就是,所有的訓練數據都被歸一化了。這意味著,當涉及到例如眼睛與耳朵的位置與渲染問題時,GAN模型的可變度會很小。另一方面,背景則可以包含任何內容了。對於GAN模型來說,模擬出一個像樣的背景實在有些過分了——他們最終一般就復制出一般性的紋理樣背景,而非「真實」場景。
04 不對稱性
GAN模型有時很難處理圖像中的長距離依賴性。盡管在訓練數據中耳環一類的配飾通常都是成對出現,生成圖像中通常並非如此。還有這種情況:人眼通常看向同一方向並呈現相同顏色,但生成圖像中的眼睛經常是對對眼,還可以是異瞳色呢。高度或大小非常不匹配的耳朵也是一種常見的不對稱性。
05 奇怪的牙齒
GAN模型能夠勝任生成一般性的場景,但目前為止它還不太能夠搞定半規則重復細節問題,比如牙齒。有時GAN模型會產生錯位牙齒,或者以很奇怪的方式拉伸或收縮單個牙齒。這個問題在其他領域也出現過,比如磚類圖像的紋理合成問題。
06 凌亂的頭髮
這是識別GAN生成圖像最快方法之一。通常情況下,GAN會讓頭髮看起來盤曲打結,在肩膀周圍隨機形成一縷一縷的發束,並在額頭上留下厚厚的雜散毛發。髮型可以非常多變,還可以擁有許多細節,因此它是最難以用GAN捕捉的特徵之一。非毛發類物體有時甚至可以被變成頭髮狀紋理。
07 安能辨我是雄雌
這個GAN模型是在CelebA數據集的一個子集上訓練的,其中包含約一萬個名人的20萬張人臉圖像。在這個數據集中,我沒有見到有誰有臉部毛發,耳環或者化妝;但GAN模型還是經常分不清不同性別特徵。更一般地說,我覺得這是因為GAN模型並不總是學習人類社會所強調的二元論(比如這里的「非男即女」)。
08 半規則噪聲
有些本應當為單色的區域可能會出現具有水平或垂直條帶的半規則噪聲。在本例中,可能是因為模型在試圖模仿布料的質地。舊一點的GAN模型一般噪聲模式更明顯,我們稱之為「棋盤效應」(Checkerboard Artifacts)。
棋盤效應:
https://distill.pub/2016/deconv-checkerboard/
09 染色問題
一些顏色較淺並且為純色的區域可能會出現多色調染色問題,比如衣領、脖子與眼白(未在本例出現)。
10 真實圖像的例子
看看這些清晰的背景文字,對稱的耳環,大小相同的牙齒以及細節豐富的髮型。學習完以上這些小技巧後你可以試試玩一些小遊戲,來看你是不是真的能夠區分真假圖片啦。
遊戲:
http://nikola.mit.edu/experiment
相關報導:
https://medium.com/@kcimc/how-to-recognize-fake-ai-generated-images-4d1f6f9a2842
▼
Q:你還分得清真臉假臉嗎?
轉載 / 投稿請聯繫:[email protected]