更實用 Google人工智能可對圖像插入對象

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

【手機中國新聞】使用後期製作軟件,在場景中真實地放置東西對計算機來說,比對人來說要困難得多。它不僅要求為所述對象確定適當的位置,而且要求預測目標位置上的對象的外觀、比例、遮擋、姿態、形狀等。

幸運的是,人工智能(AI)承諾提供幫助。NeurIPS 2018會議上的一篇論文中(上下文感知合成和匹配對象實例),首爾國立大學的研究人員,加州大學默塞德,和GoogleAI描述一個系統,學會把一個對象插入一個圖像,在語義上,令人信服 。

在符合場景語義的圖像中插入對象是一項具有挑戰性和趣味性的任務。研究人員寫道,這項任務與許多實際應用密切相關,包括圖像合成、AR和VR內容編輯。這樣的對象插入模型可以潛在地促進許多圖像編輯和場景解析應用程序。

他們的端到端框架包括兩個模塊,決定了插入的對象,應該是和第二個決定它應該是什麼樣子,利用甘斯( GANs),或兩個神經網路組成,試圖區分生成的樣本和實際樣品。由於系統同時對插入的圖像進行分布建模,因此兩個模塊可以相互互通並優化。

更實用 谷歌人工智能可對圖像插入對象

人工智能

該論文的作者寫道,這項工作的主要技術新穎之處在於,它構建了一個端到端的可培訓神經網路,該網路可以從新對象的聯合分布中對其可能的位置和形狀進行采樣。合成的對象實例既可以作為基於GAN的方法的輸入,也可以從現有數據集中檢索最近的所需部分,從而生成新的圖像。

正如他們解釋的那樣,在這種情況下,生成器可以預測合理的位置,生成語義上一致的比例、姿勢和形狀的對象掩碼,特別是對象如何在場景中分布,以及如何自然地插入對象,以便使其看起來是場景的一部分。隨著時間的推移,在訓練過程中,AI系統會根據場景學習不同的對象類別分布,例如在城市街道的圖像中,人們往往在人行道上,而汽車通常在路上。

在測試中,研究人員通過插入形狀逼真的物體,使模型優於基線。當將YOLOv3圖像識別器應用於人工智能生成的圖像時,檢測合成目標能夠以0.79的召回率。更能說明問題的是,在對亞馬遜的(Mechanical Turk)公司員工進行的一項調查中,43%的人認為人工智能生成的物體是真實的。

研究人員寫道,這表明我們的方法能夠執行對象合成和插入任務。由於我們的方法是在什麼地方和什麼東西上聯合建模的,因此可以用於解決其它計算機視覺問題。未來有趣的工作之一將是處理對象之間的遮擋。

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!