【手機(jī)中國(guó)新聞】使用后期制作軟件,在場(chǎng)景中真實(shí)地放置東西對(duì)計(jì)算機(jī)來(lái)說(shuō),比對(duì)人來(lái)說(shuō)要困難得多。它不僅要求為所述對(duì)象確定適當(dāng)?shù)奈恢?,而且要求預(yù)測(cè)目標(biāo)位置上的對(duì)象的外觀、比例、遮擋、姿態(tài)、形狀等。
幸運(yùn)的是,人工智能(AI)承諾提供幫助。NeurIPS 2018會(huì)議上的一篇論文中(上下文感知合成和匹配對(duì)象實(shí)例),首爾國(guó)立大學(xué)的研究人員,加州大學(xué)默塞德,和谷歌AI描述一個(gè)系統(tǒng),學(xué)會(huì)把一個(gè)對(duì)象插入一個(gè)圖像,在語(yǔ)義上,令人信服 。
在符合場(chǎng)景語(yǔ)義的圖像中插入對(duì)象是一項(xiàng)具有挑戰(zhàn)性和趣味性的任務(wù)。研究人員寫(xiě)道,這項(xiàng)任務(wù)與許多實(shí)際應(yīng)用密切相關(guān),包括圖像合成、AR和VR內(nèi)容編輯。這樣的對(duì)象插入模型可以潛在地促進(jìn)許多圖像編輯和場(chǎng)景解析應(yīng)用程序。
他們的端到端框架包括兩個(gè)模塊,決定了插入的對(duì)象,應(yīng)該是和第二個(gè)決定它應(yīng)該是什么樣子,利用甘斯( GANs),或兩個(gè)神經(jīng)網(wǎng)絡(luò)組成,試圖區(qū)分生成的樣本和實(shí)際樣品。由于系統(tǒng)同時(shí)對(duì)插入的圖像進(jìn)行分布建模,因此兩個(gè)模塊可以相互互通并優(yōu)化。
該論文的作者寫(xiě)道,這項(xiàng)工作的主要技術(shù)新穎之處在于,它構(gòu)建了一個(gè)端到端的可培訓(xùn)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以從新對(duì)象的聯(lián)合分布中對(duì)其可能的位置和形狀進(jìn)行采樣。合成的對(duì)象實(shí)例既可以作為基于GAN的方法的輸入,也可以從現(xiàn)有數(shù)據(jù)集中檢索最近的所需部分,從而生成新的圖像。
正如他們解釋的那樣,在這種情況下,生成器可以預(yù)測(cè)合理的位置,生成語(yǔ)義上一致的比例、姿勢(shì)和形狀的對(duì)象掩碼,特別是對(duì)象如何在場(chǎng)景中分布,以及如何自然地插入對(duì)象,以便使其看起來(lái)是場(chǎng)景的一部分。隨著時(shí)間的推移,在訓(xùn)練過(guò)程中,AI系統(tǒng)會(huì)根據(jù)場(chǎng)景學(xué)習(xí)不同的對(duì)象類(lèi)別分布,例如在城市街道的圖像中,人們往往在人行道上,而汽車(chē)通常在路上。
在測(cè)試中,研究人員通過(guò)插入形狀逼真的物體,使模型優(yōu)于基線。當(dāng)將YOLOv3圖像識(shí)別器應(yīng)用于人工智能生成的圖像時(shí),檢測(cè)合成目標(biāo)能夠以0.79的召回率。更能說(shuō)明問(wèn)題的是,在對(duì)亞馬遜的(Mechanical Turk)公司員工進(jìn)行的一項(xiàng)調(diào)查中,43%的人認(rèn)為人工智能生成的物體是真實(shí)的。
研究人員寫(xiě)道,這表明我們的方法能夠執(zhí)行對(duì)象合成和插入任務(wù)。由于我們的方法是在什么地方和什么東西上聯(lián)合建模的,因此可以用于解決其它計(jì)算機(jī)視覺(jué)問(wèn)題。未來(lái)有趣的工作之一將是處理對(duì)象之間的遮擋。
關(guān)于CNMO | 聯(lián)系我們 | 站點(diǎn)地圖 | 精英招聘 | CNMO記事 | 家長(zhǎng)監(jiān)護(hù)工程 | 舉報(bào)不良信息
Copyright © 2007 -
北京沃德斯瑪特網(wǎng)絡(luò)科技有限責(zé)任公司.All rights reserved 發(fā)郵件給我們
京ICP證-070681號(hào) 京ICP備09081256號(hào) 京公網(wǎng)安備 11010502036320號(hào)