OpenAI新模型曝光:給它半張圖片,能夠猜測(cè)補(bǔ)全
如今,該實(shí)驗(yàn)室正在探索若在相同的算法中輸入某張圖片的一部分會(huì)發(fā)生什么。在本周的機(jī)器學(xué)習(xí)國(guó)際會(huì)議(ICML 2020)上,這一研究成果獲得了最佳論文的榮譽(yù)稱號(hào),為圖像生成開辟了一條新的路徑。
GPT-2 的核心其實(shí)是一個(gè)強(qiáng)大的預(yù)測(cè)引擎。它通過查看從互聯(lián)網(wǎng)各處搜索得來的數(shù)十億單詞、句子和段落,學(xué)習(xí)并掌握了英語這門語言的結(jié)構(gòu)。掌握了這一結(jié)構(gòu),GPT-2 就可以從統(tǒng)計(jì)學(xué)的角度預(yù)測(cè)單詞出現(xiàn)的順序,從而操縱單詞,將不同的單詞組成新的句子。
因此,OpenAI 的研究人員決定將單詞換成像素,在 ImageNet(最受歡迎的深度學(xué)習(xí)圖像庫)上用圖片訓(xùn)練相同的算法。由于該算法最初是為處理一維數(shù)據(jù)(例如文本字符串)而設(shè)計(jì)的,于是研究人員將圖片展開為單像素序列。他們將新模型命名為 iGPT,發(fā)現(xiàn)它可以理解視覺世界的二維結(jié)構(gòu)。提供給該模型某張圖片上半部分的像素序列,它就可以合乎情理地預(yù)測(cè)出圖片的下半部分。
iGPT 的這一訓(xùn)練結(jié)果讓人非常吃驚,它展示了開發(fā)計(jì)算機(jī)視覺系統(tǒng)的一條新路徑,即利用在無人為標(biāo)簽的數(shù)據(jù)上進(jìn)行訓(xùn)練的無監(jiān)督學(xué)習(xí)。事實(shí)上,2005 年左右,早期的計(jì)算機(jī)視覺系統(tǒng)就曾試用過這一技術(shù),但由于當(dāng)時(shí)使用人為標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí)更為成功,這一技術(shù)就遭到了冷落。但是,無監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)就在于 AI 系統(tǒng)可以在沒有人工過濾器的前提下去了解世界,大大減少了標(biāo)記數(shù)據(jù)的體力勞動(dòng)。
iGPT 與 GPT-2 使用相同算法的,這一事實(shí)也顯示了 iGPT 具有良好的適應(yīng)能力。這也與 OpenAI 的最終目標(biāo)一致,即創(chuàng)造出更通用的機(jī)器智能。
同時(shí),該方法為生成深度偽造圖片提供了一種新思路。在過去,生成式對(duì)抗網(wǎng)絡(luò)(GAN)是生成深度偽造圖片最常用的算法類別,必須用高度精確的數(shù)據(jù)進(jìn)行訓(xùn)練。例如,若想用 GAN 生成一張臉,那么訓(xùn)練的數(shù)據(jù)也只能是臉。相反,iGPT 通過數(shù)百萬和數(shù)十億的圖片學(xué)習(xí)了視覺世界的結(jié)構(gòu),從而可以生成極有可能真實(shí)存在的圖片。雖然從計(jì)算層面上來看,訓(xùn)練這一模型成本太過昂貴,為其進(jìn)入圖像庫設(shè)下了一道天然的屏障,但這一問題在不久的將來很快就可以得到解決。 OpenAI 沒有接受采訪,但在《麻省理工科技評(píng)論》去年參加的一次內(nèi)部政策小組會(huì)議上,其政策總監(jiān)杰克·克拉克(Jack Clark)對(duì) GPT 式生成模型未來存在的風(fēng)險(xiǎn)進(jìn)行了思考,包括將其應(yīng)用于圖像領(lǐng)域會(huì)發(fā)生什么。他基于自身所見,預(yù)測(cè)了該領(lǐng)域的研究軌跡走向并說到,“很快會(huì)應(yīng)用到視頻。大概再過 5 年,就可以在 5 到 10 秒的間隔內(nèi)完成條件視頻生成?!苯又枋隽俗约合胂蟮那榫埃狠斎胍粡堈偷恼掌?,照片上政客的旁邊發(fā)生了爆炸,該模型就很可能輸出該政客被謀殺的信息。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。