国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

EEPW首頁(yè) > 博客 > CVPR 2023 | 多個(gè)擴(kuò)散模型相互合作,新方法實(shí)現(xiàn)多模態(tài)人臉生成與編輯

CVPR 2023 | 多個(gè)擴(kuò)散模型相互合作,新方法實(shí)現(xiàn)多模態(tài)人臉生成與編輯

發(fā)布人:機(jī)器之心 時(shí)間:2023-05-20 來源:工程師 發(fā)布文章
本文提出了一種簡(jiǎn)單有效的方法來實(shí)現(xiàn)不同擴(kuò)散模型之間的合作。


近一兩年,擴(kuò)散模型 (diffusion models) 展現(xiàn)出了強(qiáng)大的生成能力。不同種類的擴(kuò)散模型性能各異 —— text-to-image 模型可以根據(jù)文字生成圖片,mask-to-image 模型可以從分割圖生成圖片,除此之外還有更多種類的擴(kuò)散模型,例如生成視頻、3D、motion 等等。
假如有一種方法讓這些 pre-trained 的擴(kuò)散模型合作起來,發(fā)揮各自的專長(zhǎng),那么我們就可以得到一個(gè)多功能的生成框架。比如當(dāng) text-to-image 模型與 mask-to-image 模型合作時(shí),我們就可以同時(shí)接受 text 和 mask 輸入,生成與 text 和 mask 一致的圖片了。
CVPR 2023 的 Collaborative Diffusion 提供了一種簡(jiǎn)單有效的方法來實(shí)現(xiàn)不同擴(kuò)散模型之間的合作。

圖片


  • 論文: https://arxiv.org/abs/2304.10530 
  • 代碼: https://github.com/ziqihuangg/Collaborative-Diffusion 
  • 網(wǎng)頁(yè): https://ziqihuangg.github.io/projects/collaborative-diffusion.html 
  • 視頻: https://www.youtube.com/watch?v=inLK4c8sNhc 


我們先看看不同擴(kuò)散模型合作生成圖片的效果:

圖片


當(dāng) text-to-image 和 mask-to-image 通過 Collaborative Diffusion 合作時(shí),生成的圖片可以達(dá)到和輸入的 text 以及 mask 高度一致。

圖片


給定不同的多模態(tài)輸入組合,Collaborative Diffusion 可以生成高質(zhì)量的圖片,而且圖片與多模態(tài)控制條件高度一致。即便多模態(tài)輸入是相對(duì)少見的組合,例如留長(zhǎng)頭發(fā)的男生,和留寸頭的女生,Collaborative Diffusion 依舊可以勝任。
那不同的擴(kuò)散模型究竟怎樣實(shí)現(xiàn)合作呢?
首先,我們知道,擴(kuò)散模型在生成圖片的過程中,會(huì)從高斯噪聲開始,逐步去噪,最終得到自然圖像。

圖片

圖片來源:CVPR 2022 Tutorial: Denoising Diffusion-based Generative Modeling: Foundations and Applications
基于擴(kuò)散模型迭代去噪的性質(zhì),我們的 Collaborative Diffusion 在去噪的每一步都會(huì)動(dòng)態(tài)地預(yù)測(cè)不同的擴(kuò)散模型如何有效合作,各取所長(zhǎng)。Collaborative Diffusion 的基本框架如下圖所示。

圖片


我們?cè)诿恳徊饺ピ霑r(shí),用 Dynamic Diffusers 動(dòng)態(tài)地預(yù)測(cè)每個(gè)擴(kuò)散模型對(duì)整體預(yù)測(cè)結(jié)果帶來的影響(也就是 Influence Functions)。Influence Functions 會(huì)選擇性地增強(qiáng)或者減少某個(gè)擴(kuò)散模型的貢獻(xiàn),從而讓各位合作者(也就是擴(kuò)散模型)發(fā)揮專長(zhǎng),實(shí)現(xiàn)合作共贏。
值得注意的是,預(yù)測(cè)得到的 Influence Functions 在時(shí)間和空間上都是適應(yīng)性變化的。下圖展示了 mask-to-image 和 text-to-image 模型合作時(shí),在不同時(shí)間和空間位置的 Influence Functions 強(qiáng)度。

圖片


從上圖中我們可以觀察到,在時(shí)間上,決定 mask-to-image 模型影響的 Influence Functions 在去噪初期很強(qiáng)(第一行左邊),到后期逐漸變?nèi)酰ǖ谝恍杏疫叄?,這是因?yàn)閿U(kuò)散模型在去噪初期會(huì)首先形成圖片內(nèi)容的布局,到后期才會(huì)逐漸生成紋路和細(xì)節(jié);而在多模態(tài)控制人臉生成時(shí),圖片的布局信息主要是由 mask 提供的,因此 mask 分支的 Influence Functions 會(huì)隨著時(shí)間由強(qiáng)變?nèi)酢Ec之相對(duì)應(yīng)地 text-to-image 模型的 Influence Functions(第二行)會(huì)隨著時(shí)間由弱到強(qiáng),因?yàn)?text 提供的多數(shù)信息是與細(xì)節(jié)紋路相關(guān)的,例如胡子的濃密程度,頭發(fā)顏色,以及與年齡相關(guān)的皮膚皺紋,而擴(kuò)散模型的去噪過程也是在后期才會(huì)逐步確定圖片的紋理以及細(xì)節(jié)。
與此同時(shí),在空間上,mask-to-image 模型的 Influence 在面部區(qū)域分界處更強(qiáng),例如面部輪廓和頭發(fā)的外邊緣,因?yàn)檫@些地方對(duì)整體面部布局是至關(guān)重要的。text-to-image 模型的 Influence 則在面中,尤其是臉頰和胡子所在的區(qū)域較強(qiáng),因?yàn)檫@些區(qū)域的紋理需要 text 提供的年齡,胡子等信息來填充。
Collaborative Diffusion 的通用性
Collaborative Diffusion 是一個(gè)通用框架,它不僅適用于圖片生成,還可以讓 text-based editing 和 mask-based editing 方法合作起來。我們利用在生成任務(wù)上訓(xùn)練的 Dynamic Diffusers 來預(yù)測(cè) Influence Functions,并將其直接用到 editing 中。如下圖所示:

圖片


圖片


圖片


圖片


完整的實(shí)驗(yàn)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果,以及更多圖片結(jié)果,請(qǐng)參考論文。
總結(jié)
(1) 我們提出了 Collaborative Diffusion,一種簡(jiǎn)單有效的方法來實(shí)現(xiàn)不同擴(kuò)散模型之間的合作。(2) 我們充分利用擴(kuò)散模型的迭代去噪性質(zhì),設(shè)計(jì)了 Dynamic Diffuser 來預(yù)測(cè)在時(shí)間和空間上均有適應(yīng)性的 Influence Functions 來控制不同的擴(kuò)散模型如何合作。(3) 我們實(shí)現(xiàn)了高質(zhì)量的多模態(tài)控制的人臉生成和編輯。(4) Collaborative Diffusion 是一個(gè)通用的框架,不僅適用于圖片生成,還適用于圖片編輯,以及未來更多的基于擴(kuò)散模型的其他任務(wù)。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉