CVPR 2023 | 多個(gè)擴(kuò)散模型相互合作，新方法實(shí)現(xiàn)多模態(tài)人臉生成與編輯

發(fā)布人：機(jī)器之心時(shí)間：2023-05-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

本文提出了一種簡(jiǎn)單有效的方法來實(shí)現(xiàn)不同擴(kuò)散模型之間的合作。

近一兩年，擴(kuò)散模型 (diffusion models) 展現(xiàn)出了強(qiáng)大的生成能力。不同種類的擴(kuò)散模型性能各異 —— text-to-image 模型可以根據(jù)文字生成圖片，mask-to-image 模型可以從分割圖生成圖片，除此之外還有更多種類的擴(kuò)散模型，例如生成視頻、3D、motion 等等。
假如有一種方法讓這些 pre-trained 的擴(kuò)散模型合作起來，發(fā)揮各自的專長(zhǎng)，那么我們就可以得到一個(gè)多功能的生成框架。比如當(dāng) text-to-image 模型與 mask-to-image 模型合作時(shí)，我們就可以同時(shí)接受 text 和 mask 輸入，生成與 text 和 mask 一致的圖片了。
CVPR 2023 的 Collaborative Diffusion 提供了一種簡(jiǎn)單有效的方法來實(shí)現(xiàn)不同擴(kuò)散模型之間的合作。

論文: https://arxiv.org/abs/2304.10530
代碼: https://github.com/ziqihuangg/Collaborative-Diffusion
網(wǎng)頁(yè): https://ziqihuangg.github.io/projects/collaborative-diffusion.html
視頻: https://www.youtube.com/watch?v=inLK4c8sNhc

我們先看看不同擴(kuò)散模型合作生成圖片的效果：

當(dāng) text-to-image 和 mask-to-image 通過 Collaborative Diffusion 合作時(shí)，生成的圖片可以達(dá)到和輸入的 text 以及 mask 高度一致。

給定不同的多模態(tài)輸入組合，Collaborative Diffusion 可以生成高質(zhì)量的圖片，而且圖片與多模態(tài)控制條件高度一致。即便多模態(tài)輸入是相對(duì)少見的組合，例如留長(zhǎng)頭發(fā)的男生，和留寸頭的女生，Collaborative Diffusion 依舊可以勝任。
那不同的擴(kuò)散模型究竟怎樣實(shí)現(xiàn)合作呢？
首先，我們知道，擴(kuò)散模型在生成圖片的過程中，會(huì)從高斯噪聲開始，逐步去噪，最終得到自然圖像。

圖片來源：CVPR 2022 Tutorial: Denoising Diffusion-based Generative Modeling: Foundations and Applications
基于擴(kuò)散模型迭代去噪的性質(zhì)，我們的 Collaborative Diffusion 在去噪的每一步都會(huì)動(dòng)態(tài)地預(yù)測(cè)不同的擴(kuò)散模型如何有效合作，各取所長(zhǎng)。Collaborative Diffusion 的基本框架如下圖所示。

我們?cè)诿恳徊饺ピ霑r(shí)，用 Dynamic Diffusers 動(dòng)態(tài)地預(yù)測(cè)每個(gè)擴(kuò)散模型對(duì)整體預(yù)測(cè)結(jié)果帶來的影響（也就是 Influence Functions）。Influence Functions 會(huì)選擇性地增強(qiáng)或者減少某個(gè)擴(kuò)散模型的貢獻(xiàn)，從而讓各位合作者（也就是擴(kuò)散模型）發(fā)揮專長(zhǎng)，實(shí)現(xiàn)合作共贏。
值得注意的是，預(yù)測(cè)得到的 Influence Functions 在時(shí)間和空間上都是適應(yīng)性變化的。下圖展示了 mask-to-image 和 text-to-image 模型合作時(shí)，在不同時(shí)間和空間位置的 Influence Functions 強(qiáng)度。

從上圖中我們可以觀察到，在時(shí)間上，決定 mask-to-image 模型影響的 Influence Functions 在去噪初期很強(qiáng)（第一行左邊），到后期逐漸變?nèi)酰ǖ谝恍杏疫叄?，這是因?yàn)閿U(kuò)散模型在去噪初期會(huì)首先形成圖片內(nèi)容的布局，到后期才會(huì)逐漸生成紋路和細(xì)節(jié)；而在多模態(tài)控制人臉生成時(shí)，圖片的布局信息主要是由 mask 提供的，因此 mask 分支的 Influence Functions 會(huì)隨著時(shí)間由強(qiáng)變?nèi)酢Ｅc之相對(duì)應(yīng)地 text-to-image 模型的 Influence Functions（第二行）會(huì)隨著時(shí)間由弱到強(qiáng)，因?yàn)?text 提供的多數(shù)信息是與細(xì)節(jié)紋路相關(guān)的，例如胡子的濃密程度，頭發(fā)顏色，以及與年齡相關(guān)的皮膚皺紋，而擴(kuò)散模型的去噪過程也是在后期才會(huì)逐步確定圖片的紋理以及細(xì)節(jié)。
與此同時(shí)，在空間上，mask-to-image 模型的 Influence 在面部區(qū)域分界處更強(qiáng)，例如面部輪廓和頭發(fā)的外邊緣，因?yàn)檫@些地方對(duì)整體面部布局是至關(guān)重要的。text-to-image 模型的 Influence 則在面中，尤其是臉頰和胡子所在的區(qū)域較強(qiáng)，因?yàn)檫@些區(qū)域的紋理需要 text 提供的年齡，胡子等信息來填充。
Collaborative Diffusion 的通用性
Collaborative Diffusion 是一個(gè)通用框架，它不僅適用于圖片生成，還可以讓 text-based editing 和 mask-based editing 方法合作起來。我們利用在生成任務(wù)上訓(xùn)練的 Dynamic Diffusers 來預(yù)測(cè) Influence Functions，并將其直接用到 editing 中。如下圖所示：

完整的實(shí)驗(yàn)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果，以及更多圖片結(jié)果，請(qǐng)參考論文。
總結(jié)
(1) 我們提出了 Collaborative Diffusion，一種簡(jiǎn)單有效的方法來實(shí)現(xiàn)不同擴(kuò)散模型之間的合作。(2) 我們充分利用擴(kuò)散模型的迭代去噪性質(zhì)，設(shè)計(jì)了 Dynamic Diffuser 來預(yù)測(cè)在時(shí)間和空間上均有適應(yīng)性的 Influence Functions 來控制不同的擴(kuò)散模型如何合作。(3) 我們實(shí)現(xiàn)了高質(zhì)量的多模態(tài)控制的人臉生成和編輯。(4) Collaborative Diffusion 是一個(gè)通用的框架，不僅適用于圖片生成，還適用于圖片編輯，以及未來更多的基于擴(kuò)散模型的其他任務(wù)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

CVPR 2023 | 多個(gè)擴(kuò)散模型相互合作，新方法實(shí)現(xiàn)多模態(tài)人臉生成與編輯

相關(guān)推薦

技術(shù)專區(qū)

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

CVPR 2023 | 多個(gè)擴(kuò)散模型相互合作，新方法實(shí)現(xiàn)多模態(tài)人臉生成與編輯

相關(guān)推薦

技術(shù)專區(qū)

CVPR 2023 | 多個(gè)擴(kuò)散模型相互合作，新方法實(shí)現(xiàn)多模態(tài)人臉生成與編輯