文生圖關(guān)鍵問題探索：個性化定制和效果評價（1）

發(fā)布人：AI科技大本營時間：2023-05-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

2021年初，OpenAI團隊提出了CLIP[1]模型并開源了模型權(quán)重，其核心點有三個：通過對比學習進行圖文匹配學習，開源CLIP模型權(quán)重和發(fā)布CLIP Benchmark評測。從此，文圖多模態(tài)領(lǐng)域開始收到廣泛關(guān)注并迅速發(fā)展。文生圖應(yīng)用最早出現(xiàn)的標志是OpenAI推出DALL· E[2]，自此各大公司開始不斷推出新的文生圖模型，實際生成效果和效率相對于從前基于自回歸（Auto Regressive)和對抗網(wǎng)絡(luò)（GAN）等文生圖方法均提升顯著。

DALL·E的應(yīng)用技術(shù)是Diffusion Model，主要用于生成圖像、音頻、文本等數(shù)據(jù)。它通過模擬數(shù)據(jù)的去噪過程來生成新的數(shù)據(jù)。與生成對抗網(wǎng)絡(luò)（GAN）相比，Diffusion models的生成過程更加穩(wěn)定，生成的數(shù)據(jù)也更加真實。Diffusion Model的發(fā)展如圖1所示：圖1 AIGC-Text to Image 的發(fā)展特別是從2022年5月Stable Diffusion[3]的開源開始，作為一個迅速火出圈的AI技術(shù)，Stable Diffusion以極快的速度獲得了大量的開源社區(qū)關(guān)注，開始引領(lǐng)AIGC行業(yè)發(fā)展。那么，為什么Stable Diffusion能夠這么快地火出圈？其根本還是在于生成的效果和效率非常高，極大地降低了創(chuàng)作的門檻，降低了創(chuàng)作的成本。這里列了Stable Diffusion的Discord上的幾個例子（見圖2），這些圖片都可以在Nvidia Tesla A100機器上通過3-4s的時間生成出來。圖2 Stable Diffusion在Discord上的案例
雖然Stable Diffusion取得了很大的成功，但其本身存在一些問題會影響生成效果。主要包括：

問題一：模型的機器評價與人工評價之間缺乏一致性。通過機器評價指標，比如FID值等，評價結(jié)果往往和真實的生成效果并不一致，因此不能很好地評價不同模型的效果。而人工評價標準難以統(tǒng)一并有高昂的成本。
問題二：如何在生成過程中實現(xiàn)更高效的控制。如何提高生成圖像和文本輸入之間的一致性，特別是在使用簡短的提示句來生成圖像時，目前難以有效地控制所生成圖片與文本之間的相關(guān)性程度。
問題三：如何進行定制個性化模型。如何定制一個文生圖模型，是行業(yè)應(yīng)用的關(guān)鍵?？焖俚倪M行新概念/風格/人物的學習，是文生圖落地到各應(yīng)用場景的第一個攔路虎。
問題四：高質(zhì)量文圖數(shù)據(jù)集的缺乏。數(shù)據(jù)的重要性不言而喻，大量高質(zhì)量的文圖數(shù)據(jù)是文生圖發(fā)展的血液，沒有數(shù)據(jù)再好的算法也發(fā)揮不了作用。

如何評價文生圖模型的效果

如何評價文生圖模型的效果是生成類模型面臨的共性問題之一。通常，生成類模型的評價分為機器評價和人工評價兩種。機器評價方法如Bleu等，人工評價如ChatGPT中的人工評價等。然而，機器評價結(jié)果不完全符合人工評價結(jié)果，因此高機器評價并不一定代表生成效果好。文生圖的模型評價也面臨同樣的問題，現(xiàn)在用于文生圖模型評價的機器評價指標比如FID值等指標的評價結(jié)果跟真實的圖片生成效果并不是一致，因此機器評價的結(jié)果并不能夠很好的評價不同的文生圖模型效果。但是，由于機器評價的便利性和客觀性等原因，還是有很多評價基準在采用機器評價指標。比如ArtBench，一個提供了很多不同藝術(shù)風格標注數(shù)據(jù)的數(shù)據(jù)集，也是用FID指標等機器評價方法來評價不同模型的效果。從ArtBench的評測結(jié)果中可以看到基于GAN模型生成的圖片可以獲得最高的FID值，說明GAN生成跟訓練數(shù)據(jù)同分布圖片的能力還是更強。但同時這種更強的生成能力也是一種限制，限制了GAN模型的泛化能力，使得GAN只偏向于生成更像訓練數(shù)據(jù)中的樣本。在2021年NeurIPS上刊載的OpenAI團隊的文章Diffusion Models Beat GANs on Image Synthesis[4]，指出了有引導的Diffusion 模型可以在各種機器評價指標上比GANs的效果更好。但就像前面提到的一樣，機器評價指標好就真的會生成更高質(zhì)量的圖片嗎？由此可以看出，人工評價可能是更加合適文生圖模型的評價方式。但是人工評價沒有統(tǒng)一的標準，成本比較高。文章Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark[5]提出了一套人工評價的標準。讓人從三種prompts的難度以及三種不同的task維度來對比不同的文生圖模型的圖片生成效果（見表1），比如SD和DALL-E 2。難度的定義用論文中的原文表述是：“In that case, the task may be easy: generating 1-3 objects, medium-generating 4-10 objects, and hard-generating more than ten objects.”表1 不同的文生圖模型的人工評測結(jié)果論文也給出了人工評價的結(jié)果，在數(shù)量（counting）和人臉（faces）兩個類別的任務(wù)上，DALL·E2占優(yōu)勢，而在形狀（shapes）這個類型的任務(wù)上，SD占優(yōu)勢。從篇文章給出的結(jié)果來看，現(xiàn)在的文生圖模型中的第一梯隊水平模型，在數(shù)量和形狀方面，還是明顯弱于人臉的生成任務(wù)的。因此，我們可以從這篇文章中總結(jié)出現(xiàn)在文生圖模型存在的語言理解的問題，特別是數(shù)量和形狀在理解能力上偏弱。文本理解能力可以通過更大更強的語言模型來解決，比如Google提出的Imagen[6]使用了更大的文本模型T5（Text-To-Text Transfer Transformer[7]），并在解碼和超分模型中都引入文本的信息來生成具有更豐富細節(jié)的圖片。為了評價文生圖模型的效果，Imagen團隊也同時提出了一個文生圖的評價基準DrawBench。該基準主要從兩個維度來評價文生圖的效果:image-text alignment和sample fidelity。其實驗指出，用T5作為文本編碼器的Imagen模型在這兩個維度上都有提升。但是，從上述實驗的結(jié)果可以得出，在Image框架下將文本編碼器從CLIP的文本塔換成T5，會有一定的alignment提升，但是不是特別明顯。所以更大的語言模型會帶來一定的alignment的提升，但是提升沒有預(yù)期的高。整體來看，文生圖模型的評價是AIGC繼續(xù)發(fā)展的基石,急需評價體系的建立。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

文生圖關(guān)鍵問題探索：個性化定制和效果評價（1）

相關(guān)推薦

技術(shù)專區(qū)