国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 領(lǐng)會(huì)AI圖像的生成過(guò)程:去蕪存菁

領(lǐng)會(huì)AI圖像的生成過(guò)程:去蕪存菁

作者:高煥堂 時(shí)間:2025-04-07 來(lái)源:EEPW 收藏


本文引用地址:http://www.ljygm.com/article/202504/469077.htm

1   巔峰的美學(xué)思維:去蕪存菁

當(dāng)今典型的AI 圖像生成過(guò)程是:去蕪存菁。例如,SD(Stable Diffusion) 訓(xùn)練模型去萃取噪聲(Noise),然后把它刪去。就如同偉大的雕塑家羅丹(Auguste Rodin)曾說(shuō)過(guò):“我只是把多余的石頭刪去而已”。這是培養(yǎng)創(chuàng)意的非常有效的學(xué)習(xí)途徑。

1743993033781852.png

圖1 羅丹的雕塑作品:沉思者

綜觀AIGC 領(lǐng)域里,最近幾個(gè)很紅的圖像模型,例如:DALLE、SD 和Sora 等,它們都是基于一種機(jī)制:擴(kuò)散(Diffusion)。并且將其擴(kuò)散模型轉(zhuǎn)化為隱藏?cái)U(kuò)散模型(LDM,Latent diffusion models)。它有三項(xiàng)特點(diǎn):

1)經(jīng)由模型訓(xùn)練(Training),操作隱藏空間向量,加上隨機(jī)輸入中合成新的向量數(shù)據(jù),呈現(xiàn)出令人驚奇的組合創(chuàng)新,大大提升了AI 繪畫的創(chuàng)作能力。

2)經(jīng)由空間對(duì)映(Space-mapping),把模型從從可觀察空間,降維對(duì)映到低維的隱藏空間里。于是提高了模型的運(yùn)算效率,這項(xiàng)創(chuàng)新的隱藏空間圖像生成,就推動(dòng)了AIGC 技術(shù)的突飛猛進(jìn)。

3)當(dāng)運(yùn)算效能提高了,就直接支持巔峰的美學(xué)思維:去蕪存菁。

于是,AIGC繪畫就基于隱藏空間( 簡(jiǎn)稱:隱空間)來(lái)進(jìn)行探索、操作及創(chuàng)新組合;進(jìn)而能夠幫助大眾繪出各種天馬行空的畫作。例如,Sora應(yīng)用于生成動(dòng)畫時(shí),可以對(duì)隱藏空間中的一個(gè)點(diǎn)進(jìn)行采樣并逐步改變潛在向量表示。其中每個(gè)采樣點(diǎn)都被轉(zhuǎn)交給譯碼器(Decoder)生成組合的幀(Frames) 存儲(chǔ)在最終動(dòng)畫或視頻中。最后,這些高質(zhì)量的幀連續(xù)播放出來(lái),就成為很連貫的動(dòng)畫視頻了。

2   機(jī)器學(xué)習(xí)(ML)的新典范

傳統(tǒng)的機(jī)器學(xué)習(xí)是讓AI模型(如GAN),好好畫鯉魚、烏龜、青蛙等。然而,新潮的AI 模型( 如SD、Sora等 ) 已經(jīng)用心訓(xùn)練自己認(rèn)識(shí)水、雜草、灰塵等不必要的多余部分,然后刪掉它們。就如同一個(gè)池塘,AI學(xué)習(xí)把池塘中的水、草、垃圾等雜質(zhì)刪去,各種魚就皆躍然于眼中了。

在傳統(tǒng)分辨式AI 時(shí)代,人們大多關(guān)注于AI 模型的輸出結(jié)果,而把中間隱藏層( 即隱空間) 視為黑箱(Black-box),而不特別去關(guān)注它。如今到了新潮的生成式AI時(shí)代,大家就非常關(guān)注這黑箱( 隱空間) 的內(nèi)涵,而用心觀察它、操作它、拿它來(lái)分析,成為主導(dǎo)創(chuàng)新、生成內(nèi)容的源頭。

由于擴(kuò)散(Diffusion) 是一項(xiàng)物理學(xué)的原理,不是人為的模擬算法,所以它可能會(huì)很持久,并深深影響AI繪圖、影視、游戲的生成過(guò)程。此外,基于擴(kuò)散 的機(jī)器學(xué)習(xí)(ML) 范式(Paradigm) 正表達(dá)了人類藝術(shù)創(chuàng)作潛能發(fā)揮的極致完美境界。它是一項(xiàng)逼近人類藝術(shù)創(chuàng)作巔峰的美學(xué)思維:去蕪存菁。也就是羅丹所說(shuō)的:把不必要的部分刪掉。

上述機(jī)器學(xué)習(xí)的隱空間(Latent space) 是源自于模仿棋士心中的:無(wú)招世界。一般而言,大數(shù)據(jù)( 如Picasso畫作) 都是看得見的有招世界,而人或電腦從有招世界的大數(shù)據(jù)中學(xué)習(xí)( 歸納、抽象),而沉淀于內(nèi)心深處( 即隱空間) 即是:無(wú)招世界。這項(xiàng)人們心中的無(wú)招世界確實(shí)存在的。如今計(jì)算機(jī)如何仿真它,其技術(shù)仍在日新月異演進(jìn)之中。

于是,我們可以從無(wú)招世界來(lái)領(lǐng)會(huì)為什么AI 會(huì)創(chuàng)作呢?當(dāng)今AI 是基于機(jī)器學(xué)習(xí),它會(huì)學(xué)習(xí)人類的做事、創(chuàng)物的經(jīng)驗(yàn)直覺。然而,人類經(jīng)驗(yàn)直覺的邏輯是不清晰的,通常無(wú)法經(jīng)由程序語(yǔ)言來(lái)寫成代碼。那我們?cè)撊绾伟讶祟惖闹庇X智慧弄進(jìn)去機(jī)器(AI) 呢?

答案是:從人類的作品( 如繪畫、音樂、文學(xué)作品、食譜、游戲、對(duì)話、網(wǎng)絡(luò)文章) 中學(xué)習(xí)作品的形式、風(fēng)格、情緒等。這些作品放到網(wǎng)絡(luò)上,皆成為大數(shù)據(jù)(Big Data)。于是,我們就拿這些大數(shù)據(jù)來(lái)給AI 學(xué)習(xí),謂之:訓(xùn)練。

AI 從人類作品中學(xué)習(xí)到人類專家( 創(chuàng)作者) 的招式(Patterns ) 和風(fēng)格(Style )。如同金庸武俠中的楊過(guò)、小龍女向大俠們學(xué)習(xí)了許多武功招式。經(jīng)年累月,楊過(guò)和小龍女,學(xué)而時(shí)習(xí)之,逐漸地在內(nèi)心深處沉淀出招式背后的精華神韻,謂之:無(wú)招秘境。一樣地,AI 經(jīng)過(guò)幾十天( 上億回合) 的學(xué)習(xí)大量作品的創(chuàng)作招式和風(fēng)格,逐漸地在AI 模型內(nèi)部的秘境中沉淀出招式背后的精華神韻,這個(gè)AI 中的無(wú)招秘境( 即隱空間)。

武俠中上說(shuō):無(wú)中生有,從無(wú)招中生出千變?nèi)f化,無(wú)招勝有招。 一樣地,AI 也能從其無(wú)招秘境中的精華神韻,生出千變?nèi)f化的新招式,也就是新作品、新內(nèi)容(Content )。這種新創(chuàng)作新內(nèi)容,就謂之:生成式AI(AIGC)。

生成式AI 模型,是基于模型的隱空間變量(Latent variable ) 的機(jī)率分布而抽樣(Sampling)來(lái)生成。俗語(yǔ)說(shuō):從有招到無(wú)招,無(wú)招勝有招。上述的可觀察空間即是有招空間,人類可以理解該空間里的數(shù)據(jù)涵意。而相對(duì)地,上述的隱空間就是無(wú)招空間,它是AI 創(chuàng)造出來(lái)的低維向量空間,人類通常無(wú)法理解其數(shù)據(jù)的涵意,所以稱為:隱空間。它是千變?nèi)f化AIGC 創(chuàng)作魅力的源頭。

3   以SD(Stable Diffusion)為例

在AI 潮流中,SD 是AIGC 圖像生成發(fā)展歷程中的一個(gè)里程碑,提供了高性能模型,能快速生成創(chuàng)意十足的圖像。在SD 的隱空間里,它使用了一個(gè)UNet 模型,并搭配一個(gè)時(shí)間調(diào)度(Scheduling) 器,來(lái)?yè)?dān)任圖像生成的核心任務(wù)。而擴(kuò)散一詞則描述了SD 潛在空間里進(jìn)行的圖像生成情形,整個(gè)過(guò)程都是在隱空間里逐步推進(jìn)。SD 的基本架構(gòu)是:

1)SD 的基礎(chǔ)模型是AE(Autoencoder),我們輸入圖像給AE,并訓(xùn)練它生成幾乎一樣的圖片;

2)從AE 衍生出UNet,對(duì)圖像如上噪音,使圖像變得模糊,再輸入給UNet,訓(xùn)練它有能力預(yù)測(cè)噪音,然后去除噪音,生成與原圖幾乎一樣的圖像;

3)上述的”對(duì)圖像如上噪音,使圖像變得模糊”的擴(kuò)散工作是很關(guān)鍵的,把這項(xiàng)添加噪音( 即擴(kuò)大)的工作也交給AI去做, 就成為擴(kuò)散模型(Diffusion model) 了。

上述的擴(kuò)散架構(gòu)可以原生支持圖像到文字、圖像變化、文字到圖像和文字變化,并且可以延伸到其他應(yīng)用領(lǐng)域,例如圖像文字雙重引導(dǎo)生成、潛在圖像到文字到圖像的編輯等等。并且將支持更多應(yīng)用模式,例如語(yǔ)音、音樂、視訊和3D視頻等。隱空間的內(nèi)容是從可觀察數(shù)據(jù)空間歸納萃取而得到的精華,相當(dāng)于閱歷豐富的領(lǐng)域?qū)<覂?nèi)心所領(lǐng)悟沉淀出來(lái)的經(jīng)驗(yàn)直覺。它具有穩(wěn)定性( 不變性) 和共享性。

4   領(lǐng)會(huì)去蕪存菁(一):小琪腦海中的霓虹燈

茲以“小琪腦海中的霓虹燈”為例,來(lái)比喻“去蕪存菁”。例如香港的市區(qū)非常繁華,每天天黑之后,處處霓虹燈閃爍,燦爛奪目,幾乎看不到行人、道路、橋梁或建筑物。小琪來(lái)到了西門町工作,白天擔(dān)任市區(qū)導(dǎo)游,清晰看到行人、道路、橋梁或建筑物、天空等。晚上她常常在市區(qū)里逛街購(gòu)物,處處充滿霓虹燈閃爍的光芒,幾乎看不到燦爛光芒下的人或物。如今已經(jīng)整整住半年(100 多天) 了。

有一天晚上,小琪搭飛機(jī)來(lái)到東京( 大約晚上10點(diǎn)鐘),她也立即到東京市區(qū)里逛街購(gòu)物,也看到處處充滿霓虹燈閃爍的光芒,幾乎看不到燦爛光芒下的行人、道路、河流、橋梁或高樓大廈等。逛了一個(gè)鐘頭之后,返回到她住的旅館內(nèi),看到窗外市區(qū)景色,也只看到處處霓虹燈的光芒閃爍、燦爛四射,令人眼花撩亂。于是,她拿起了畫筆,在畫紙上畫下了她眼中的東京景色。請(qǐng)問(wèn):小琪在圖紙上畫出什么東西呢? 仔細(xì)觀之,她畫出了清晰的東京市區(qū)行人、道路、河流、橋梁和建筑物等圖案。

隔天,小琪又搭飛機(jī)來(lái)到紐約( 也是大約晚上10點(diǎn)鐘),她也立即到紐約市區(qū)里逛街購(gòu)物,也看到處處充滿霓虹燈閃爍的光芒,幾乎看不到燦爛光芒下的行人、道路、河流、橋梁或高樓大廈等。逛了一個(gè)鐘頭之后,返回到她住的旅館內(nèi),看到窗外市區(qū)景色,也只看到處處霓虹燈的光芒閃爍、燦爛四射,令人眼花撩亂。于是,她拿起了畫筆,在畫紙上畫下了她眼中的紐約景色。請(qǐng)問(wèn):小琪在圖紙上畫出什么東西呢? 仔細(xì)觀之,她畫出了清晰的紐約市區(qū)行人、道路、河流、橋梁和建筑物等圖案。

再隔一天,小琪又搭飛機(jī)來(lái)到巴黎( 也是大約晚上10 點(diǎn)鐘),這天她立即住進(jìn)旅館內(nèi),向窗外看到市區(qū)景色,也只看到處處霓虹燈的光芒閃爍、燦爛四射,令人眼花撩亂。于是,她拿起了畫筆,在畫紙上畫下了她眼中的巴黎景色。請(qǐng)問(wèn):小琪在圖紙上畫出什么東西呢?

5   領(lǐng)會(huì)去蕪存菁(二):如何訓(xùn)練“啄木鳥”

如果把SD里的UNet模型比喻為啄木鳥,則訓(xùn)練一個(gè)UNet模型就相當(dāng)于訓(xùn)練一只啄木鳥了。茲想一想,為什么2020年之后,SD等模型涌現(xiàn)出了強(qiáng)大的”生成”能力呢? 理由是:訓(xùn)練AI( 如啄木鳥) 的途徑改變了。對(duì)啄木鳥而言,蟲是它想要的東西,而木材則是它不要的東西。反之,對(duì)人們而言,蟲是他不要的東西,而木材則是他想要的東西。因之,人們就來(lái)訓(xùn)練啄木鳥去關(guān)注“蟲”、進(jìn)而預(yù)測(cè)“蟲”。換句話說(shuō),人們就來(lái)訓(xùn)練啄木鳥去關(guān)注“蕪”、進(jìn)而預(yù)測(cè)“蕪”。

一旦訓(xùn)練完成了,啄木鳥( 即UNet 模型) 就很熟悉“蟲”( 即蕪) 了,也能很精準(zhǔn)地預(yù)測(cè)“蟲”( 即蕪) 了。此時(shí),啄木鳥( 即UNet 模型) 就能很精準(zhǔn)地吃掉“蟲”,也就留下好木材( 即菁) 了。這就是啄木鳥的“去蕪存菁”過(guò)程了。也就是剛才提到羅丹的雕刻技藝:把多余的部分( 蕪) 去掉。

所以,拿來(lái)一根生滿蟲子的木頭,并叫一只訓(xùn)練有素的啄木鳥(AI 模型) 來(lái)找出“蟲”,并且把蟲吃掉。于是,這只啄木鳥就如同羅丹一樣,很快生成一座雕刻作品。這即是當(dāng)今的生成式AI了。

6   領(lǐng)會(huì)去蕪存菁(三):“掀開棉被”的故事

例如,有三個(gè)房間,各都有一張床和一件棉被。床和棉被都是一致的外觀。小琪進(jìn)入到第1 房間,隱約看到棉被里有幾只小動(dòng)物;然后她掀開棉被,看到幾只小貓咪。接著,小琪進(jìn)入到第2 個(gè)房間,隱約看到棉被里有幾只小動(dòng)物;然后她掀開棉被,看到幾只烏亀。

然后,小琪進(jìn)入到第3 個(gè)房間,隱約看到棉被里有幾只小動(dòng)物;她并沒有掀開棉被,就拿起畫筆來(lái)畫出她腦海中所想象( 呈現(xiàn)) 的棉被內(nèi)景像。于是,小琪畫出了第3 間房間的棉被里的小動(dòng)物景像。請(qǐng)?jiān)囅?,小琪的畫作中,?huì)畫出什么( 貓或?yàn)鮼w或其它) 呢?又請(qǐng)?jiān)囅耄$鬟M(jìn)入到第3 個(gè)房間的瞬間,其腦海里做了什么動(dòng)作呢? 其可能答案是:

1)觀察眼前( 第3 房間) 的景象。

2)找出心中似曾相似的記憶景象。

3)識(shí)別出”棉被”對(duì)象。

4)把腦海中的”棉被”掀掉。

以上故事,可引導(dǎo)您更多領(lǐng)悟Diffusion的繪畫生成原理。

7   領(lǐng)會(huì)去蕪存菁(四):以拿鐵咖啡為例

首先準(zhǔn)備一張咖啡圖像,以及一張棉花糖圖像,如下:

image.png image.png image.png

圖2

現(xiàn)在,把這張coffee圖像與mar_aa圖像相加起來(lái)( 如同把黑咖啡倒入到棉花糖mar_aa杯子里)。并且也把這張coffee圖像與mar_bb圖像相加起來(lái)( 如同把黑咖啡倒入到棉花糖mar_bb杯子里)。于是得到兩杯拿鐵咖啡,如下圖:

image.png   image.png  image.png

圖3

接著,就來(lái)訓(xùn)練一個(gè)UNet 模型,讓它從latte_aa拿鐵里,把coffee( 即蕪) 分離出來(lái)。同時(shí),也訓(xùn)練它從latte_bb拿鐵里,把coffee( 即蕪) 分離出來(lái)。換句話說(shuō),就是輸入latte_aa圖像,讓他預(yù)測(cè)出coffee( 即蕪);同時(shí),也輸入latte_bb圖像,讓他預(yù)測(cè)出coffee( 即蕪)。實(shí)機(jī)訓(xùn)練1500 回合之后,輸出:

1743993849524835.png

并且匯出latte_unet.pt模型文件。接著,就拿另一杯latte_cc拿鐵咖啡來(lái)檢測(cè)看看這個(gè)訓(xùn)練好的UNet 模型;亦即把這張latte_cc 圖像輸入U(xiǎn)Net 模型:

image.png

圖4

于是,UNet 模型就預(yù)測(cè)出“蕪”( 即pred_coffee_cc圖像)。

image.png image.png

圖5

最后,拿latte_cc 拿鐵圖像,減去pred_coffee_cc圖像,而留下了results_mar_cc 圖像。于是,完成了“去蕪存菁”的示范動(dòng)作。

8   結(jié)束語(yǔ)

為什么擴(kuò)散(Diffusion) 在2022-23 將AI繪圖大幅推展到一個(gè)新里程呢?而且看來(lái)未來(lái)仍將引領(lǐng)風(fēng)潮10年。其關(guān)鍵在于過(guò)去數(shù)十年來(lái),人們都是給計(jì)算機(jī)正確的邏輯( 類似于人類教育的”傳道”),其訓(xùn)練AI 去認(rèn)識(shí)正確的事物或現(xiàn)象。而擴(kuò)散則采取反向做法,致力于訓(xùn)練計(jì)算機(jī)(AI)去認(rèn)識(shí)不正確的事物( 蕪),然后學(xué)習(xí)完美的“去蕪存菁”技能。由此而觀之,在AI 時(shí)代最關(guān)鍵的教育新典范是:引導(dǎo)人們(或AI)深刻領(lǐng)會(huì)“什么是多余的”,然后決定“放棄什么”,即是:去“蕪存菁”。

(本文來(lái)源于《EEPW》



關(guān)鍵詞: 202408 AI圖像

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉