国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > Meta 開(kāi)源 ImageBind 新模型,超越 GPT-4,對(duì)齊文本、音頻等 6 種模態(tài)!(1)

Meta 開(kāi)源 ImageBind 新模型,超越 GPT-4,對(duì)齊文本、音頻等 6 種模態(tài)!(1)

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2023-05-22 來(lái)源:工程師 發(fā)布文章

據(jù)外媒報(bào)道,上周四,Google、微軟、OpenAI 幾家公司的 CEO 受邀去白宮,共論關(guān)于人工智能發(fā)展的一些重要問(wèn)題。然而,讓人有些想不通的是,深耕 AI 多年的 Meta 公司(前身為 Facebook)卻沒(méi)有在受邀之列。

沒(méi)多久,更讓 Meta CEO 扎克伯格扎心的是,一位官員對(duì)此解釋稱(chēng),本次會(huì)議“側(cè)重的是目前在 AI 領(lǐng)域,尤其是面向消費(fèi)者的產(chǎn)品方面,處于領(lǐng)先地位的公司?!?/span>

顯然對(duì)于這樣的解釋?zhuān)⒉荒茏屓诵欧?,畢竟這一次受邀名單中還有一家由 OpenAI 的前成員創(chuàng)立的美國(guó)人工智能初創(chuàng)和公益公司 Anthropic。

似乎是為了出一口“氣”,也為證明自家的實(shí)力,相比 OpenAI、Google 推出閉源的 GPT-4、Bard 模型,Meta 在開(kāi)源大模型的路上一騎絕塵,繼兩個(gè)月前開(kāi)源 LLaMA 大模型之后,再次于 5 月 9 日開(kāi)源了一個(gè)新的 AI 模型——ImageBind(https://github.com/facebookresearch/ImageBind),短短一天時(shí)間,收獲了 1.6k 個(gè) Star。

這個(gè)模型與眾不同之處便是可以將多個(gè)數(shù)據(jù)流連接在一起,包括文本、圖像/視頻和音頻、視覺(jué)、IMU、熱數(shù)據(jù)和深度(Depth)數(shù)據(jù)。這也是業(yè)界第一個(gè)能夠整合六種類(lèi)型數(shù)據(jù)的模型。

圖片


圖片

ImageBind 用圖像對(duì)齊六模態(tài),旨在實(shí)現(xiàn)感官大一統(tǒng)


簡(jiǎn)單來(lái)看,相比 Midjourney、Stable Diffusion 和 DALL-E 2 這樣將文字與圖像配對(duì)的圖像生成器,ImageBind 更像是廣撒網(wǎng),可以連接文本、圖像/視頻、音頻、3D 測(cè)量(深度)、溫度數(shù)據(jù)(熱)和運(yùn)動(dòng)數(shù)據(jù)(來(lái)自 IMU),而且它無(wú)需先針對(duì)每一種可能性進(jìn)行訓(xùn)練,直接預(yù)測(cè)數(shù)據(jù)之間的聯(lián)系,類(lèi)似于人類(lèi)感知或者想象環(huán)境的方式。

圖片

對(duì)此,Meta 在其官方博客中也說(shuō)道,“ImageBind 可以勝過(guò)之前為一種特定模式單獨(dú)訓(xùn)練的技術(shù)模型。但最重要的是,它能使機(jī)器更好地一起分析許多不同形式的信息,從而有助于推進(jìn)人工智能?!?/span>

打個(gè)比喻,人類(lèi)可以聽(tīng)或者閱讀一些關(guān)于描述某個(gè)動(dòng)物的文本,然后在現(xiàn)實(shí)生活中看到就能認(rèn)識(shí)。

你站在繁忙的城市街道等有刺激性環(huán)境中,你的大腦會(huì)(很大程度上應(yīng)該是無(wú)意識(shí)地)吸收景象、聲音和其他感官體驗(yàn),以此推斷有關(guān)來(lái)往的汽車(chē)、行人、高樓、天氣等信息。

在很多場(chǎng)景中,一個(gè)單一的聯(lián)合嵌入空間包含許多不同種類(lèi)的數(shù)據(jù),如聲音、圖像、視頻等等。

如今,基于 ImageBind 這樣的模型可以讓機(jī)器學(xué)習(xí)更接近人類(lèi)學(xué)習(xí)。

在官方博客中,Meta 分享  ImageBind 是通過(guò)圖像的綁定屬性,只要將每個(gè)模態(tài)的嵌入與圖像嵌入對(duì)齊,即圖像與各種模式共存,可以作為連接這些模式的橋梁,例如利用網(wǎng)絡(luò)數(shù)據(jù)將文本與圖像連接起來(lái),或者利用從帶有 IMU 傳感器的可穿戴相機(jī)中捕獲的視頻數(shù)據(jù)將運(yùn)動(dòng)與視頻連接起來(lái)。

圖片

ImageBind 整體概覽

從大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中學(xué)到的視覺(jué)表征可以作為目標(biāo)來(lái)學(xué)習(xí)不同模態(tài)的特征。這使得 ImageBind 能夠?qū)R與圖像共同出現(xiàn)的任何模式,自然地將這些模式相互對(duì)齊。與圖像有強(qiáng)烈關(guān)聯(lián)的模態(tài),如熱學(xué)和深度,更容易對(duì)齊。非視覺(jué)的模態(tài),如音頻和 IMU,具有較弱的關(guān)聯(lián)性。

ImageBind 顯示,圖像配對(duì)數(shù)據(jù)足以將這六種模式綁定在一起。該模型可以更全面地解釋內(nèi)容,使不同的模式可以相互 "對(duì)話(huà)",并在不觀察它們的情況下找到聯(lián)系。

例如,ImageBind 可以在沒(méi)有看到它們?cè)谝黄鸬那闆r下將音頻和文本聯(lián)系起來(lái)。這使得其他模型能夠 "理解 "新的模式,而不需要任何資源密集型的訓(xùn)練。

圖片

不過(guò),該模型目前只是一個(gè)研究項(xiàng)目,沒(méi)有直接的消費(fèi)者和實(shí)際應(yīng)用,但是它展現(xiàn)了生成式 AI 在未來(lái)能夠生成沉浸式、多感官內(nèi)容的方式,也表明了 Meta 正在以與 OpenAI、Google 等競(jìng)爭(zhēng)對(duì)手不同的方式,趟出一條屬于開(kāi)源大模型的路。


圖片

ImageBind 強(qiáng)大的背后


與此同時(shí),作為一種多模態(tài)的模型,ImageBind 還加入了 Meta 近期開(kāi)源的一系列 AI 工具,包括 DINOv2 計(jì)算機(jī)視覺(jué)模型,這是一種不需要微調(diào)訓(xùn)練高性能計(jì)算機(jī)視覺(jué)模型的新方法;以及 Segment Anything(SAM),這是一種通用分割模型,可以根據(jù)任何用戶(hù)的提示,對(duì)任何圖像中的任何物體進(jìn)行分割。

ImageBind 是對(duì)這些模型的補(bǔ)充,因?yàn)樗鼘?zhuān)注于多模態(tài)表示學(xué)習(xí)。它試圖為多種模式學(xué)習(xí)提供一個(gè)統(tǒng)一的特征空間,包括但不限于圖像和視頻。在未來(lái), ImageBind 可以利用 DINOv2 的強(qiáng)大視覺(jué)特征來(lái)進(jìn)一步提高其能力。



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉