你輸文字，它生成視頻：這款新模型讓LeCun也開始轉(zhuǎn)梗圖了

前沿科技 3年前 (2022) 虛像

機(jī)器之心報(bào)道

編輯：澤南、小舟

臉書的視頻生成新模型實(shí)現(xiàn)了 SOTA，但不知道是不是人類給的提示太簡單了，生成內(nèi)容有點(diǎn)驚悚。

你輸入文字，AI 就能生成視頻，很長一段時(shí)間里只存在于人們想象中的事現(xiàn)在已經(jīng)實(shí)現(xiàn)了。

昨天，Meta（臉書）研究人員發(fā)布了在 AI 藝術(shù)領(lǐng)域的新成果 Make-A-Video，這是一種創(chuàng)造性地新技術(shù)，結(jié)果令人印象深刻且多種多樣。雖然畫面目前看起來都有點(diǎn)驚悚，但在 AI 圈里人們已經(jīng)開始嘗試批量制造梗圖了，圖靈獎(jiǎng)獲得者 Yann LeCun 也在不停轉(zhuǎn)推它制造的內(nèi)容。

在此之前，我們以前見過文本到視頻模型大多數(shù)利用文本生成圖像（如 DALL-E），它們從人類的提示中輸出靜止圖像。不過，雖然從靜止圖像到移動(dòng)圖像的概念跳躍對(duì)于人類大腦來說很小，但在機(jī)器學(xué)習(xí)模型中想要實(shí)現(xiàn)卻絕非易事。

Make-A-Video 實(shí)際上并沒有在后端對(duì)這套過程進(jìn)行太大的改變——正如研究人員在論文中指出的那樣，「一個(gè)只看到描述圖像的文本的模型在生成短視頻方面出奇地有效。」

例如輸入「A teddy bear painting a portrait」，即「一只畫自畫像的泰迪熊」，Make-A-Video 生成的視頻如下動(dòng)圖所示：

論文《Make-A-Video: Text-to-video Generation without text-video data》：

從格式看是 ICLR 大會(huì)的投稿。

論文鏈接：

https://makeavideo.studio/Make-A-Video.pdf

該 AI 模型使用現(xiàn)有且有效的擴(kuò)散技術(shù)來創(chuàng)建圖像，其本質(zhì)上是從純視覺靜態(tài)「去噪」向目標(biāo)提示的逆向工作。這里要注意的是，該模型還對(duì)一堆未標(biāo)記的視頻內(nèi)容進(jìn)行了無監(jiān)督訓(xùn)練（即在沒有人類仔細(xì)指導(dǎo)的情況下用數(shù)據(jù)進(jìn)行訓(xùn)練）。

Make-A-Video 不需要從頭開始學(xué)習(xí)視覺和多模態(tài)表示，從一開始就知道如何制作逼真的圖像，也不需要成對(duì)的文本視頻數(shù)據(jù)，同時(shí)生成的視頻風(fēng)格多樣，繼承了當(dāng)今圖像生成模型的可擴(kuò)展性。Meta 研究人員表示，在空間和時(shí)間分辨率、對(duì)文本的還原忠實(shí)度和質(zhì)量的所有方面，Make-A-Video 實(shí)現(xiàn)了文本到視頻生成的最高水平。

無論是空間和時(shí)間分辨率、還是與文本描述的符合程度，Make-A-Video 都在文本到視頻的生成中達(dá)到了 SOTA 水平。

相比于之前從文本生成視頻的系統(tǒng)，Make-A-Video 使用了不同的方法，實(shí)現(xiàn)了與 18 個(gè)月前在原始 DALL-E 或其他上一代系統(tǒng)中一致的圖像保真度。

T2V 生成的圖像示例。Meta 提出的模型可以為各種視覺概念生成具有連貫運(yùn)動(dòng)的高質(zhì)量視頻。

值得注意的是，AI 模型生成的圖像往往因?yàn)樘咔宥フ鎸?shí)感，保留一點(diǎn)瑕疵的圖像和視頻才更貼合實(shí)際。

Make-A-Video 的高級(jí)架構(gòu)。給定由先驗(yàn) P 翻譯成圖像嵌入的輸入文本 x 和所需的幀速率 f ps ，解碼器 Dt 生成 16 個(gè) 64 × 64 分辨率的幀，然后通過 ↑F 將其插值到更高的幀速率，并提高分辨率到 SRt l 為 256 × 256，SRh 為 768 × 768，最后生成高時(shí)空分辨率的視頻 y^。

作為一個(gè)腦補(bǔ)工具，Make-A-Video 也可以利用靜止圖像和其他視頻轉(zhuǎn)換為其變體或進(jìn)行擴(kuò)展，就像圖像生成器也可以用圖像本身作為提示一樣。這樣生成的結(jié)果就稍微沒那么魔性了。

從文本、圖像到視頻，AI 工具的發(fā)展速度再次跨越了一個(gè)界限，不知在這項(xiàng)技術(shù)公開之后，人們會(huì)用它創(chuàng)造出哪些「藝術(shù)品」。Meta 表示，人們已經(jīng)可以開始注冊(cè)，并在近期獲取開放的模型。

原文地址：http://www.myzaker.com/article/63369b868e9f096d295a8e26

ai dt 分辨率指導(dǎo)臉書

版權(quán)聲明：虛像發(fā)表于 2022年10月1日 am12:57。
轉(zhuǎn)載請(qǐng)注明：你輸文字，它生成視頻：這款新模型讓LeCun也開始轉(zhuǎn)梗圖了 | 快導(dǎo)航網(wǎng)

亚洲婷婷免费_区一区二区三区中文字幕_欧美做受高潮电影o_日韩av电影免费在线_国产精品麻豆入口_无码国产精品96久久久久_99热在线免费_成人性生交大片免费看午夜_成人高清av_欧美三级免费

你輸文字，它生成視頻：這款新模型讓LeCun也開始轉(zhuǎn)梗圖了

高通驍龍8 Gen2參數(shù)曝光，性能總體提升10%

iPhone 14 Plus最初命名就是iPhone 14 Max 蘋果官網(wǎng)已有印證

相關(guān)文章

熱門文章

最新資訊

熱門網(wǎng)址

熱門標(biāo)簽

亚洲婷婷免费_区一区二区三区中文字幕_欧美做受高潮电影o_日韩av电影免费在线_国产精品麻豆入口_无码国产精品96久久久久_99热在线免费_成人性生交大片免费看午夜_成人高清av_欧美三级免费

你輸文字，它生成視頻：這款新模型讓LeCun也開始轉(zhuǎn)梗圖了

高通驍龍8 Gen2參數(shù)曝光，性能總體提升10%

iPhone 14 Plus最初命名就是iPhone 14 Max 蘋果官網(wǎng)已有印證

相關(guān)文章

熱門文章

最新資訊

熱門網(wǎng)址

熱門標(biāo)簽

運(yùn)營相關(guān)

軟件下載

跨境電商

購物網(wǎng)站

設(shè)計(jì)相關(guān)

行業(yè)企業(yè)

自媒體相關(guān)

網(wǎng)絡(luò)科技

編程幫手

綜合其他

站長助手

知識(shí)充能

電商運(yùn)營

生活服務(wù)

榜單排名

服務(wù)生活

日常生活

新聞媒體

教育文化

政府組織

探索發(fā)現(xiàn)

影視工具

影視基地

工具大全

學(xué)術(shù)資源

學(xué)習(xí)教育

娛樂生活

發(fā)現(xiàn)資源

醫(yī)療健康

興趣愛好

元宇宙

體育健身

休閑娛樂

交通旅游

NFT概念

ACG