機(jī)器之心報(bào)道
編輯:澤南、小舟
臉書的視頻生成新模型實(shí)現(xiàn)了 SOTA,但不知道是不是人類給的提示太簡單了,生成內(nèi)容有點(diǎn)驚悚。
你輸入文字,AI 就能生成視頻,很長一段時(shí)間里只存在于人們想象中的事現(xiàn)在已經(jīng)實(shí)現(xiàn)了。

昨天,Meta(臉書)研究人員發(fā)布了在 AI 藝術(shù)領(lǐng)域的新成果 Make-A-Video,這是一種創(chuàng)造性地新技術(shù),結(jié)果令人印象深刻且多種多樣。雖然畫面目前看起來都有點(diǎn)驚悚,但在 AI 圈里人們已經(jīng)開始嘗試批量制造梗圖了,圖靈獎(jiǎng)獲得者 Yann LeCun 也在不停轉(zhuǎn)推它制造的內(nèi)容。

在此之前,我們以前見過文本到視頻模型大多數(shù)利用文本生成圖像(如 DALL-E),它們從人類的提示中輸出靜止圖像。不過,雖然從靜止圖像到移動(dòng)圖像的概念跳躍對(duì)于人類大腦來說很小,但在機(jī)器學(xué)習(xí)模型中想要實(shí)現(xiàn)卻絕非易事。
Make-A-Video 實(shí)際上并沒有在后端對(duì)這套過程進(jìn)行太大的改變——正如研究人員在論文中指出的那樣,「一個(gè)只看到描述圖像的文本的模型在生成短視頻方面出奇地有效。」
例如輸入「A teddy bear painting a portrait」,即「一只畫自畫像的泰迪熊」,Make-A-Video 生成的視頻如下動(dòng)圖所示:

論文《Make-A-Video: Text-to-video Generation without text-video data》:

從格式看是 ICLR 大會(huì)的投稿。
論文鏈接:
https://makeavideo.studio/Make-A-Video.pdf
該 AI 模型使用現(xiàn)有且有效的擴(kuò)散技術(shù)來創(chuàng)建圖像,其本質(zhì)上是從純視覺靜態(tài)「去噪」向目標(biāo)提示的逆向工作。這里要注意的是,該模型還對(duì)一堆未標(biāo)記的視頻內(nèi)容進(jìn)行了無監(jiān)督訓(xùn)練(即在沒有人類仔細(xì)指導(dǎo)的情況下用數(shù)據(jù)進(jìn)行訓(xùn)練)。
Make-A-Video 不需要從頭開始學(xué)習(xí)視覺和多模態(tài)表示,從一開始就知道如何制作逼真的圖像,也不需要成對(duì)的文本視頻數(shù)據(jù),同時(shí)生成的視頻風(fēng)格多樣,繼承了當(dāng)今圖像生成模型的可擴(kuò)展性。Meta 研究人員表示,在空間和時(shí)間分辨率、對(duì)文本的還原忠實(shí)度和質(zhì)量的所有方面,Make-A-Video 實(shí)現(xiàn)了文本到視頻生成的最高水平。
無論是空間和時(shí)間分辨率、還是與文本描述的符合程度,Make-A-Video 都在文本到視頻的生成中達(dá)到了 SOTA 水平。
相比于之前從文本生成視頻的系統(tǒng),Make-A-Video 使用了不同的方法,實(shí)現(xiàn)了與 18 個(gè)月前在原始 DALL-E 或其他上一代系統(tǒng)中一致的圖像保真度。

T2V 生成的圖像示例。Meta 提出的模型可以為各種視覺概念生成具有連貫運(yùn)動(dòng)的高質(zhì)量視頻。
值得注意的是,AI 模型生成的圖像往往因?yàn)樘咔宥フ鎸?shí)感,保留一點(diǎn)瑕疵的圖像和視頻才更貼合實(shí)際。

Make-A-Video 的高級(jí)架構(gòu)。給定由先驗(yàn) P 翻譯成圖像嵌入的輸入文本 x 和所需的幀速率 f ps ,解碼器 Dt 生成 16 個(gè) 64 × 64 分辨率的幀,然后通過 ↑F 將其插值到更高的幀速率,并提高分辨率到 SRt l 為 256 × 256,SRh 為 768 × 768,最后生成高時(shí)空分辨率的視頻 y^。
作為一個(gè)腦補(bǔ)工具,Make-A-Video 也可以利用靜止圖像和其他視頻轉(zhuǎn)換為其變體或進(jìn)行擴(kuò)展,就像圖像生成器也可以用圖像本身作為提示一樣。這樣生成的結(jié)果就稍微沒那么魔性了。
從文本、圖像到視頻,AI 工具的發(fā)展速度再次跨越了一個(gè)界限,不知在這項(xiàng)技術(shù)公開之后,人們會(huì)用它創(chuàng)造出哪些「藝術(shù)品」。Meta 表示,人們已經(jīng)可以開始注冊(cè),并在近期獲取開放的模型。
原文地址:http://www.myzaker.com/article/63369b868e9f096d295a8e26
轉(zhuǎn)載請(qǐng)注明:你輸文字,它生成視頻:這款新模型讓LeCun也開始轉(zhuǎn)梗圖了 | 快導(dǎo)航網(wǎng)






川公網(wǎng)安備51012402001058號(hào)