
丟掉 PS
和我一起
幻想 AI
圖像變文字,這在今天已經(jīng)不再是問(wèn)題了。各式各樣的 OCR 功能讓你可以從圖片中提取文字變得更加容易,一幅圖讓 AI 來(lái)解釋也不是什么大難題。
但畫(huà)圖對(duì)于今天的 AI 來(lái)說(shuō)還是有難度的,識(shí)別圖片提取信息對(duì)于 AI 來(lái)說(shuō)是處理信息。但作圖就多了一層,不僅要處理信息,還需要完成創(chuàng)作。前者是選擇題,后者則是命題作文。
只是選擇題答得好之后,下一步也得答好自由發(fā)揮的主觀題。只是沒(méi)人想到,第一個(gè)在自家 app 上答出這道題的是 TikTok。

用 TikTok 生成 Facebook、馬云
對(duì)比 Google、OpenAI 這類(lèi)在 AI 行業(yè)投入頗多、浸淫已久的巨頭,TikTok 可能只是一個(gè)「插班生」。但插班生繞過(guò)巨頭先做出了難題,這怎么不讓人感到驚訝?雖然插班生也使了一些巧勁,但至少做出來(lái)還是很令人感嘆。
TikTok 做出來(lái)的文字轉(zhuǎn)圖片功能被叫作「AI 綠幕(AI Greenscreen)」,取代了原先單調(diào)的白底,由 AI 來(lái)為你生成視頻的背景。這些視頻的背景未必每一個(gè)都能契合創(chuàng)作者的需求,但畢竟這是為你定制的、獨(dú)一無(wú)二的綠幕背景,運(yùn)氣好的話或許和視頻內(nèi)容的主題也會(huì)更配。

發(fā)視頻時(shí)點(diǎn)擊特效即可體驗(yàn)此功能 . 圖片來(lái)自硅星人
我們就用這個(gè)新功能做了一些測(cè)試,看看 TikTok 畫(huà)出來(lái)的圖到底是怎樣的。在這些隨機(jī)測(cè)試的詞語(yǔ)中,有的畫(huà)作呈現(xiàn)讓人摸不著頭腦,但也有的被評(píng)價(jià)為「很好地描繪出了詭異感」。
大受好評(píng)的就是輸入「Facebook」呈現(xiàn)的畫(huà)作,你隱約能夠認(rèn)出 Facebook 的藍(lán)色圖標(biāo),圖片中單個(gè)的眼睛和一只耳朵營(yíng)造了一種獨(dú)特的驚悚感。結(jié)合一下 Facebook 近期的新聞,不得不說(shuō)這幅畫(huà)很好地描繪出了 Facebook 這個(gè)詞的感覺(jué)。

圖像描繪準(zhǔn)確的還有蘋(píng)果、中國(guó)這樣的詞。
前者能夠輕松看出是一個(gè)蘋(píng)果,后者也能看出中國(guó)風(fēng)的建筑,同時(shí)也避免了國(guó)旗這類(lèi)在二創(chuàng)領(lǐng)域較為敏感的圖案。只是你要想要呈現(xiàn)的是蘋(píng)果公司的圖就很難了,哪怕是蘋(píng)果 + 蘋(píng)果 CEO 庫(kù)克的關(guān)鍵詞呈現(xiàn)的也是蘋(píng)果和菜肴相關(guān)的圖案。

不過(guò)無(wú)關(guān)的也有不少,比如我們嘗試了阿里巴巴、騰訊、字節(jié)跳動(dòng),生成的也不能板上釘釘?shù)卣f(shuō)和這些品牌無(wú)關(guān)。但不管怎么說(shuō)很難一眼認(rèn)出,多少有些抽象。

輸入人物姓名繪出的圖畫(huà)也有不少有意思的。在海外知名度不低的手工博主李子柒名字生成的就是一幅讓人舒心的風(fēng)景畫(huà);著名的英超前主教練溫格生成的圖畫(huà)也能讓人一眼認(rèn)出,屬于經(jīng)典照片重新解構(gòu)的風(fēng)格;馬云的風(fēng)格也有點(diǎn)詭異,和 Facebook 一致的眼睛有種窺視感。
至于馬斯克,我們用 TikTok 生成了四個(gè)圖片沒(méi)有一個(gè)能認(rèn)出來(lái)的。

當(dāng)然除了通過(guò)人物詞成功、抽象圖畫(huà),也有被認(rèn)為表達(dá)得恰到好處,可以讓人聯(lián)想起來(lái)的 Switch、廣州。
塞爾達(dá)式風(fēng)格的畫(huà)作,里面有的人物可以讓粉絲認(rèn)出「這可能是馬里奧」。同樣廣州標(biāo)志性建筑和絢麗的色彩也能讓人輕松識(shí)別。

每張背景圖生成的時(shí)間不到 5 秒,如果主題相近,那么這些圖用來(lái)做視頻的背景圖是非常合適的。生成的時(shí)間短,人人可用,這都是 TikTok 的優(yōu)勢(shì)所在,所以這樣一個(gè)文字轉(zhuǎn)圖像的產(chǎn)品出現(xiàn)在一個(gè)日活上億的應(yīng)用上也可以算是一個(gè)標(biāo)志性事件。
只是 TikTok 還是走了捷徑。
目前產(chǎn)生的圖片幾乎都屬于畫(huà)作風(fēng)格,很多甚至屬于抽象派、印象派。和生成寫(xiě)實(shí)的圖像相比,這個(gè)難度就低了不少。畢竟就算不像也能靠腦補(bǔ),理解你輸入詞的 AI 和去美術(shù)館看畫(huà)展的你面對(duì)的都是一樣的問(wèn)題——如果相似不夠,那就理解來(lái)湊。
這是一種省成本的方法,難度低一點(diǎn),需要耗費(fèi)的算力也低,成本也就更低了。

即便是內(nèi)容略有血腥文字呈現(xiàn)的圖片也不會(huì)太過(guò)驚悚
文字變圖,連 Google 都還沒(méi)有即時(shí)生成的產(chǎn)品
從效果上來(lái)看,TikTok 的 AI 綠幕呈現(xiàn)效果并不能打上超高分。但作為一項(xiàng)門(mén)檻頗高的技術(shù),能夠在幾秒內(nèi)被用戶(hù)無(wú)門(mén)檻地使用到就已經(jīng)算進(jìn)步了。
雖然受限于生成圖片目前還不夠「日常」,不夠?qū)憣?shí)不會(huì)引發(fā)技術(shù)濫用和圖片造假的擔(dān)憂。但寫(xiě)實(shí)的圖片其實(shí)已經(jīng)可以做到了,只是還不到 AI 綠幕這種人人可用的程度罷了。
Google 也曾發(fā)布過(guò)一個(gè) Imagen AI 工具,可以把簡(jiǎn)單的句子變成一張真實(shí)的圖片——像拍出來(lái)的照片一樣真。但很遺憾,即便是在 AI 這方面投入巨大的 Google 也沒(méi)能做出即時(shí)生成的產(chǎn)品。換句話說(shuō),輸入要求讓 AI 給你畫(huà)圖的選項(xiàng)在 Imagen AI 還沒(méi)有。

Imagen AI 可以點(diǎn)擊不同選項(xiàng)作出不同圖片
目前官網(wǎng)目前還只有一些預(yù)設(shè)的選項(xiàng),就算每一個(gè)都點(diǎn)一遍也不過(guò)幾十種搭配,但有寫(xiě)實(shí)風(fēng)格和油畫(huà)風(fēng)格可以選擇。感興趣的讀者,還是可以自己去點(diǎn)點(diǎn)玩玩看。
Google 屬于名氣大,一舉一動(dòng)都會(huì)備受關(guān)注的類(lèi)型。而人工智能研究實(shí)驗(yàn)室 OpenAI 則是靠作品——它們推出了最原始、最受歡迎的人工智能文本到圖像生成器 Dall-E。

Dall-E
Dall-E 可以從文字內(nèi)容中對(duì)現(xiàn)有圖像進(jìn)行逼真的再編輯,它可以為你添加和刪除元素,在進(jìn)行這些操作的同時(shí)還會(huì)考慮陰影,反射和紋理的呈現(xiàn)效果—— PS 技術(shù)可以秒殺你。從已有的畫(huà)作中分析模仿進(jìn)行替換更是非常簡(jiǎn)單,靈感風(fēng)格來(lái)源于原作,就是換了主角。
作為一個(gè)研究項(xiàng)目,Dall-E 還處于封閉測(cè)試階段,而在名單中「有限數(shù)量的可信用戶(hù)」在社交媒體上早就發(fā)布了一張又一張的照片。每個(gè)參與測(cè)試的用戶(hù)最初可以獲得 50 個(gè)免費(fèi)積分,此后每月 15 分,1 分可以用一個(gè)文本內(nèi)容生成 4 張圖片,還可以選擇三種畫(huà)風(fēng)。
目前 Dall-E 還有很少的變現(xiàn)方式針對(duì)內(nèi)測(cè)用戶(hù)——每月 15 積分用完后還想要體驗(yàn)服務(wù),可以花 15 美元購(gòu)買(mǎi) 115 個(gè)積分。
好在生成的圖片也可以被商業(yè)化,一旦你通過(guò) Dall-E 創(chuàng)作了它,就可以把它們用于插圖、封面、T 恤設(shè)計(jì)等各個(gè)方面。

用戶(hù)可以在設(shè)定好的位置添加元素,添加進(jìn)照片的元素在陰影等方面也會(huì)自動(dòng)補(bǔ)充
視頻導(dǎo)演 Karen X. Cheng 就表示:
我一連好幾個(gè)小時(shí)都在體驗(yàn)生成圖片,甚至迷失了方向 …… 這感覺(jué)更像是你在和一個(gè)活生生的、會(huì)呼吸的人合作,和你合作的已經(jīng)不是 Photoshop 那樣的工具了。
當(dāng)然 Dall-E 目前也并非完美的,想要?jiǎng)?chuàng)造出完全逼真的人臉對(duì)它來(lái)說(shuō)依舊有點(diǎn)難,需要專(zhuān)業(yè)醫(yī)學(xué)知識(shí)攝入才能夠準(zhǔn)確的人類(lèi)骨骼呈現(xiàn)它做的也不是很好。研究員 Aditya Ramesh 就表示 DALL-E 只知道如何閱讀文本繼而生成圖片,所以它其實(shí)是在努力創(chuàng)造一些視覺(jué)效果相似的內(nèi)容。

Dall-E 生成的奇幻圖片
這項(xiàng)技術(shù)當(dāng)然是很有前景的,你可以想象它為內(nèi)容創(chuàng)作者降低圖片尋找的門(mén)檻,也可以想象畫(huà)像師在它的幫助下可以提升效率。但正如每一個(gè)技術(shù)的出現(xiàn)都可能被濫用一樣,AI 幫助文字生成圖片的技術(shù)也有這樣的風(fēng)險(xiǎn)——那些 Deepfake 上曾出現(xiàn)過(guò)的負(fù)面應(yīng)用場(chǎng)景都會(huì)一一重現(xiàn)。
好在這次技術(shù)提供者早就提早做好了準(zhǔn)備想要把 AI 關(guān)在籠子里了。
TikTok 的抽象圖片本身就是一重保護(hù),因?yàn)樗粚?xiě)實(shí)。此外,即便你在 TikTok 中輸入一些充滿暗示的內(nèi)容(暴力、裸露)呈現(xiàn)出來(lái)的畫(huà)作依然不如預(yù)想中的那樣,抽象的風(fēng)格并不清晰也規(guī)避了審核需要付出的巨大成本。

Dall-E 官網(wǎng)的限制說(shuō)明
Dall-E 也限制了 AI 生成暴力、成人、仇恨內(nèi)容,在算法中就盡量減少了 Dall-E 對(duì)此類(lèi)概念的接觸。同時(shí),平臺(tái)也有先進(jìn)的技術(shù)防止使用真實(shí)的人的面部生成圖像(名人松了一口氣),自動(dòng)化和人工監(jiān)控系統(tǒng)亦能防止 Dall-E 的濫用。
只是所有新技術(shù)的出現(xiàn)也不能只看壞的那一面,它所帶來(lái)的高效前景就很值得期待。
至少,愛(ài)范兒就很期待哪天推送的文章末尾寫(xiě)著「文章題圖由 Dall-E 生成」。
原文地址:http://www.myzaker.com/article/62ff84b58e9f097cca6744f2
轉(zhuǎn)載請(qǐng)注明:用了 TikTok 這個(gè)神器,我馬上把 PS 卸載了 | 快導(dǎo)航網(wǎng)






川公網(wǎng)安備51012402001058號(hào)