【新智元導(dǎo)讀】8月10日,一個名為Stable Diffusion的開源模型正式發(fā)布,眾網(wǎng)友都玩瘋了。
最近,一個叫Xander Steenbrugge的AI研究員兼數(shù)碼藝術(shù)家,上傳了一段非常震撼的視頻《跨越時間之旅》。
地球上的生物大進(jìn)化,從原始海洋起始,到遠(yuǎn)古蜥蜴、恐龍、哺乳動物,再到猴子、猩猩、猿人、智人……最后出現(xiàn)了科幻中的未來世界。
而Steenbrugge也激動地評論道:我們正在跨越一個門檻,生成式人工智能不再只是關(guān)于新穎的美學(xué),而是演變成了一個驚人的工具,可以構(gòu)建強(qiáng)大的、以人為中心的敘事。
Steenbrugge表示,這個視頻用了36個連續(xù)的短語。為了找到可能的最佳順序,他嘗試了超過一千種不同的提示和種子,并在代碼中應(yīng)用了許多「提示工程」的技巧,來弄清楚到底哪些是有效的,哪些是無效的。
前特斯拉AI高級總監(jiān)Andrej Karpathy看完后大受震撼,也忍不住手癢嘗試了一波。
「超現(xiàn)實的蒸汽朋克神經(jīng)網(wǎng)絡(luò)機(jī)器,呈大腦形狀,放置在一個基座上,上面布滿了齒輪制成的神經(jīng)元」,在輸入這段文字后,他的大作也生成了。
2分鐘的視頻(在A100上渲染約1小時),是通過在隨機(jī)噪聲輸入的模型之間平滑插值生成的。
這個名為Stable Diffusion的模型,采用的是在兩個句子的意義之間「插值」的方式。插入的地方是語義的間隔,而不是視覺的空格,因此,它極大地改變了故事敘述的方式。
而這,僅僅是由生成式人工智能驅(qū)動的數(shù)字內(nèi)容創(chuàng)作革命的開始。
Stable Diffusion:開源模型的里程碑
從2021年初以來,可以從文本描述生成圖像的人工智能一直在快速發(fā)展。當(dāng)時,OpenAI用DALL-E 1和CLIP展示了令人印象深刻的結(jié)果。
在2022年,OpenAI發(fā)布了令人印象深刻的DALL-E 2,谷歌展示了Imagen和Parti,Midjourney推出了公測版,Craiyon創(chuàng)作的AI圖像也遍布各種社交媒體。
而就現(xiàn)在最近,Stability AI又發(fā)布了一個全新的模型——Stable Diffusion。
不過,與DALL-E 2不同的是,Stable Diffusion可以生成OpenAI禁止的各種知名人士。
雖然像是Midjourney、Pixelz.ai等等這些系統(tǒng)也可以做到,但它們生成的質(zhì)量,還遠(yuǎn)沒有達(dá)到能與Stable Diffusion相媲美的程度,而且還都不是開源的。
現(xiàn)在有請我們的老朋友馬斯克,表演一個秒變「黑寡婦」(斯嘉麗·約翰遜)。
顯然,作為主要開發(fā)者的Stability AI,希望不止一家公司或團(tuán)隊能夠訓(xùn)練Stable Diffusion的變體。
比如,你是一個沒有海量的GPU算力的研究人員。不用擔(dān)心,Stable Diffusion即將能夠在一塊僅有5.1GB VRAM的顯卡上運行。
再比如,你是一個平時使用配備蘋果M1芯片的MacBook的愛好者,Stable Diffusion也可以運行。只不過,這時圖像生成的時間就要從幾秒鐘變成幾分鐘了。
如此看來,多模態(tài)模型正沿著以前大型語言模型所走的道路前進(jìn):遠(yuǎn)離單一的供應(yīng)商,并通過開放源碼廣泛提供眾多的替代方案。
此外,Runway已經(jīng)在研究如何基于Stable Diffusion來實現(xiàn)文本到視頻的編輯了。
在測試階段之后,Stable Diffusion就會免費,代碼和經(jīng)過訓(xùn)練的模型將作為開源發(fā)布。還將有一個帶有Web界面的托管版本,供用戶測試系統(tǒng)。
Stable Diffusion 是 Stability AI、RunwayML、LMU Munich、EleutherAI 和 LAION 的研究人員合作的結(jié)果。EleutherAI以其開源語言模型GPT-J-6B 和GPT-NeoX-20B等而聞名。
非營利組織 LAION(大規(guī)模人工智能開放網(wǎng)絡(luò))為訓(xùn)練數(shù)據(jù)提供了開源LAION 5B數(shù)據(jù)集,該團(tuán)隊在初始測試階段根據(jù)人工反饋對其進(jìn)行過濾,以創(chuàng)建最終的LAION-Aesthetics訓(xùn)練數(shù)據(jù)集。
Runway的Patrick Esser和LMU 慕尼黑的Robin Rombach領(lǐng)導(dǎo)了這個項目,他們在海德堡大學(xué) CompVis小組的研究奠定了這個項目的基礎(chǔ)。在海德堡大學(xué),他們創(chuàng)建了廣泛使用的VQGAN和Latent Diffusion。這兩個模型再加上OpenAI和Google Brain的成果,使Stable Diffusion得以實現(xiàn)。
Stability AI成立于2020年,背后的出資人是數(shù)學(xué)家、計算機(jī)科學(xué)家Emad Mostaque。他曾在各種對沖基金擔(dān)任分析師。
憑借Stability AI和他的私人財富,Mostaque希望能夠培育一個開源AI研究社區(qū)。他的創(chuàng)業(yè)公司之前就支持創(chuàng)建「LAION 5B」數(shù)據(jù)集。為了訓(xùn)練Stable Diffusion的模型,Stability AI為服務(wù)器提供了4,000個Nvidia A100 GPU。
「除了我們的75名員工之外,沒有任何其他人擁有決策權(quán)——無論是億萬富翁、大型基金,還是政府,我們是完全獨立的。」Mostaque說。「我們計劃使用我們的計算來加速基礎(chǔ)人工智能的開源。」
除了開頭地兩段視頻,也有網(wǎng)友用Stable Diffusion生成一段衰老的動畫。
他表示,制作過程中在長提示中改變一個詞,比在短提示中有更微妙的效果。此外,使用描述,如老,中年,幼兒,通常比說明具體的年齡,如10歲,40歲,80歲效果更好。
Leyendecker和Maxence筆下的「黑魂」
感受一下特斯拉的前人工智能和自動駕駛視覺總監(jiān)Andrej Karpathy被虐的心路歷程。
看完大神制作的視頻之后,Karpathy非常激動。
然后一波操作搞出來的成果,放進(jìn)幼兒園小班里都毫無違和感。絕望的Karpathy直呼想要請一位「提示工程師」替自己創(chuàng)作。
最后Karpathy終于悟了,創(chuàng)作出了他非常滿意的新作——蒸汽朋克人工神經(jīng)網(wǎng)絡(luò)機(jī)器,和藍(lán)莓意大利面。
https://stability.ai/blog/stable-diffusion-announcement