基礎(chǔ)信息
產(chǎn)品介紹
一種從文本生成視頻的模型
Phenaki,一種能夠在給定一系列文本提示的情況下進(jìn)行逼真視頻合成的模型。由于計(jì)算成本、高質(zhì)量文本視頻數(shù)據(jù)數(shù)量有限和視頻長(zhǎng)度可變,從文本生成視頻尤其具有挑戰(zhàn)性。為了解決這些問(wèn)題,我們引入了一種新的因果模型來(lái)學(xué)習(xí)視頻表示,它將視頻壓縮為離散標(biāo)記的小表示。此標(biāo)記器及時(shí)使用因果注意,這使其可以處理可變長(zhǎng)度的視頻。為了從文本中生成視頻標(biāo)記,我們使用了一個(gè)以預(yù)先計(jì)算的文本標(biāo)記為條件的雙向掩碼轉(zhuǎn)換器。隨后對(duì)生成的視頻令牌進(jìn)行去令牌化以創(chuàng)建實(shí)際視頻。為了解決數(shù)據(jù)問(wèn)題,我們展示了對(duì)大量圖像-文本對(duì)以及少量視頻-文本示例的聯(lián)合訓(xùn)練如何導(dǎo)致超出視頻數(shù)據(jù)集中可用的泛化。與以前的視頻生成方法相比,Phenaki 可以在開(kāi)放域中生成以一系列提示(即時(shí)間變量文本或故事)為條件的任意長(zhǎng)視頻。
收起
產(chǎn)品圖片
售前咨詢,預(yù)約演示,了解詳細(xì)使用場(chǎng)景
立即咨詢
暫時(shí)沒(méi)有回答
如果你對(duì)產(chǎn)品有疑問(wèn),開(kāi)始 寫第一個(gè)提問(wèn)
點(diǎn)評(píng)