谷歌研究團隊開發的時空文本到視頻擴散模型。
它使用創新的時空U-Net架構,可以同時生成整個視頻長度,這與逐幀合成視頻的其他模型不同。
確保生成視頻的連貫性和保真度。
支持文本到視頻、圖像到視頻、風格化視頻生成、視頻編輯等
主要特點:
1.文本到視頻擴散模型:Lumiere可以根據文本提示生成視頻,實現從文本描述到視頻內容的直接轉換。
2.時空U-Net架構:與其他需要逐步合成視頻的模型不同,Lumiere能夠一次生成整個視頻。這種獨特的架構允許Lumiere一次生成整個視頻長度,這與逐幀合成視頻的其他模型不同。
3.全球時間一致性:由於其架構的特點,Lumiere可以更容易地實現視頻內容的全球時間一致性,確保視頻的一致性和保真度。
4.多尺度時空處理:Lumiere學習通過在多個時空尺度上處理視頻來直接生成視頻,這是一種先進的方法。
5.風格化視頻生成:使用單個參考圖像,Lumiere可以生成目標風格的視頻,這種能力在其他視頻生成模型中是罕見的。
6.廣泛的內容創建和視頻編輯應用程式:Lumiere支持各種內容創建任務和視頻編輯應用程式,例如圖像到視頻,視頻優化和風格化生成。
視頻樣式:使用基於文本的圖像編輯方法,Lumiere可以一致地設置視頻樣式。
圖像合成功能:該模型可以在用戶指定區域中動畫圖像內容,為靜態圖像添加動態效果。
視頻修補功能:Lumiere提供視頻修補功能,允許您修改和修飾視頻中的特定內容。
項目和演示:https://lumiere-video.github.io
紙張:https://arxiv.org/abs/2401.12945
此視頻中的內容已由safari自動翻譯
視頻: