Lumiere：立即生成整個視頻

谷歌研究團隊開發的時空文本到視頻擴散模型。

它使用創新的時空U-Net架構，可以同時生成整個視頻長度，這與逐幀合成視頻的其他模型不同。

確保生成視頻的連貫性和保真度。

支持文本到視頻、圖像到視頻、風格化視頻生成、視頻編輯等

主要特點：

1.文本到視頻擴散模型：Lumiere可以根據文本提示生成視頻，實現從文本描述到視頻內容的直接轉換。
2.時空U-Net架構：與其他需要逐步合成視頻的模型不同，Lumiere能夠一次生成整個視頻。這種獨特的架構允許Lumiere一次生成整個視頻長度，這與逐幀合成視頻的其他模型不同。
3.全球時間一致性：由於其架構的特點，Lumiere可以更容易地實現視頻內容的全球時間一致性，確保視頻的一致性和保真度。
4.多尺度時空處理：Lumiere學習通過在多個時空尺度上處理視頻來直接生成視頻，這是一種先進的方法。
5.風格化視頻生成：使用單個參考圖像，Lumiere可以生成目標風格的視頻，這種能力在其他視頻生成模型中是罕見的。
6.廣泛的內容創建和視頻編輯應用程式：Lumiere支持各種內容創建任務和視頻編輯應用程式，例如圖像到視頻，視頻優化和風格化生成。

視頻樣式：使用基於文本的圖像編輯方法，Lumiere可以一致地設置視頻樣式。
圖像合成功能：該模型可以在用戶指定區域中動畫圖像內容，為靜態圖像添加動態效果。
視頻修補功能：Lumiere提供視頻修補功能，允許您修改和修飾視頻中的特定內容。

項目和演示：https://lumiere-video.github.io
紙張：https://arxiv.org/abs/2401.12945

此視頻中的內容已由safari自動翻譯

視頻：