谷歌的新視頻模型：VideoPoet

它可以根據文本描述生成視頻。但它不是基於擴散模型，而是本身是一個LLM，可以理解和處理多模式信息，並將其納入視頻生成過程。
它不僅可以生成視頻，還可以為視頻添加風格化效果。它還可以修復和擴展視頻，甚至從視頻生成音頻。
一站式服務.
例如，VideoPoet可以根據文本描述生成視頻，或者將靜止圖片轉換為動態視頻。它還可以理解和生成音頻，甚至為媒體處理服務編寫代碼。
這種多模式學習能力使VideoPoet在視頻生成方面更加靈活和強大，能夠處理更複雜和多樣化的任務。

演示視頻：

VideoPoet模型默認生成縱向視頻，主要是為了滿足短視頻內容的需求。為了展示其能力，谷歌研究團隊創建了由VideoPoet生成的短視頻，其中包含許多短剪輯。
為了製作這部短片，團隊首先讓巴德寫了一個關於旅行浣熊的短篇小說。巴德不僅提供了故事的場景細分，還列出了每個場景的提示。這些技巧用於指導VideoPoet生成與故事相匹配的視頻剪輯。
這個過程展示了VideoPoet在視頻內容創作方面的多樣性和創造力。通過結合不同的技術和工具，例如Bard的故事創作能力和VideoPoet的視頻生成能力，可以創建富有想像力和引人入勝的視覺內容。
這種方法為視頻製作和講故事開闢了新的可能性，特別適合製作短視頻和社交媒體內容。

VideoPoet的主要功能特點：

1.廣泛的視頻生成任務：VideoPoet可以處理各種視頻生成任務，包括文本到視頻、圖像到視頻、視頻樣式、視頻修復和擴展以及視頻到音頻。
2.多模式學習能力：與主要基於擴散的視頻生成模型不同，VideoPoet作為一個大型語言模型，在多種形式（包括語言、代碼和音頻）中表現出出色的學習能力。
3.集成多種視頻生成功能：VideoPoet將多種視頻生成功能集成在單個大型語言模型中，而不是依賴於針對每個任務單獨訓練的組件。
4.任務設計：VideoPoet可以根據不同的任務需求（如文本到視頻，圖像到視頻等）調整其生成流程。每個任務類型由特定的任務標籤指示，以指導模型生成相應的視頻。
5.長視頻生成：通過連續預測，VideoPoet可以生成更長的視頻。它通過在每個步驟中僅考慮視頻的最後部分（例如最後一秒），然後預測接下來會發生什麼來擴展視頻。
6.,交互式視頻編輯：允許用戶交互式編輯視頻，例如更改視頻中對象的動作或行為。這是通過向輸入視頻添加新的文本提示來實現的。
7.圖像到視頻控制：您可以根據文本提示設置輸入圖像的動畫並編輯其內容。
8.攝像機運動控制：通過添加特定的攝像機運動描述（例如變焦、平移、弧線拍攝等）對於文本提示，它可以在生成的視頻中實現這些攝像頭運動。

工作原理：

VideoPoet基於大型語言模型（LLM），該模型結合了多模式學習和自回歸模型。
VideoPoet使用大語言模型（LLM）來處理和生成文本，但接受過理解和生成視頻和音頻的訓練。
與多模式學習相結合，VideoPoet可以處理多種類型的輸入和輸出（例如文本、圖像、視頻和音頻）。它可以結合不同類型的信息（例如文本描述和圖像內容）來創建新的視頻內容。
自回歸模型：生成視頻的每一步都依賴於之前的步驟。這樣就可以逐步構建整個視頻，確保視頻內容的一致性和一致性。
視頻和音頻的編碼和解碼：為了處理視頻和音頻，VideoPoet使用特殊的編碼器（如MAGVIT V2和SoundStream）和解碼器將此內容轉換為模型理解的格式，然後將生成的內容轉換回視覺或聽覺格式。

詳細居間：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
演示：https://sites.research.google/videopoet/

演示視頻：

視頻：