StoryDiffusion 这个字节的新项目表现很好
能够生成细节丰富、内容多样的图像和视频,同时保持角色身份和服饰的一致性。
可以帮助生成长篇漫画或者带连续剧情的视频。
与IP-Adapter和PhotoMaker等方法相比,StoryDiffusion在保持角色一致性的同时,还能更好地控制文本提示,生成与描述更匹配的图像和视频。
关键组件:
Consistent Self-Attention是StoryDiffusion框架的核心组件之一,它通过在生成过程中引入参考图像的样本Token,增强了不同图像间的一致性。
Semantic Motion Predictor是StoryDiffusion中的另一个关键组件,它专门用于长距离视频生成。
以下内容来自论文:
对于最近基于扩散的生成模型,在一系列生成的图像中保持一致的内容,特别是那些包含主题和复杂细节的图像,提出了重大挑战。
在本文中,我们提出了一种新的自注意力计算方法,称为一致性自注意力,它显着提高了生成图像之间的一致性,并以零样本方式增强了流行的基于预训练扩散的文本到图像模型。为了将我们的方法扩展到远程视频生成,我们进一步引入了一种新颖的语义空间时间运动预测模块,称为语义运动预测器。它被训练来估计语义空间中两个提供的图像之间的运动条件。该模块将生成的图像序列转换为具有平滑过渡和一致主题的视频,比仅基于潜在空间的模块更加稳定,特别是在长视频生成的情况下。
通过合并这两个新颖的组件,我们的框架(称为 StoryDiffusion)可以描述基于文本的故事,其中包含包含丰富内容的一致图像或视频。拟议的 StoryDiffusion 涵盖了通过图像和视频的呈现来生成视觉故事的开创性探索,我们希望这能够从建筑修改方面激发更多的研究。我们的代码在此 https URL 上公开提供。
如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢
论文:https://arxiv.org/abs/2405.01434
项目地址:https://storydiffusion.github.io