VideoGigaGAN,这是一种新的生成 VSR 模型,可以生成具有高频细节和时间一致性的视频。 VideoGigaGAN 基于大规模图像上采样器——GigaGAN。简单地通过添加时间模块将 GigaGAN 扩展到视频模型会产生严重的时间闪烁。...
分类: 多媒体处理
Vidu:可生成16秒、1080P视频的模型
这款模型被视为国内首个达到Sora级别的视频模型。 Vidu 不仅能模拟真实物理世界,还具备丰富的想象力,支持多镜头生成和高时空一致性。 Vidu 模型融合了 Diffusion 与 Transformer 技术,创新性地开发了 U-ViT 架构。
SpeechAlign:利用人类反馈改变语音合成,以增强技术交互的自然性和表现力
复旦大学的一个研究团队开发了 SpeechAlign,这是一个针对语音合成核心的创新框架,使生成的语音与人类偏好保持一致。与优先考虑技术准确性的传统模型不同,SpeechAlign 通过直接将人类反馈纳入语音生成而引入了巨大转变。这个反馈循环确保产生的语音在技术上是合理的并且在人类层面上产生共鸣。
Open Sora 团队发布了另一个视频生成项目 MagicTime
开发了一套名为 MagicAdapter 的技术,通过分开处理空间和时间训练,它能从变形视频中提取更多的物理知识,并使预训练的T2V模型能够生成这类视频。 ...
SAM模型视频分割项目
本项目的目标是运动分割——发现并分割视频中的运动对象。这是一个被广泛研究的领域,有许多仔细的、有时甚至是复杂的方法和训练方案,包括:自监督学习、从合成数据集学习、以对象为中心的表示、非模态表示等等。对本文的兴趣是确定 Segment Anything 模型 (SAM) 是否有助于完成此任务。
NoLang:输入任何主题或者网页链接直接生成视频
它支持文字、网页链接、PDF、提问等直接转视频 也就是你输入文字、链接NoLang能以视频形式快速回答。 输入PDF文件,会先给你总结内容,然后根据总结的内容在生成一个解答视频。
VoiceCraft:官宣超过XTTS的语音模型
支持克隆音频,支持通过修改原始音频的文本来编辑音频,演示效果非常好,看起来很有潜力。
FRESCO这个视频转绘项目
FRESCO这个视频转绘项目的代码已经发布,也在项目页面发布了更多的演示,看起来相当稳定。
Gatekeep:一个新型的文本转视频 AI,专注与教学
它可以通过文本提示将数学、物理问题转换成视频内容 它会自动生成包括图表、图示、动画原理,还包含讲解内容的2分钟左右的视频。 能非常直观的帮助你了解一些知识和原理。
Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目
Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目 VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频
Optimizer AI:专门为视频自动生成音效的AI工具 可以为AI视频自动配音
能够通过文字提示创造出适用于各种场景的声音和音效 如游戏中的射击和跳跃声音、动画中的雨声环境以及视频中的地铁到站声音等。
ChatGPT 语音朗读功能开始灰度测试
设置好语音,点击播放按钮,可以自动朗读GPT生成的内容 ChatGPT 的数据分析Data Analysis 将升级到V2 版本,功能更加强大!
Pika推出LipSync【唇部同步】功能
Lip Sync即可将生成视频中人物的嘴部动画和音频同步
Google的一个新的视频模型:VideoPoet
它可以根据文字描述来生成视频。但它不是基于扩散模型,而本身就是个LLM,可以理解和处理多模态信息,并将它们融合到视频生成过程中。 不仅能生成视频,还能给视频加上风格化的效果,还可修复和扩展视频,甚至从视频中生成音频。 一条龙服务... 例如,VideoPoet...
AzureOpenAIService宣布了一系列新功能
包括公开预览的Assistants API、新的文本到语音(TTS)功能、即将推出的GPT-4 Turbo和GPT-3.5 Turbo模型更新、新的嵌入模型以及微调API的更新。 与之前的聊天完成API相比,Assistants API能够记住之前的对话内容,创建持久化和无限长的线程。 ...
MetaVoice-1B:高度真实和自然的文本到语音(TTS)转换模型
模型有1.2亿个参数,经过了10万小时的语音数据训练。 专注英语情感演讲 跨语言语音克隆 支持美国和英国声音的零样本克隆 支持长篇内容语音合成