分类：多媒体处理 - 第 10 页 - Tarogo Cloud Bloger & Shop

AI项目, 多媒体处理, 开源项目

VoiceCraft：官宣超过XTTS的语音模型

Tarogo Cloud / 12 4 月, 2024

支持克隆音频，支持通过修改原始音频的文本来编辑音频，演示效果非常好，看起来很有潜力。

AI行业应用, AI项目, 多媒体处理

FRESCO这个视频转绘项目

Tarogo Cloud / 11 4 月, 2024

FRESCO这个视频转绘项目的代码已经发布，也在项目页面发布了更多的演示，看起来相当稳定。

AI行业应用, AI项目, 多媒体处理

Gatekeep：一个新型的文本转视频 AI，专注与教学

Tarogo Cloud / 11 4 月, 2024

它可以通过文本提示将数学、物理问题转换成视频内容
它会自动生成包括图表、图示、动画原理，还包含讲解内容的2分钟左右的视频。
能非常直观的帮助你了解一些知识和原理。

AI行业应用, AI项目, 多媒体处理

Google也弄了一个：一张照片+音频即可生成会说话唱歌的视频的项目

Tarogo Cloud / 4 4 月, 2024

Google也弄了一个：一张照片+音频即可生成会说话唱歌的视频的项目

VLOGGER：基于文本和音频驱动，从单张照片生成会说话的人类视频

AI行业应用, AI项目, 多媒体处理

Optimizer AI：专门为视频自动生成音效的AI工具可以为AI视频自动配音

Tarogo Cloud / 31 3 月, 2024

能够通过文字提示创造出适用于各种场景的声音和音效

如游戏中的射击和跳跃声音、动画中的雨声环境以及视频中的地铁到站声音等。

AI项目, 多媒体处理

ChatGPT 语音朗读功能开始灰度测试

Tarogo Cloud / 26 3 月, 2024

设置好语音，点击播放按钮，可以自动朗读GPT生成的内容
ChatGPT 的数据分析Data Analysis 将升级到V2 版本，功能更加强大！

AI项目, 多媒体处理

Pika推出LipSync【唇部同步】功能

Tarogo Cloud / 21 3 月, 2024

Lip Sync即可将生成视频中人物的嘴部动画和音频同步

AI行业应用, AI项目, 多媒体处理

Google的一个新的视频模型：VideoPoet

Tarogo Cloud / 12 3 月, 2024

它可以根据文字描述来生成视频。但它不是基于扩散模型，而本身就是个LLM，可以理解和处理多模态信息，并将它们融合到视频生成过程中。
不仅能生成视频，还能给视频加上风格化的效果，还可修复和扩展视频，甚至从视频中生成音频。
一条龙服务…
例如，VideoPoet 可以根据文本描述生成视频，或者将一张静态图片转换成动态视频。它还能理解和生成音频，甚至是编写用于视频处理的代码。