分類: 多媒体处理 - 第 10 頁 - Tarogo Cloud Bloger & Shop

AI项目多媒体处理

NoLang：输入任何主题或者网页链接直接生成视频

它支持文字、网页链接、PDF、提问等直接转视频
也就是你输入文字、链接NoLang能以视频形式快速回答。
输入PDF文件，会先给你总结内容，然后根据总结的内容在生成一个解答视频。

17 4 月, 2024

AI项目多媒体处理开源项目

VoiceCraft：官宣超过XTTS的语音模型

支持克隆音频，支持通过修改原始音频的文本来编辑音频，演示效果非常好，看起来很有潜力。

12 4 月, 2024

AI行业应用 AI项目多媒体处理

FRESCO这个视频转绘项目

FRESCO这个视频转绘项目的代码已经发布，也在项目页面发布了更多的演示，看起来相当稳定。

11 4 月, 2024

AI行业应用 AI项目多媒体处理

Gatekeep：一个新型的文本转视频 AI，专注与教学

它可以通过文本提示将数学、物理问题转换成视频内容
它会自动生成包括图表、图示、动画原理，还包含讲解内容的2分钟左右的视频。
能非常直观的帮助你了解一些知识和原理。

11 4 月, 2024

AI行业应用 AI项目多媒体处理

Google也弄了一个：一张照片+音频即可生成会说话唱歌的视频的项目

VLOGGER：基于文本和音频驱动，从单张照片生成会说话的人类视频

4 4 月, 2024

AI行业应用 AI项目多媒体处理

Optimizer AI：专门为视频自动生成音效的AI工具可以为AI视频自动配音

能够通过文字提示创造出适用于各种场景的声音和音效

如游戏中的射击和跳跃声音、动画中的雨声环境以及视频中的地铁到站声音等。

31 3 月, 2024

AI项目多媒体处理

ChatGPT 语音朗读功能开始灰度测试

设置好语音，点击播放按钮，可以自动朗读GPT生成的内容
ChatGPT 的数据分析Data Analysis 将升级到V2 版本，功能更加强大！

26 3 月, 2024

AI项目多媒体处理

Pika推出LipSync【唇部同步】功能

Lip Sync即可将生成视频中人物的嘴部动画和音频同步

21 3 月, 2024

AI行业应用 AI项目多媒体处理

Google的一个新的视频模型：VideoPoet

它可以根据文字描述来生成视频。但它不是基于扩散模型，而本身就是个LLM，可以理解和处理多模态信息，并将它们融合到视频生成过程中。
不仅能生成视频，还能给视频加上风格化的效果，还可修复和扩展视频，甚至从视频中生成音频。
一条龙服务…
例如，VideoPoet 可以根据文本描述生成视频，或者将一张静态图片转换成动态视频。它还能理解和生成音频，甚至是编写用于视频处理的代码。