分類: 多媒体处理 - 第 7 頁 - Tarogo Cloud Bloger & Shop

AI行业应用 AI项目多媒体处理开源项目

几个开源AI项目一览

Ebook2Audiobook开源项目
将电子书自动转换为有声书支持语音克隆、多种语言

Hertz-dev：首个会话音频开源模型

小宾AI抠图

AI 头像动起来

16 1 月, 2025

AI行业应用 AI项目多媒体处理开源项目

PDF2Audio

将 PDF 文件转换为播客、讲座、摘要等音频内容

PDF2Audio 是一个开源项目，旨在将 PDF 文件转换为音频格式，如播客、讲座或摘要。该项目利用 OpenAI 的 GPT 模型进行文本生成和文本转语音（TTS）转换。用户可以上传多个 PDF 文件，并根据不同的模板（例如播客、讲座、摘要）生成音频内容。

29 12 月, 2024

AI行业应用多媒体处理

詹姆斯·厄尔·琼斯的达斯·维德声音通过人工智能得以延续

配音演员从中看到了希望和危险
在长达六十多年的演艺生涯中，詹姆斯·厄尔·琼斯的声音成为他作为表演者作品中不可磨灭的一部分。
琼斯于周一去世，享年 93 岁。在银幕上，琼斯在《梦想之地》中再现了一位隐居的作家，在《梦想之地》中重新回到聚光灯下，在《来到美国》中再现了一位虚构土地上傲慢的国王。

19 12 月, 2024

AI行业应用 AI项目多媒体处理开源项目文档AI

WechatFerry：一个开源微信机器人框架

助你轻松开发微信聊天机器人
WechatFerry 是一个微信机器人框架，提供了一套强大、快速且可定制的解决方案，适用于开发和集成微信机器人。为开发微信机器人的用户提供了 SDK 封装和多种插件，能够轻松调用微信的相关功能，适用于需要与微信进行交互的自动化任务。此项目包含多个组件和插件模块

10 12 月, 2024

AI行业应用多媒体处理工具软件

Audible 推出 AI 语音复制功能

Audible 即将推出新功能，邀请在美国的精选朗读员创建其声音的 AI 生成复制品，以丰富其有声书产品。此举旨在满足日益增长的音频内容需求，因为许多书籍仍未以这种格式提供。参与者将提交语音样本，Audible 将将其转化为高质量的复制品，作者可以在有声书创作交易所 (ACX) 上选择这些复制品用于他们的有声书。

9 12 月, 2024

AI行业应用多媒体处理文档AI

Storybooks玩具变故事书

一个在线插图工具，帮助作者、教育工作者和创意家长快速为儿童书籍创建插图。
可以使用先进的生成式AI模型，如Imagen、Stable Diffusion、DALL-E等，轻松地在几分钟内完成插图工作。
插图作品可以导出到各种媒体，如印刷书籍、电子书、YouTube等，且所有图像都可商用，无需支付版权费用。

30 10 月, 2024

AI巨头 AI行业应用 AI资讯 AI项目多媒体处理

xAI 的 Grok 现在可以在 X 上生成图像

xAI 的 Grok AI 模型现在可以在 X 社交网络上生成图像，尽管 Grok 访问目前仅限于 X 上的 Premium 和 Premium+ 用户。

示例图像下方的文字提示表明，Grok正在使用 Black Forest Labs 的 FLUX.1 来创建这些图像。用户生成的早期图像表明，Grok 的图像生成功能在创建政治人物图像方面没有任何限制，目前许多用户正在利用这一点。然而，随着美国总统大选的临近，该公司可能会面临对这些功能进行限制的压力。

17 10 月, 2024

AI行业应用 AI资讯 AI项目多媒体处理

PS2 Filter AI-AI一键图片转游戏怀旧风

PS2 Filter AI 是一个在线平台，它利用人工智能的力量将您的照片和图像转换为 PlayStation 2 时代的标志性视觉风格。它再现了 2000 年代早期视频游戏的低多边形模型、像素化纹理、独特的照明和整体怀旧感，让您的照片具有独特的复古游戏美感

9 10 月, 2024

AI行业应用多媒体处理

网站名称：Immersity AI

提供了将 2D 图像和视频快速转换为 3D 内容的工具，使用其独特的神经深度引擎生成精确的深度图，从而实现逼真的 3D 效果。

LeiaSR™是一个可以将2D显示转换为3D显示的技术平台，帮助观看者体验身临其境的感觉，就像他们是场景的一部分一样。
LeiaSR™ 结合了专利的可切换显示技术、先进的人工智能面部跟踪和内容转换。
LeiaSR™ 可在不影响原始显示质量的情况下实现令人惊叹的 3D 内容体验。它还与更广泛的 3D|XR 行业兼容。

6 10 月, 2024

AI行业应用 AI项目多媒体处理开源项目

AI视频剪辑软件：Kurisu

AI视频剪辑

一个靠口头描述来转换文件格式的程序。

字面意思，就是口述。

例如，你拖动或者上传了一份mp4，然后你只需在输入框内描述你想干的内容。像是“转成webm”“只保留视频第10秒到20秒之间的内容”“提取音频文件”“将视频倒放”这类。然后点击按钮们等待进度条完成就行。运用了ChatGPT和FFmpeg的对接。

3 10 月, 2024

AI巨头 AI行业应用 AI项目 OpenAI 多媒体处理开源项目

ChatGPT API SRT 字幕翻译器

此工具采用OpenAI ChatGPT API进行文本翻译，专注于行对行翻译，特别用于SRT字幕。通过去除SRT文件的额外开销并将文本分批处理，优化了令牌使用，确保输入和输出行数一致。支持Web UI和CLI接口，提供流式输出、请求速率限制、进度恢复等功能，适用于多种语言和特殊书写形式，如表情符号和单词打乱排序。

26 9 月, 2024

AI行业应用多媒体处理

Pikimov视频编辑器

Pikimov 是一款基于Web 的应用程序，允许用户创建和编辑各种媒体类型，包括图像、视频、音频和3D 模型。
它为运动设计提供了基于图层的合成系统和关键帧动画系统。
该应用程序与Windows、macOS 和Linux 操作系统兼容，无需任何安装。所有用户文件都保留在本地计算机上，不会上传到服务器

24 9 月, 2024

AI行业应用多媒体处理

海绵音乐

海绵音乐是由字节跳动最新推出的免费AI音乐创作和分享平台，旨在利用人工智能技术生成个性化音乐，海绵音乐在人声处理方面表现优异，尤其是在中文歌曲中，减少了电音的使用，提高了吐字清晰度和演唱流畅性。相比较Suno，海绵音乐的音乐风格更符合国人的喜好。

23 9 月, 2024

AI行业应用多媒体处理

Canva 收购 Leonardo.ai，提升生成式 AI 能力

Canva 已收购澳大利亚 AI 初创公司 Leonardo.ai，获得了其文本转图像和文本转视频生成器的访问权限。此举加强了 Canva 在生成式 AI 市场的地位，有可能挑战 Adobe 的主导地位。
Leonardo.ai 的技术将被整合到 Canva 的 Magic Studio 产品中，而其平台将保持独立运营。此次收购正值 Canva 寻求扩展其创意套件并与 Adobe 的 Firefly 模型竞争之际。然而，Canva 面临对其数据训练实践的审查，需要应对围绕生成式 AI 的伦理问题。

13 9 月, 2024

AI行业应用多媒体处理

CLASI ：字节跳动开发的端到端语音同步翻译系统

CLASI是由字节跳动开发的一个高质量的同时语音翻译系统，类似于专业的人类译员。它能实时翻译语音内容，保持高翻译质量和低延迟。CLASI利用先进的数据策略和多模态检索技术来处理复杂的术语和不清晰的语音信息。

CLASI会根据当前的音频内容，结合外部知识库和历史上下文，生成准确且容错的翻译。它在各种测试数据集上的表现都非常出色，能够传达更多有效信息。

9 9 月, 2024

AI行业应用多媒体处理

Vozo：AI视频生成器

Vozo Rewrite & Redub 是一款创新的视频编辑工具，你可以通过简单的提示重写视频脚本、然后这个工具会自动给视频重新配音、翻译语音并口型同步，然后生成新的视频。

无论是将经典视频转变为病毒视频宣传片，还是将普通视频变成喜剧，亦或是将一种语言翻译成多种语言，Vozo 都能在几秒钟内完成。

7 9 月, 2024

多媒体处理

几个开源AI项目一览

PDF2Audio

詹姆斯·厄尔·琼斯的达斯·维德声音通过人工智能得以延续

WechatFerry：一个开源微信机器人框架

Audible 推出 AI 语音复制功能

Storybooks玩具变故事书

xAI 的 Grok 现在可以在 X 上生成图像

PS2 Filter AI-AI一键图片转游戏怀旧风

网站名称：Immersity AI

AI视频剪辑软件：Kurisu

ChatGPT API SRT 字幕翻译器

Pikimov视频编辑器

海绵音乐

Canva 收购 Leonardo.ai，提升生成式 AI 能力

CLASI ：字节跳动开发的端到端语音同步翻译系统

Vozo：AI视频生成器

精选内容 · 赞助推荐

多语言翻译

分類

热门标签

Donate

Subscribe to Blog via Email