多媒体处理

2024

Storybooks玩具变故事书

一个在线插图工具,帮助作者、教育工作者和创意家长快速为儿童书籍创建插图。
可以使用先进的生成式AI模型,如Imagen、Stable Diffusion、DALL-E等,轻松地在几分钟内完成插图工作。
插图作品可以导出到各种媒体,如印刷书籍、电子书、YouTube等,且所有图像都可商用,无需支付版权费用。

30 10 月, 2024

xAI 的 Grok 现在可以在 X 上生成图像

xAI 的 Grok AI 模型现在可以在 X 社交网络上生成图像,尽管 Grok 访问目前仅限于 X 上的 Premium 和 Premium+ 用户。

示例图像下方的文字提示表明,Grok正在使用 Black Forest Labs 的 FLUX.1 来创建这些图像。用户生成的早期图像表明,Grok 的图像生成功能在创建政治人物图像方面没有任何限制,目前许多用户正在利用这一点。然而,随着美国总统大选的临近,该公司可能会面临对这些功能进行限制的压力。

17 10 月, 2024

网站名称:Immersity AI

提供了将 2D 图像和视频快速转换为 3D 内容的工具,使用其独特的神经深度引擎生成精确的深度图,从而实现逼真的 3D 效果。

LeiaSR™是一个可以将2D显示转换为3D显示的技术平台,帮助观看者体验身临其境的感觉,就像他们是场景的一部分一样。
LeiaSR™ 结合了专利的可切换显示技术、先进的人工智能面部跟踪和内容转换。
LeiaSR™ 可在不影响原始显示质量的情况下实现令人惊叹的 3D 内容体验。它还与更广泛的 3D|XR 行业兼容。

6 10 月, 2024

AI视频剪辑软件:Kurisu

AI视频剪辑

一个靠口头描述来转换文件格式的程序。

字面意思,就是口述。

例如,你拖动或者上传了一份mp4,然后你只需在输入框内描述你想干的内容。 像是“转成webm”“只保留视频第10秒到20秒之间的内容”“提取音频文件”“将视频倒放”这类。 然后点击按钮们等待进度条完成就行。 运用了ChatGPT和FFmpeg的对接。

3 10 月, 2024

ChatGPT API SRT 字幕翻译器

此工具采用OpenAI ChatGPT API进行文本翻译,专注于行对行翻译,特别用于SRT字幕。通过去除SRT文件的额外开销并将文本分批处理,优化了令牌使用,确保输入和输出行数一致。支持Web UI和CLI接口,提供流式输出、请求速率限制、进度恢复等功能,适用于多种语言和特殊书写形式,如表情符号和单词打乱排序。

26 9 月, 2024

Pikimov视频编辑器

Pikimov 是一款基于Web 的应用程序,允许用户创建和编辑各种媒体类型,包括图像、视频、音频和3D 模型。
它为运动设计提供了基于图层的合成系统和关键帧动画系统。
该应用程序与Windows、macOS 和Linux 操作系统兼容,无需任何安装。 所有用户文件都保留在本地计算机上,不会上传到服务器

24 9 月, 2024

海绵音乐

海绵音乐是由字节跳动最新推出的免费AI音乐创作和分享平台,旨在利用人工智能技术生成个性化音乐,海绵音乐在人声处理方面表现优异,尤其是在中文歌曲中,减少了电音的使用,提高了吐字清晰度和演唱流畅性。相比较Suno,海绵音乐的音乐风格更符合国人的喜好。

23 9 月, 2024

Canva 收购 Leonardo.ai,提升生成式 AI 能力

Canva 已收购澳大利亚 AI 初创公司 Leonardo.ai,获得了其文本转图像和文本转视频生成器的访问权限。此举加强了 Canva 在生成式 AI 市场的地位,有可能挑战 Adobe 的主导地位。
Leonardo.ai 的技术将被整合到 Canva 的 Magic Studio 产品中,而其平台将保持独立运营。此次收购正值 Canva 寻求扩展其创意套件并与 Adobe 的 Firefly 模型竞争之际。然而,Canva 面临对其数据训练实践的审查,需要应对围绕生成式 AI 的伦理问题。

13 9 月, 2024

CLASI :字节跳动开发的端到端语音同步翻译系统

CLASI是由字节跳动开发的一个高质量的同时语音翻译系统,类似于专业的人类译员。它能实时翻译语音内容,保持高翻译质量和低延迟。CLASI利用先进的数据策略和多模态检索技术来处理复杂的术语和不清晰的语音信息。

CLASI会根据当前的音频内容,结合外部知识库和历史上下文,生成准确且容错的翻译。它在各种测试数据集上的表现都非常出色,能够传达更多有效信息。

9 9 月, 2024

Vozo:AI视频生成器

Vozo Rewrite & Redub 是一款创新的视频编辑工具,你可以通过简单的提示重写视频脚本、然后这个工具会自动给视频重新配音、翻译语音并口型同步,然后生成新的视频。

无论是将经典视频转变为病毒视频宣传片,还是将普通视频变成喜剧,亦或是将一种语言翻译成多种语言,Vozo 都能在几秒钟内完成。

7 9 月, 2024

Udio进行重大升级,大幅提升音乐音质和控制

大部分新功能需要订阅标准版才可以用,目前的定价是 10 美元/月

AI 说唱生成器是一款尖端工具,利用先进的人工智能来创作独特的说唱歌曲。无论您是经验丰富的艺术家还是只是想享受乐趣,我们的人工智能说唱生成器都提供了一种无缝的方式来制作个性化的说唱音乐。您可以输入自己的歌词、选择乐器并选择音乐风格,以根据您的喜好精确定制您的说唱歌曲。

6 9 月, 2024

SpeechGPT2:一个端到端的语音对话语言模型

它能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应,如说唱、戏剧、机器人、搞笑和低语等。

超过10万小时的学术和野外收集的语音数据, 涵盖了丰富的语音场景和风格。

SpeechGPT2 是在有限资源下的技术探索,由于计算和数据资源的限制,它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。

3 9 月, 2024

PixVerse 发布V2版本视频模型

升级版的PixVerse V2,不光能生成8秒的视频,还能让你的创意天花乱坠。

别以为8秒就敷衍了事。这V2可是个细节控,分辨率、动态效果都跟打了鸡血似的。
就连蚂蚁打喷嚏,它都能给你拍得清清楚楚。

1 9 月, 2024

ElevenLabs 发布Turbo 2.5模型

该模型支持包括普通话在内的 32 种语言,能为全球近 80%的地区提供高质量、低延迟的 AI 对话;
首次支持越南语、匈牙利语和挪威语;
重点提高了印地语、法语、西班牙语、普通话等 27 种语言的响应速度,其中英语速度提高了 25%,最高提升达 3 倍;
结合先进技术和低延迟模型架构,可快速合成语音,保持流畅自然且高品质的音质,响应时间不超 400 毫秒。

23 8 月, 2024