海绵音乐是由字节跳动最新推出的免费AI音乐创作和分享平台,旨在利用人工智能技术生成个性化音乐,海绵音乐在人声处理方面表现优异,尤其是在中文歌曲中,减少了电音的使用,提高了吐字清晰度和演唱流畅性。相比较Suno,海绵音乐的音乐风格更符合国人的喜好。
分类: 多媒体处理
Canva 收购 Leonardo.ai,提升生成式 AI 能力
Canva 已收购澳大利亚 AI 初创公司 Leonardo.ai,获得了其文本转图像和文本转视频生成器的访问权限。此举加强了 Canva 在生成式 AI 市场的地位,有可能挑战 Adobe 的主导地位。 Leonardo.ai 的技术将被整合到 Canva 的 Magic Studio...
CLASI :字节跳动开发的端到端语音同步翻译系统
CLASI是由字节跳动开发的一个高质量的同时语音翻译系统,类似于专业的人类译员。它能实时翻译语音内容,保持高翻译质量和低延迟。CLASI利用先进的数据策略和多模态检索技术来处理复杂的术语和不清晰的语音信息。 ...
Vozo:AI视频生成器
Vozo Rewrite & Redub 是一款创新的视频编辑工具,你可以通过简单的提示重写视频脚本、然后这个工具会自动给视频重新配音、翻译语音并口型同步,然后生成新的视频。 无论是将经典视频转变为病毒视频宣传片,还是将普通视频变成喜剧,亦或是将一种语言翻译成多种语言,Vozo...
Udio进行重大升级,大幅提升音乐音质和控制
大部分新功能需要订阅标准版才可以用,目前的定价是 10 美元/月 AI...
SpeechGPT2:一个端到端的语音对话语言模型
它能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应,如说唱、戏剧、机器人、搞笑和低语等。 超过10万小时的学术和野外收集的语音数据, 涵盖了丰富的语音场景和风格。 SpeechGPT2...
PixVerse 发布V2版本视频模型
升级版的PixVerse V2,不光能生成8秒的视频,还能让你的创意天花乱坠。 别以为8秒就敷衍了事。这V2可是个细节控,分辨率、动态效果都跟打了鸡血似的。 就连蚂蚁打喷嚏,它都能给你拍得清清楚楚。
AudioNotes:音视频内容转笔记系统
AudioNotes 是一个基于 FunASR 和 Qwen2 构建的音视频内容转结构化笔记系统。它的主要功能是快速提取音视频的内容,并通过调用大模型进行整理,将这些内容转换为结构化的Markdown笔记,便于用户快速阅读和理解。
ElevenLabs 发布Turbo 2.5模型
该模型支持包括普通话在内的 32 种语言,能为全球近 80%的地区提供高质量、低延迟的 AI 对话; 首次支持越南语、匈牙利语和挪威语; 重点提高了印地语、法语、西班牙语、普通话等 27 种语言的响应速度,其中英语速度提高了 25%,最高提升达 3 倍;...
Emilia 一个开源多语言高质量语音数据集
港中大(深圳)联合中科院声学所、上海人工智能实验室等机构发布了超过10万小时包含6种语言的多样化的语音生成数据集—— Emilia! ...
DETECT-2B :音频深度伪造检测工具
etect-2B的子模型由带有关键层插入适配模块的冻结音频表示模型组成。这些适配模块专注于识别真实音频与伪造音频的细微差别——即录音中不经意留下的声音痕迹。大多数AI生成的音频片段听起来都“过于完美”。Detect-2B能够预测音频中AI制作的成分,而且无需每次听到新片段时都重新训练模型。这些子模型
StreamVC: 实时低延迟语音转换
StreamVC 即使在移动平台上也能以低延迟从输入信号生成结果波形,使其适用于呼叫和视频会议等实时通信场景,并解决这些场景中的语音匿名等用例。 谷歌的设计利用 SoundStream 神经音频编解码器的架构和训练策略来实现轻量级高质量语音合成。...
RenderNet Al 推出视频换脸功能
RenderNet Al是一款强大的图像生成工具,专注于创建一致的角色, 并控制其姿势、构图和风格,现在推出了视频换脸功能.. 这款 AI 视频换脸工具非常强大
这家人工智能公司希望彻底改变将对话重新配音成不同语言的方式
Flawless 是一家人工智能驱动的电影制作工作室,希望您在观看热门节目的同时还能在晚上安然入睡(不会出现不匹配的嘴巴动作和残酷的场景剪辑)。 Flawless 的专有技术 TrueSync 于 2018 年由多才多艺的导演斯科特·曼 (Scott Mann) 和尼克·莱恩斯 (Nick...
Stability AI推出Stable Assistant两大新功能
Stability AI宣布为其用户友好型聊天机器人Stable Assistant推出两项创新功能,进一步提升用户体验和创造力。这两项新功能分别是图片编辑中的搜索和替换,以及通过Stable Audio生成高质量音频。
Kyutai 发布全新的开源 AI语音助手 Moshi
法国独立非盈利AI研究实验室Kyutai推出了具备70种情绪的语音助手Moshi,被视为GPT-4的新挑战者。此次在巴黎的演示显示,Moshi不仅具备多模态交互能力,还能实时生成具有情绪变化的语音,开创性地实现了语音AI的全新应用。