分类: 多媒体处理

Kyutai 发布全新的开源 AI语音助手 Moshi

法国独立非盈利AI研究实验室Kyutai推出了具备70种情绪的语音助手Moshi,被视为GPT-4的新挑战者。此次在巴黎的演示显示,Moshi不仅具备多模态交互能力,还能实时生成具有情绪变化的语音,开创性地实现了语音AI的全新应用。

Odyssey:提供影视级别的 AI 视频生成和编辑工具

高质量几何生成:生成精细的三维几何形状,用于构建逼真的场景和物体。 写实材质生成:创建高度真实的材质,使得生成的物体看起来更加生动和自然。 惊艳的光照效果:生成和控制光照效果,增强场景的视觉冲击力和氛围。 可控的运动生成:创建和调整动画和运动效果,使得场景和角色更加动态和逼真。

根据单张图像和音频输入生成唱歌和说话视频

和EMO相比,该项目已开源😄 它能够通过输入语音,生成对应的人物嘴唇同步、表情变化和姿态变化的动画。 提高了语音与生成动画之间的对齐精度,使动画的嘴唇、表情和姿态与语音更匹配。 提供对角色表情、姿态和嘴唇运动的精确控制。 支持多种表情和姿态的自适应控制,增强动画的多样性和真实性。

苹果发布的Translation API

苹果新出的翻译 API,不需要联网,完全使用本机大语言模型。 使用翻译框架提供应用内翻译。您可以使用内置 UI,让系统代表您向用户提供翻译。或者您可以使用该框架来定制翻译体验。 要提供内置系统翻译体验,请将视图修饰符锚定到包含要翻译的文本的 SwiftUI 视图。当您希望显示内置系统翻译...

Seed-TTS细节的 TTS 技术

Seed-TTS,这是一系列大规模自回归文本转语音(TTS)模型,能够生成几乎与人类语音无法区分的语音。 Seed-TTS作为语音生成的基础模型,在语音上下文学习中表现出色,在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。 通过微调,我们在这些指标上获得了更高的主观评分

语音转文本TTS模型

ChatTTS:专门为对话场景设计的文本到语音TTS模型 该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。 专为对话任务优化,能够支持多种说话人语音,中英文混合等。

Supertone Shift:实时语音变换器

可以将你直播说话时候的声音变声其他各种角色和性别的声音。 还能调整音调、音调动态和混响等参数,塑造个性化的声音。 也可以将你声音与任何角色的声音以任意比例混合,创造出新的声音 。

自动将你的网页内容转换为播客

Audio Native 是一个嵌入式音频播放器,可以自动为网页内容生成语音 只需插入一段简短的代码,即可插入到任何网页和内容中,自动为内容生成语音旁白。 您现在正在阅读的这一行的上方有一个播放按钮。按播放键,您可以收听由 ElevenLabs...

OpenVoice V2版本发布

OpenVoice,这是一种多功能的即时语音克隆方法,只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音。除了复制参考说话者的音色之外,OpenVoice 还可以对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调。