法国独立非盈利AI研究实验室Kyutai推出了具备70种情绪的语音助手Moshi,被视为GPT-4的新挑战者。此次在巴黎的演示显示,Moshi不仅具备多模态交互能力,还能实时生成具有情绪变化的语音,开创性地实现了语音AI的全新应用。
分类: 多媒体处理
Odyssey:提供影视级别的 AI 视频生成和编辑工具
高质量几何生成:生成精细的三维几何形状,用于构建逼真的场景和物体。 写实材质生成:创建高度真实的材质,使得生成的物体看起来更加生动和自然。 惊艳的光照效果:生成和控制光照效果,增强场景的视觉冲击力和氛围。 可控的运动生成:创建和调整动画和运动效果,使得场景和角色更加动态和逼真。
根据单张图像和音频输入生成唱歌和说话视频
和EMO相比,该项目已开源😄 它能够通过输入语音,生成对应的人物嘴唇同步、表情变化和姿态变化的动画。 提高了语音与生成动画之间的对齐精度,使动画的嘴唇、表情和姿态与语音更匹配。 提供对角色表情、姿态和嘴唇运动的精确控制。 支持多种表情和姿态的自适应控制,增强动画的多样性和真实性。
苹果发布的Translation API
苹果新出的翻译 API,不需要联网,完全使用本机大语言模型。 使用翻译框架提供应用内翻译。您可以使用内置 UI,让系统代表您向用户提供翻译。或者您可以使用该框架来定制翻译体验。 要提供内置系统翻译体验,请将视图修饰符锚定到包含要翻译的文本的 SwiftUI 视图。当您希望显示内置系统翻译...
Diffutoon:将任何真实感视频直接渲染为高清动漫风格
提供了 Colab 笔记,直接运行就可以,不需要摆弄麻烦的 Comfyui 流程和一堆模型了。 Diffutoon 能够以动漫风格渲染出细节丰富、高分辨率和长时间的视频。它还可以通过一个附加模块根据提示编辑内容。
RTranslator :一款开源、免费离线的实时翻译应用
可实现多人、多语言的实时对话翻译 用户可以通过蓝牙耳机连接应用,将手机放进口袋,与他人进行实时语言转换的对话,应用会自动翻译并播报对方的语言。
Runway最新视频生成模型上线
Gen-3 Alpha是Runway的反击之作。Gen-3 Alpha的一大特点是生成的视频具有高精细度,它可以理解并生成复杂的场景和运动画面,还能胜任多种电影艺术手法。
自动翻译油管语言的插件
YouTube Dubbing插件,一键将英语视频转换为中文的声音进行播放,非常适合用来看国外教程类的视频, 目前支持Youtube 和Udemy 。PC,Android ,IOS 都支持。
Whisper WebGPU:使用 OpenAI Whisper 进行浏览器内实时语音识别
直接在网络浏览器中实现实时语音识别长期以来一直是一个备受追捧的里程碑。 Hugging Face 工程师(昵称“Xenova”)开发的 Whisper WebGPU 是一项突破性技术,利用 OpenAI 的 Whisper...
Luma AI推出了视频生成器,名为 Dream Machine
Luma AI 刚刚推出了一款类似 Sora 的 AI 视频生成器,名为 Dream Machine。 但与 Sora 或 KLING 不同的是,它完全向公众开放。
Truecaller允许用户克隆自己的声音,来让AI接听电话
Truecaller 很自豪地宣布与 Microsoft 建立合作伙伴关系,利用 Microsoft Azure AI Speech 的全新个人语音技术。 Truecaller 的 AI 助手于 2022 年 9 月首次推出,已经融合了多种 AI...
Seed-TTS细节的 TTS 技术
Seed-TTS,这是一系列大规模自回归文本转语音(TTS)模型,能够生成几乎与人类语音无法区分的语音。 Seed-TTS作为语音生成的基础模型,在语音上下文学习中表现出色,在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。 通过微调,我们在这些指标上获得了更高的主观评分
语音转文本TTS模型
ChatTTS:专门为对话场景设计的文本到语音TTS模型 该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。 专为对话任务优化,能够支持多种说话人语音,中英文混合等。
Supertone Shift:实时语音变换器
可以将你直播说话时候的声音变声其他各种角色和性别的声音。 还能调整音调、音调动态和混响等参数,塑造个性化的声音。 也可以将你声音与任何角色的声音以任意比例混合,创造出新的声音 。
自动将你的网页内容转换为播客
Audio Native 是一个嵌入式音频播放器,可以自动为网页内容生成语音 只需插入一段简短的代码,即可插入到任何网页和内容中,自动为内容生成语音旁白。 您现在正在阅读的这一行的上方有一个播放按钮。按播放键,您可以收听由 ElevenLabs...
OpenVoice V2版本发布
OpenVoice,这是一种多功能的即时语音克隆方法,只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音。除了复制参考说话者的音色之外,OpenVoice 还可以对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调。