直接在网络浏览器中实现实时语音识别长期以来一直是一个备受追捧的里程碑。 Hugging Face 工程师(昵称“Xenova”)开发的 Whisper WebGPU 是一项突破性技术,利用 OpenAI 的 Whisper...
分类: AI行业应用
Luma AI推出了视频生成器,名为 Dream Machine
Luma AI 刚刚推出了一款类似 Sora 的 AI 视频生成器,名为 Dream Machine。 但与 Sora 或 KLING 不同的是,它完全向公众开放。
Google AI 医学影像模型
机器学习 (ML) 有潜力彻底改变医疗保健,从减少工作量和提高效率到发现新的生物标志物和疾病信号。为了负责任地利用这些好处,研究人员采用可解释性技术来了解机器学习模型如何进行预测。然而,当前基于显着性的方法突出了重要的图像区域,通常无法解释特定的视觉变化如何驱动机器学习决策。
Truecaller允许用户克隆自己的声音,来让AI接听电话
Truecaller 很自豪地宣布与 Microsoft 建立合作伙伴关系,利用 Microsoft Azure AI Speech 的全新个人语音技术。 Truecaller 的 AI 助手于 2022 年 9 月首次推出,已经融合了多种 AI...
Seed-TTS细节的 TTS 技术
Seed-TTS,这是一系列大规模自回归文本转语音(TTS)模型,能够生成几乎与人类语音无法区分的语音。 Seed-TTS作为语音生成的基础模型,在语音上下文学习中表现出色,在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。 通过微调,我们在这些指标上获得了更高的主观评分
语音转文本TTS模型
ChatTTS:专门为对话场景设计的文本到语音TTS模型 该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。 专为对话任务优化,能够支持多种说话人语音,中英文混合等。
RadOnc-GPT 是医学领域中的LLM
在医学领域中,很少有领域比放射肿瘤学需要更高的精度或数据。 RadOnc-GPT 是一种经过微调的 LLM,使用 Meta Llama 2 构建,有可能显着改善放射治疗决策。 很少有领域比放射肿瘤学需要更高的精度或更多的数据。患者的生命取决于在这个专业领域获得正确的治疗。
Supertone Shift:实时语音变换器
可以将你直播说话时候的声音变声其他各种角色和性别的声音。 还能调整音调、音调动态和混响等参数,塑造个性化的声音。 也可以将你声音与任何角色的声音以任意比例混合,创造出新的声音 。
自动将你的网页内容转换为播客
Audio Native 是一个嵌入式音频播放器,可以自动为网页内容生成语音 只需插入一段简短的代码,即可插入到任何网页和内容中,自动为内容生成语音旁白。 您现在正在阅读的这一行的上方有一个播放按钮。按播放键,您可以收听由 ElevenLabs...
Google DeepMind 发布了 AlphaFold 3
能够预测所有生命分子结构和相互作用 AI 模型 该模型能够生成蛋白质、DNA 和其他分子的 3D 结构,并揭示它们如何组合在一起。 该模型还能够模拟影响细胞健康的化学变化,并检测可能导致疾病的异常。 AlphaFold 3...
特斯拉放出了擎天柱机器人最新训练视频
最罕见的是特斯拉曝光了机器人的训练情况 似乎是完全靠视觉辅助和人类示范进行训练,也就是和特斯拉汽车一样的逻辑!
科学家通过机器学习模型,为脓毒症治疗“争分夺秒”
这项研究的结果表明,个性化的抗生素治疗时间建议模型可以帮助医生更好地决策,避免治疗延迟或过早给药带来的潜在危害,同时降低患者的死亡率和医疗成本。
OpenVoice V2版本发布
OpenVoice,这是一种多功能的即时语音克隆方法,只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音。除了复制参考说话者的音色之外,OpenVoice 还可以对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调。
Adobe发布了视频超分项目VideoGigaGAN
VideoGigaGAN,这是一种新的生成 VSR 模型,可以生成具有高频细节和时间一致性的视频。 VideoGigaGAN 基于大规模图像上采样器——GigaGAN。简单地通过添加时间模块将 GigaGAN 扩展到视频模型会产生严重的时间闪烁。...
微软必应的一项新专利详细介绍了“视觉搜索”
微软在 Bing 图片搜索中已引入视觉搜索选项,通过识别图片中的内容,并扩展显示相关的图片资源,实现以图搜图功能。 微软计划将必应的图片搜索引入到聊天平台上,增强用户参与度并提供更全面的搜索结果。
中国机器人公司LimX Dynamics
中国机器人公司LimX Dynamics展示了双足平衡和导航技术已经发展到了多么高的水平 ...