AI行业应用

AI行业应用, 多媒体处理

Whisper WebGPU:使用 OpenAI Whisper 进行浏览器内实时语音识别

直接在网络浏览器中实现实时语音识别长期以来一直是一个备受追捧的里程碑。 Hugging Face 工程师(昵称“Xenova”)开发的 Whisper WebGPU 是一项突破性技术,利用 OpenAI 的 Whisper 模型实现浏览器内实时语音识别。这一显着的发展是与人工智能驱动的网络应用程序交互的巨大转变。

AI巨头, AI行业应用, Alphabet, 医疗AI

Google AI 医学影像模型

机器学习 (ML) 有潜力彻底改变医疗保健,从减少工作量和提高效率到发现新的生物标志物和疾病信号。为了负责任地利用这些好处,研究人员采用可解释性技术来了解机器学习模型如何进行预测。然而,当前基于显着性的方法突出了重要的图像区域,通常无法解释特定的视觉变化如何驱动机器学习决策。

AI行业应用, 多媒体处理

Seed-TTS细节的 TTS 技术

Seed-TTS,这是一系列大规模自回归文本转语音(TTS)模型,能够生成几乎与人类语音无法区分的语音。
Seed-TTS作为语音生成的基础模型,在语音上下文学习中表现出色,在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。
通过微调,我们在这些指标上获得了更高的主观评分

AI行业应用, 多媒体处理

语音转文本TTS模型

ChatTTS:专门为对话场景设计的文本到语音TTS模型

该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。
专为对话任务优化,能够支持多种说话人语音,中英文混合等。

AI巨头, AI行业应用, AI项目, Meta, 医疗AI

RadOnc-GPT 是医学领域中的LLM

在医学领域中,很少有领域比放射肿瘤学需要更高的精度或数据。 RadOnc-GPT 是一种经过微调的 LLM,使用 Meta Llama 2 构建,有可能显着改善放射治疗决策。

很少有领域比放射肿瘤学需要更高的精度或更多的数据。患者的生命取决于在这个专业领域获得正确的治疗。

AI项目, 多媒体处理

自动将你的网页内容转换为播客

Audio Native 是一个嵌入式音频播放器,可以自动为网页内容生成语音

只需插入一段简短的代码,即可插入到任何网页和内容中,自动为内容生成语音旁白。

您现在正在阅读的这一行的上方有一个播放按钮。按播放键,您可以收听由 ElevenLabs 语音自动生成的这篇文章的旁白。我们将这种嵌入式语音播放器称为“Audio Native”。

退出移动版