WhisperSpeech:一个开源的文本到语音系统

牛P的是它是通过对OpenAI的Whisper语音识别模型反向工程来实现的。

通过这种反转过程,WhisperSpeech能够接收文本输入,并利用修改后的Whisper模型生成听起来自然的语音输出。

输出的语音在发音准确性和自然度方面都非常的优秀。

WhisperSpeech 项目路线图:

  • 声学标记提取:改进声学标记的提取过程。
  • 语义标记提取:使用Whisper模型生成和量化语义标记。
  • S->A模型转换:开发将语义标记转换为声学标记的模型。
  • T->S模型转换:实现从文本标记到语义标记的转换。
  • 提升EnCodec语音质量:优化EnCodec模型以提高语音合成质量。
  • 短句推理优化:改善系统处理短句的能力。
  • 扩展情感语音数据集:收集更大的情感语音数据。
  • 文档化LibriLight数据集:详细记录HuggingFace上的数据集。
  • 多语言语音收集:聚集社区资源,收集多种语言的语音。
  • 训练多语言模型:开发支持多语言的文本到语音模型。

GitHub:https://github.com/collabora/WhisperSpeech
网站:https://collabora.github.io/WhisperSpeech/
在线体验:https://replicate.com/lucataco/whisperspeech-small

本视频中内容经过safari自动翻译

视频:https://youtu.be/emClOlUUat0

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读