分类：多媒体处理 - 第 9 页 - Tarogo Cloud Bloger & Shop

Truecaller允许用户克隆自己的声音，来让AI接听电话

Tarogo Cloud / 1 7 月, 2024

Truecaller 很自豪地宣布与 Microsoft 建立合作伙伴关系，利用 Microsoft Azure AI Speech 的全新个人语音技术。 Truecaller 的 AI 助手于 2022 年 9 月首次推出，已经融合了多种 AI 技术，可以自动为您接听电话、屏幕呼叫、接收消息、代表您回复或记录通话以供您以后查看。

AI行业应用, 多媒体处理

语音转文本TTS模型

Tarogo Cloud / 30 6 月, 2024

ChatTTS：专门为对话场景设计的文本到语音TTS模型

该模型经过超过10万小时的训练，公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。
专为对话任务优化，能够支持多种说话人语音，中英文混合等。

AI行业应用, 多媒体处理

Seed-TTS细节的 TTS 技术

Tarogo Cloud / 30 6 月, 2024

Seed-TTS，这是一系列大规模自回归文本转语音（TTS）模型，能够生成几乎与人类语音无法区分的语音。
Seed-TTS作为语音生成的基础模型，在语音上下文学习中表现出色，在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。
通过微调，我们在这些指标上获得了更高的主观评分

AI项目, 多媒体处理

Supertone Shift：实时语音变换器

Tarogo Cloud / 14 6 月, 2024

可以将你直播说话时候的声音变声其他各种角色和性别的声音。
还能调整音调、音调动态和混响等参数，塑造个性化的声音。
也可以将你声音与任何角色的声音以任意比例混合，创造出新的声音。

AI项目, 多媒体处理

自动将你的网页内容转换为播客

Tarogo Cloud / 13 6 月, 2024

Audio Native 是一个嵌入式音频播放器，可以自动为网页内容生成语音

只需插入一段简短的代码，即可插入到任何网页和内容中，自动为内容生成语音旁白。

您现在正在阅读的这一行的上方有一个播放按钮。按播放键，您可以收听由 ElevenLabs 语音自动生成的这篇文章的旁白。我们将这种嵌入式语音播放器称为“Audio Native”。

AI项目, 多媒体处理, 开源项目

OpenVoice V2版本发布

Tarogo Cloud / 3 6 月, 2024

OpenVoice，这是一种多功能的即时语音克隆方法，只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音。除了复制参考说话者的音色之外，OpenVoice 还可以对语音风格进行精细控制，包括情感、口音、节奏、停顿和语调。

Adobe, AI项目, 多媒体处理

Adobe发布了视频超分项目VideoGigaGAN

Tarogo Cloud / 2 6 月, 2024

VideoGigaGAN，这是一种新的生成 VSR 模型，可以生成具有高频细节和时间一致性的视频。
VideoGigaGAN 基于大规模图像上采样器——GigaGAN。简单地通过添加时间模块将 GigaGAN 扩展到视频模型会产生严重的时间闪烁。
确定了几个关键问题，并提出了显着提高上采样视频的时间一致性的技术。