分类: 多媒体处理

ChatGPT API SRT 字幕翻译器

此工具采用OpenAI ChatGPT API进行文本翻译,专注于行对行翻译,特别用于SRT字幕。通过去除SRT文件的额外开销并将文本分批处理,优化了令牌使用,确保输入和输出行数一致。支持Web...

Pikimov视频编辑器

Pikimov 是一款基于Web 的应用程序,允许用户创建和编辑各种媒体类型,包括图像、视频、音频和3D 模型。 它为运动设计提供了基于图层的合成系统和关键帧动画系统。 该应用程序与Windows、macOS 和Linux 操作系统兼容,无需任何安装。...

海绵音乐

海绵音乐是由字节跳动最新推出的免费AI音乐创作和分享平台,旨在利用人工智能技术生成个性化音乐,海绵音乐在人声处理方面表现优异,尤其是在中文歌曲中,减少了电音的使用,提高了吐字清晰度和演唱流畅性。相比较Suno,海绵音乐的音乐风格更符合国人的喜好。

Vozo:AI视频生成器

Vozo Rewrite & Redub 是一款创新的视频编辑工具,你可以通过简单的提示重写视频脚本、然后这个工具会自动给视频重新配音、翻译语音并口型同步,然后生成新的视频。 无论是将经典视频转变为病毒视频宣传片,还是将普通视频变成喜剧,亦或是将一种语言翻译成多种语言,Vozo...

PixVerse 发布V2版本视频模型

升级版的PixVerse V2,不光能生成8秒的视频,还能让你的创意天花乱坠。 别以为8秒就敷衍了事。这V2可是个细节控,分辨率、动态效果都跟打了鸡血似的。 就连蚂蚁打喷嚏,它都能给你拍得清清楚楚。

AudioNotes:音视频内容转笔记系统

AudioNotes 是一个基于 FunASR 和 Qwen2 构建的音视频内容转结构化笔记系统。它的主要功能是快速提取音视频的内容,并通过调用大模型进行整理,将这些内容转换为结构化的Markdown笔记,便于用户快速阅读和理解。

ElevenLabs 发布Turbo 2.5模型

该模型支持包括普通话在内的 32 种语言,能为全球近 80%的地区提供高质量、低延迟的 AI 对话; 首次支持越南语、匈牙利语和挪威语; 重点提高了印地语、法语、西班牙语、普通话等 27 种语言的响应速度,其中英语速度提高了 25%,最高提升达 3 倍;...

DETECT-2B :音频深度伪造检测工具

etect-2B的子模型由带有关键层插入适配模块的冻结音频表示模型组成。这些适配模块专注于识别真实音频与伪造音频的细微差别——即录音中不经意留下的声音痕迹。大多数AI生成的音频片段听起来都“过于完美”。Detect-2B能够预测音频中AI制作的成分,而且无需每次听到新片段时都重新训练模型。这些子模型

StreamVC: 实时低延迟语音转换

StreamVC 即使在移动平台上也能以低延迟从输入信号生成结果波形,使其适用于呼叫和视频会议等实时通信场景,并解决这些场景中的语音匿名等用例。 谷歌的设计利用 SoundStream 神经音频编解码器的架构和训练策略来实现轻量级高质量语音合成。...