视频转字幕工具,一键生成高质量 SRT 字幕

作者

Tarogo Cloud

创建

2 5 月, 202528 4 月, 2025

更新

28 4 月, 20252 5 月, 2025

阅读时间

不到 1 分钟

查看

类别: AI行业应用, AI项目, 多媒体处理, 开源项目, 文档AI

https://youtu.be/QNwg3zGv1OE

项目名称：VideoTextPro
项目功能：文字转换工具
项目简介：一个专为抖音直播录制视频优化的文字转换工具，主要用于处理直播回放和录制视频的文字提取与字幕生成，支持多种视频和音频格式，包括FLV、MP4、AVI等。
具备高效的批量处理能力，能够自动扫描录播文件夹，智能跳过已处理文件，并支持多种字幕格式（如SRT、ASS、TXT）。

📌 项目简介

该项目名为 video-to-text-conversion，旨在将视频文件中的音频内容转录为文本，也就是自动生成字幕。支持多语言语音识别，并生成带时间轴的字幕（.srt 文件）。

🧰 项目功能

支持将视频中的音频提取并识别为文本；
生成标准 .srt 字幕文件，便于视频播放器加载；
可以识别多种语言；
支持将多个视频文件批量处理。

🔧 安装步骤

克隆项目

git clone https://github.com/ldlkuz/video-to-text-conversion.git
cd video-to-text-conversion

创建虚拟环境并安装依赖

python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt

▶️ 使用方法

将你的视频文件（例如 .mp4）放入 videos/ 文件夹中。
运行主脚本
```
python main.py
```
执行后，它会：
- 遍历 videos/ 文件夹中的所有视频；
- 为每个视频提取音频；
- 使用 Whisper 进行语音转录；
- 将结果保存为 .srt 格式字幕文件，输出到 subtitles/ 文件夹。

📁 项目结构

main.py：主程序，处理视频文件、调用 Whisper 并生成字幕。
videos/：放置待处理的视频文件。
subtitles/：输出生成的字幕文件。
requirements.txt：所需 Python 库列表（主要包括 openai-whisper, moviepy, ffmpeg-python 等）。

⚙️ 支持的语言

Whisper 模型原生支持多种语言，不限于英语。你可以修改代码来指定识别语言。

📝 注意事项

你需要安装 FFmpeg（用于处理视频和音频），确保命令行中可以调用 ffmpeg；
若系统中没有显卡，模型会默认使用 CPU，可能会导致速度较慢；
若需要更高精度，可以使用 Whisper 的大型模型（需自行修改代码加载对应模型）。

项目地址：点击打开 (https://github.com/ldlkuz/video-to-text-conversion)

油管：https://youtu.be/QNwg3zGv1OE