核心功能
本地 Whisper 语音转录 — 无需上传云端
从任意视频中提取语音并在本机转录字幕,支持 tiny/base/small/medium/large 模型。模型本地缓存,无需重复下载。
Ollama · DeepSeek · OpenAI · Anthropic 四种翻译引擎
使用本地 Ollama 模型(完全私有,无需 API Key)、DeepSeek 云端翻译、OpenAI(支持自定义 Base URL)或 Anthropic Claude,在设置中随时切换。
全局翻译上下文 — 提升专业内容翻译精度
可选:翻译前先基于视频标题和字幕抽样生成主题、术语和风格提示,再传给每条字幕翻译,提升专业内容的一致性。
并行字幕翻译 — 大幅加快处理速度
同时翻译多个字幕片段,可调整并发数以平衡速度和 API 限速。
导出 SRT、ASS、MKV 软字幕或硬烧录 MP4
导出独立的 .srt 文件、.ass 样式字幕文件、带软字幕轨的 .mkv(VLC/IINA 中可切换),或硬烧录字幕的 .mp4,直接上传 YouTube 或社交媒体。
100% 本地运行 — 视频永不离开你的 Mac
Electron 外壳 + 本地 Gradio UI。使用 Ollama 时完全离线,视频和字幕不经过任何服务器,保障隐私安全。
使用流程
- 01
安装应用
下载 DMG,将 VoxOver 拖到 Applications,然后启动。应用会自动启动本地 Gradio 服务器,浏览器将自动打开 http://127.0.0.1:7860。
- 02
上传视频
将任意 MP4 或 MOV 文件拖入 Gradio 界面,音频会自动提取为 16kHz 单声道。
- 03
选择 Whisper 模型
根据精度和速度需求选择 tiny 至 large 模型,首次下载后本地缓存,不重复下载。
- 04
选择翻译后端
连接本地运行的 Ollama 实例,或在设置中填入 DeepSeek / OpenAI / Anthropic API Key。
- 05
运行并导出
转录、翻译、合并全程一键完成,选择 SRT、ASS、MKV 或 MP4 导出格式。
输出格式
| 格式 | 说明 | 适用场景 |
|---|---|---|
.srt | 带时间轴的纯字幕文件 | 在任意编辑器或播放器中复用 |
.ass | Advanced SubStation Alpha — 支持字体、颜色、位置的样式字幕 | 视频平台样式字幕、字幕组、卡拉 OK 特效 |
.mkv | 原视频 + 软字幕轨道 | 本地播放,在 VLC/IINA 中可切换字幕 |
.mp4 | 字幕硬烧录到视频 | 上传就绪,适合 YouTube、社交媒体 |
运行环境
系统 / 环境
- macOS(推荐 Apple Silicon arm64)
本地翻译(Ollama)
- 本机已运行 Ollama
- 已拉取兼容模型,如
qwen3:latest - 配置完成后无需联网
云端翻译
- DeepSeek / OpenAI / Anthropic API Key
- OpenAI 支持自定义 Base URL,兼容所有 OpenAI 格式 API
- 需要网络连接
- 按量计费(无订阅)
常见问题
- 视频会上传到云端吗?
- 不会。视频处理(音频提取、Whisper 转录)全部在本机进行。仅在选择 DeepSeek 后端时,字幕文本会发送至 DeepSeek。Ollama 完全本地运行。
- 用哪个 Whisper 模型合适?
base速度快,对大多数内容精度够用。技术内容或口音较重的语音建议使用medium或large。模型首次下载后缓存在本机,不重复下载。- 可以翻译成任何语言吗?
- 翻译质量取决于所选后端模型。Ollama 的
qwen3等模型支持中文、日文、韩文及主要欧洲语言。DeepSeek 支持 50+ 种语言。 - Whisper 模型缓存在哪里?
- 模型缓存至
~/Library/Application Support/VoxOver/whisper-models。如果~/.cache/whisper中已有有效模型,首次启动时会自动复制。 - 是否支持 Intel Mac?
- 当前 DMG 仅支持 arm64。Intel 支持可能在后续版本加入,目前可从源码在 Intel 机器上运行。
- 是免费的吗?
- 是的,应用免费且开源(MIT)。DeepSeek API 费用按 DeepSeek 官方标准按量计费。
下载 VoxOver
v1.3.1 · macOS arm64 · 免费开源 (MIT)