最强分说话人语音识别工具，支持批量音视频识别转字幕，字幕翻译内容总结-诺瓦小站

本软件是一款基于 Qwen3-ASR-1.7B 大模型的本地音视频语音识别工具，配备说话人分离功能，可在个人电脑上实现：

批量音频/视频转文字
自动区分说话人
导出带时间轴的 TXT / SRT / 字幕文件
可选 AI 翻译（双语字幕）
可选 AI 内容总结（摘要 / 核心结论 / 待办事项）

整个流程通过简洁的 Gradio Web 界面 操作，点击按钮即可完成识别与导出。

主要功能特点

1. 单文件识别与批量识别

单文件上传：支持上传 .wav、.mp3、.flac、.ogg、.m4a、.aac 等音频，以及 .mp4、.avi、.mov、.mkv、.flv 等视频文件。
文件夹批量处理：只需输入包含音视频文件的文件夹路径，软件会自动遍历并批量识别，结果按源文件名同名保存。

2. 说话人分离

对音频中的不同说话人进行自动区分，后续导出结果中会以 speaker0、speaker1 等形式标记。

3. 多格式导出

导出格式	文件位置	是否含说话人	说明
`.txt`	`output/`	✅ 是	纯文本，按说话人标记，例如 `speaker0: 你好`
`.srt`	`output/`	❌ 否	标准字幕文件，不带说话人标记
`.bilingual.srt`	`output/`	❌ 否	启用翻译后生成的双语字幕
`.summary.txt`	`output/`	–	启用 AI 总结后生成的内容摘要

4. AI 翻译（双语字幕）

勾选“启用翻译”后，字幕会被翻译。
支持输出双语字幕，原文与译文上下两行显示。
需要填写 API Key、Model Name 和 Base URL，点击获取API KEY>>

5. AI 自动总结

勾选“启用 AI 自动总结”后，软件会调用 AI 对识别文本生成结构化总结。
总结内容包括但不限于：
- 摘要
- 核心结论
- 待办事项
同样需要配置 API Key。

6. 配置自动保存

点击“开始识别”按钮时，当前界面的所有设置（语言、API 参数、翻译/总结开关等）会自动保存，下次启动时自动恢复。

7. 自动精度选择

软件会自动检测显卡能力：

支持 bf16 时使用 bf16
不支持 bf16 时使用 fp16
无显卡时回退到 CPU / fp32

使用说明

1. 环境要求

windows 10 或 11系统
推荐 NVIDIA 显卡显存不低于6G并安装最新驱动

2. 启动软件

首先将网盘内的软件压缩包下载到本地电脑并解压，然后双击启动软件.bat

启动后会自动打开浏览器，进入 Gradio 操作界面（默认地址：http://127.0.0.1:7860）。

3. 界面操作步骤

选择输入方式：
- 单文件上传：直接拖拽或选择音视频文件
- 文件夹批量处理：填写包含音视频文件的文件夹路径
设置识别语言：
- 在“ASR 识别语言”中选择自动识别或指定语言（如中文、英文、日语等）
配置 API（如需翻译/总结）：
- 填写 API Key
- 填写 Model Name（如 deepseek-v4-flash）
- 填写 Base URL（如 https://api.modelverse.cn/v1/）
- 可点击注册链接获取 API 密钥
启用附加功能：
- 勾选“启用翻译”输出双语字幕
- 勾选“启用 AI 自动总结”输出内容摘要
点击“开始识别”：
- 软件会自动保存当前设置
- 在日志区域显示处理进度
- 在“识别预览”和“AI 总结”标签页查看结果

4. 查看结果

识别完成后，结果文件保存在：

output/ 目录：.txt、.srt、.bilingual.srt、.summary.txt

输出文件说明

1. TXT 文本文件（带说话人）

示例：

speaker0: 大家好，欢迎来到今天的会议。
speaker0: 我们今天主要讨论三个问题。
speaker1: 我先补充一下背景信息。

连续同说话人的片段会自动合并，方便阅读。

2. SRT 字幕文件（无说话人）

标准 SRT 格式，可直接导入视频剪辑软件或播放器：

1
00:00:00,000 --> 00:00:05,000
大家好，欢迎来到今天的会议。

2
00:00:05,000 --> 00:00:10,000
我们今天主要讨论三个问题。

3. 双语 SRT 文件

启用翻译后的 SRT 文件，每行字幕显示原文和译文：

1
00:00:00,000 --> 00:00:05,000
大家好，欢迎来到今天的会议。
Hello everyone, welcome to today's meeting.

4. 总结文件

包含 AI 生成的结构化总结：

## 摘要
本次会议讨论了项目进度、资源分配和下阶段计划。

## 核心结论
1. 项目整体进度符合预期。
2. 需要增加两名后端开发人员。

## 待办事项
- [ ] 周三前提交预算表
- [ ] 周五前完成接口联调

注意事项

GPU 显存要求：Qwen3-ASR-1.7B对显存有一定要求，显存不足时可能触发 OOM，建议关闭其他程序或降低批处理大小。
翻译/总结需要 API Key：如果未填写 API Key 却勾选了翻译或总结，软件会提示错误并停止处理。
断网/离线环境：如果不使用API功能的话，软件可在离线环境运行。

常见问题

识别结果不准确怎么办？

尽量选择清晰的音频源
在嘈杂环境或多人重叠对话时，说话人分离可能不够精准
可尝试指定 ASR 语言而非自动识别

结语

本软件整合了当前先进的语音识别、说话人分离与大语言模型能力，旨在帮助用户快速、便捷地完成音视频字幕制作、翻译与总结工作。

区分说话人音视频语音识别软件下载链接：

https://pan.quark.cn/s/507047487ac0

AI软件用不了？2元爽玩4090：立即体验>>

热门大语言模型API免费体验：立即获取>>

软件催更及1对1人工答疑支持： https://nuowa.net/1806

Claude 再放大招，Sonnet 5 来了

一觉醒来Anthropic又放大招了，Claude Sonnet 5来了。不得不说国外大语言模型更新的是真快的，各家LLM版本更新迭代频率都很高，Claude 刚发布Opus 4.8 不久，这又发布了Sonnet 5.Anthropic ...

赞(0)2026-07-01趣站

AutoVidDub支持分角色配音的全自动视频翻译配音加字幕工具

支持分角色配音的全自动流水线，一键将外语视频转为带母语配音和双语字幕的目标语言视频。一、软件简介 AutoVidDub 是一套运行在本地 GPU 上的全自动视频翻译配音工具。你只需提供一个视频文件，它就能自动完成以下全部工序：二、核心功...

赞(0)2026-06-28专属软件

极速轻便声音克隆语音合成软件MOSS-TTS-Nano整合包，CPU可流畅运行

一、项目概述 MOSS-TTS-Nano 是由 MOSI.AI 与 OpenMOSS 团队联合开发的开源多语言小模型语音合成系统。模型参数量仅 0.1B，专为实时语音生成场景设计，无需 GPU 即可在 CPU 上直接运行，适合本地演示、W...

赞(0)2026-06-27AI音频

最强分说话人语音识别工具，支持批量音视频识别转字幕，字幕翻译内容总结

本软件是一款基于 Qwen3-ASR-1.7B 大模型的本地音视频语音识别工具，配备说话人分离功能，可在个人电脑上实现：整个流程通过简洁的 Gradio Web 界面操作，点击按钮即可完成识别与导出。主要功能特点 1. 单文件识别与批...

赞(1)2026-06-21AI音频

最强PR中文视频自动语音识别生成字幕插件，语音识别准确率高支持多国语言

上次和大家分享了PR非常好用的自动剪辑口播视频静音片段插件，如果想要自动生成视频字幕的话，用PR自带的语音识别转字幕工具，效果非常差，语音识别准确率非常低，识别的文本差太多手动修改起来极其麻烦，反而更加浪费时间了。为了提高工作效率，降低人工...

赞(0)2026-06-15专属软件

祝贺凡人修仙传2026年新年番开播同时在线人数超64万

今天6月13日凡人修仙传新年番开播，同时在线人数破64万（非最高在线人数，只是我看到的在线人数），作为凡人5年老粉，必须发个帖祝贺一下。我比较喜欢看动漫，各种类型看了很多，具体不清楚多少，像斗罗斗破之类看了一大半终究是没能看下去，还是雾山...

赞(1)2026-06-13趣站

Premiere Pro静音片段自动剪辑插件——Silence Remover使用教程及下载

对于做口播、Vlog、播客剪辑的朋友来说，最耗时的工作之一就是手动找出视频中的”哑巴”片段——说话间隙、停顿、思考时的”嗯啊”——并逐一删除。今天给大家介绍一款来自 Phantom Edito...

赞(0)2026-06-11实用软件

蛙蛙写作-能替你"打工"的AI写作平台，附邀请码：UZekHC

我不是一个容易被工具说服的人。用过 ChatGPT、试过各种”AI写作神器”，大多数要么写出来全是机翻腔，要么根本不懂网文的爆款逻辑。直到我开始用蛙蛙写作，才发现原来一个工具真的可以懂你想写什么。 🐸 蛙蛙写作是什...

赞(0)2026-06-09趣站

PDFMathTranslate + MinerU 批量PDF全文双语翻译转Markdown工具

本工具是一款基于 PDFMathTranslate 与 MinerU 整合的桌面端 PDF 翻译工具，通过简洁的 Web 界面实现一键式 PDF 全文双语翻译，并可选择将翻译结果导出为 Markdown 格式，方便导入知识库或进行二次编辑。...

赞(1)2026-06-09专属软件

Claude居然自称“本人”

今天在和Claude聊网文写作的时候，Claude回复中居然自称本人，这让我有点震惊。我经常会和AI聊工具功能对比等话题，ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的，好像都是本模型，本工具等等，反正从来没...

赞(1)2026-06-05趣站