本软件是一款基于 Qwen3-ASR-1.7B 大模型的本地音视频语音识别工具,配备说话人分离功能,可在个人电脑上实现:
- 批量音频/视频转文字
- 自动区分说话人
- 导出带时间轴的 TXT / SRT / 字幕文件
- 可选 AI 翻译(双语字幕)
- 可选 AI 内容总结(摘要 / 核心结论 / 待办事项)
整个流程通过简洁的 Gradio Web 界面 操作,点击按钮即可完成识别与导出。

主要功能特点
1. 单文件识别与批量识别
- 单文件上传:支持上传
.wav、.mp3、.flac、.ogg、.m4a、.aac等音频,以及.mp4、.avi、.mov、.mkv、.flv等视频文件。 - 文件夹批量处理:只需输入包含音视频文件的文件夹路径,软件会自动遍历并批量识别,结果按源文件名同名保存。
2. 说话人分离
对音频中的不同说话人进行自动区分,后续导出结果中会以 speaker0、speaker1 等形式标记。
3. 多格式导出
| 导出格式 | 文件位置 | 是否含说话人 | 说明 |
|---|---|---|---|
.txt | output/ | ✅ 是 | 纯文本,按说话人标记,例如 speaker0: 你好 |
.srt | output/ | ❌ 否 | 标准字幕文件,不带说话人标记 |
.bilingual.srt | output/ | ❌ 否 | 启用翻译后生成的双语字幕 |
.summary.txt | output/ | – | 启用 AI 总结后生成的内容摘要 |
4. AI 翻译(双语字幕)
- 勾选“启用翻译”后,字幕会被翻译。
- 支持输出双语字幕,原文与译文上下两行显示。
- 需要填写 API Key、Model Name 和 Base URL,点击获取API KEY>>
5. AI 自动总结
- 勾选“启用 AI 自动总结”后,软件会调用 AI 对识别文本生成结构化总结。
- 总结内容包括但不限于:
- 摘要
- 核心结论
- 待办事项
- 同样需要配置 API Key。
6. 配置自动保存
点击“开始识别”按钮时,当前界面的所有设置(语言、API 参数、翻译/总结开关等)会自动保存,下次启动时自动恢复。
7. 自动精度选择
软件会自动检测显卡能力:
- 支持 bf16 时使用 bf16
- 不支持 bf16 时使用 fp16
- 无显卡时回退到 CPU / fp32
使用说明
1. 环境要求
- windows 10 或 11系统
- 推荐 NVIDIA 显卡显存不低于6G并安装最新驱动
2. 启动软件
首先将网盘内的软件压缩包下载到本地电脑并解压,然后双击启动软件.bat
启动后会自动打开浏览器,进入 Gradio 操作界面(默认地址:http://127.0.0.1:7860)。
3. 界面操作步骤
- 选择输入方式:
- 单文件上传:直接拖拽或选择音视频文件
- 文件夹批量处理:填写包含音视频文件的文件夹路径
- 设置识别语言:
- 在“ASR 识别语言”中选择自动识别或指定语言(如中文、英文、日语等)
- 配置 API(如需翻译/总结):
- 填写 API Key
- 填写 Model Name(如
deepseek-v4-flash) - 填写 Base URL(如
https://api.modelverse.cn/v1/) - 可点击注册链接获取 API 密钥
- 启用附加功能:
- 勾选“启用翻译”输出双语字幕
- 勾选“启用 AI 自动总结”输出内容摘要
- 点击“开始识别”:
- 软件会自动保存当前设置
- 在日志区域显示处理进度
- 在“识别预览”和“AI 总结”标签页查看结果
4. 查看结果
识别完成后,结果文件保存在:
output/目录:.txt、.srt、.bilingual.srt、.summary.txt
输出文件说明
1. TXT 文本文件(带说话人)
示例:
speaker0: 大家好,欢迎来到今天的会议。
speaker0: 我们今天主要讨论三个问题。
speaker1: 我先补充一下背景信息。
连续同说话人的片段会自动合并,方便阅读。
2. SRT 字幕文件(无说话人)
标准 SRT 格式,可直接导入视频剪辑软件或播放器:
1
00:00:00,000 --> 00:00:05,000
大家好,欢迎来到今天的会议。
2
00:00:05,000 --> 00:00:10,000
我们今天主要讨论三个问题。
3. 双语 SRT 文件
启用翻译后的 SRT 文件,每行字幕显示原文和译文:
1
00:00:00,000 --> 00:00:05,000
大家好,欢迎来到今天的会议。
Hello everyone, welcome to today's meeting.
4. 总结文件
包含 AI 生成的结构化总结:
## 摘要
本次会议讨论了项目进度、资源分配和下阶段计划。
## 核心结论
1. 项目整体进度符合预期。
2. 需要增加两名后端开发人员。
## 待办事项
- [ ] 周三前提交预算表
- [ ] 周五前完成接口联调注意事项
- GPU 显存要求:Qwen3-ASR-1.7B对显存有一定要求,显存不足时可能触发 OOM,建议关闭其他程序或降低批处理大小。
- 翻译/总结需要 API Key:如果未填写 API Key 却勾选了翻译或总结,软件会提示错误并停止处理。
- 断网/离线环境:如果不使用API功能的话,软件可在离线环境运行。
常见问题
识别结果不准确怎么办?
- 尽量选择清晰的音频源
- 在嘈杂环境或多人重叠对话时,说话人分离可能不够精准
- 可尝试指定 ASR 语言而非自动识别
结语
本软件整合了当前先进的语音识别、说话人分离与大语言模型能力,旨在帮助用户快速、便捷地完成音视频字幕制作、翻译与总结工作。
区分说话人音视频语音识别软件下载链接:
https://pan.quark.cn/s/507047487ac0
相关推荐
AI实时语音聊天对话系统,外语口语陪练/虚拟好友实时语音交流
多人对话声音克隆语音合成工具Chatterbox TTS免安装版,AI实时文字转语音
AI实时变声器Voice Changer2.1.4 CUDA版下载,高质量RVC变声软件
阿里Qwen3-TTS高质量声音克隆语音合成系统,AI视频配音多人对话生成工具
多人对话有声书制作软件VoxCPM Windows版整合包,高质量声音克隆语音合成工具
【免安装/解压即用】支持600+语言的神级TTS!OmniVoice 零样本语音克隆一键整合包发布
FunASR语音识别转文字软件区分说话人版
FunASR最新模型FunAudioLLM/Fun-ASR-Nano-2512实时语音识别转文字热词版整合包下载
最近更新

最强分说话人语音识别工具,支持批量音视频识别转字幕,字幕翻译内容总结
本软件是一款基于 Qwen3-ASR-1.7B 大模型的本地音视频语音识别工具,配备说话人分离功能,可在个人电脑上实现: 整个流程通过简洁的 Gradio Web 界面 操作,点击按钮即可完成识别与导出。 主要功能特点 1. 单文件识别与批...

最强PR中文视频自动语音识别生成字幕插件,语音识别准确率高支持多国语言
上次和大家分享了PR非常好用的自动剪辑口播视频静音片段插件,如果想要自动生成视频字幕的话,用PR自带的语音识别转字幕工具,效果非常差,语音识别准确率非常低,识别的文本差太多手动修改起来极其麻烦,反而更加浪费时间了。为了提高工作效率,降低人工...

祝贺凡人修仙传2026年新年番开播同时在线人数超64万
今天6月13日凡人修仙传新年番开播,同时在线人数破64万(非最高在线人数,只是我看到的在线人数),作为凡人5年老粉,必须发个帖祝贺一下。 我比较喜欢看动漫,各种类型看了很多,具体不清楚多少,像斗罗斗破之类看了一大半终究是没能看下去,还是雾山...

Premiere Pro静音片段自动剪辑插件——Silence Remover使用教程及下载
对于做口播、Vlog、播客剪辑的朋友来说,最耗时的工作之一就是手动找出视频中的”哑巴”片段——说话间隙、停顿、思考时的”嗯啊”——并逐一删除。今天给大家介绍一款来自 Phantom Edito...

蛙蛙写作-能替你"打工"的AI写作平台,附邀请码:UZekHC
我不是一个容易被工具说服的人。用过 ChatGPT、试过各种”AI写作神器”,大多数要么写出来全是机翻腔,要么根本不懂网文的爆款逻辑。 直到我开始用蛙蛙写作,才发现原来一个工具真的可以懂你想写什么。 🐸 蛙蛙写作是什...

PDFMathTranslate + MinerU 批量PDF全文双语翻译转Markdown工具
本工具是一款基于 PDFMathTranslate 与 MinerU 整合的桌面端 PDF 翻译工具,通过简洁的 Web 界面实现一键式 PDF 全文双语翻译,并可选择将翻译结果导出为 Markdown 格式,方便导入知识库或进行二次编辑。...

Claude居然自称“本人”
今天在和Claude聊网文写作的时候,Claude回复中居然自称本人,这让我有点震惊。 我经常会和AI聊工具功能对比等话题,ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的,好像都是本模型,本工具等等,反正从来没...

图像无损放大神器:Topaz Gigapixel AI软件下载及使用指南
在数字内容创作成风头的今天,我们经常会遇到低分辨率素材模糊、AI 生成图片尺寸太小、或者老照片充满噪点的情况。传统的图像放大方式(如双三次插值)只是单纯地拉伸像素,容易让画面变得模糊、虚化。 如果你正在寻找一种能“凭空”补齐细节、让低画质瞬...

AI视频提示词反推工具,参考视频即梦提示词一键生成
本工具是一款面向 AI 视频生成创作者的本地离线辅助软件。用户导入任意视频文件,工具会自动完成场景检测、关键帧提取、多模态模型分析、提示词拼装等全流程,最终输出一份可直接复制粘贴到即梦 AI 等视频生成平台的完整提示词。 适用场景 功能特点...
免费在线HTML转markdown工具
经常看一些在线文档,想复制给AI参考的话不方便直接复制,转换成markdown再给AI阅读会更简单明了,也方便自己查阅,这里给大家推荐两个在线的免费HTML转markdown网站。 1、https://d1tools.com/tools/c...















