AI软件下载
有趣网站推荐及实用软件下载

最强分说话人语音识别工具,支持批量音视频识别转字幕,字幕翻译内容总结

本软件是一款基于 Qwen3-ASR-1.7B 大模型的本地音视频语音识别工具,配备说话人分离功能,可在个人电脑上实现:

  • 批量音频/视频转文字
  • 自动区分说话人
  • 导出带时间轴的 TXT / SRT / 字幕文件
  • 可选 AI 翻译(双语字幕)
  • 可选 AI 内容总结(摘要 / 核心结论 / 待办事项)

整个流程通过简洁的 Gradio Web 界面 操作,点击按钮即可完成识别与导出。

最强分说话人语音识别工具,支持批量音视频识别转字幕,字幕翻译内容总结

主要功能特点

1. 单文件识别与批量识别

  • 单文件上传:支持上传 .wav.mp3.flac.ogg.m4a.aac 等音频,以及 .mp4.avi.mov.mkv.flv 等视频文件。
  • 文件夹批量处理:只需输入包含音视频文件的文件夹路径,软件会自动遍历并批量识别,结果按源文件名同名保存。

2. 说话人分离

对音频中的不同说话人进行自动区分,后续导出结果中会以 speaker0speaker1 等形式标记。

3. 多格式导出

导出格式文件位置是否含说话人说明
.txtoutput/✅ 是纯文本,按说话人标记,例如 speaker0: 你好
.srtoutput/❌ 否标准字幕文件,不带说话人标记
.bilingual.srtoutput/❌ 否启用翻译后生成的双语字幕
.summary.txtoutput/启用 AI 总结后生成的内容摘要

4. AI 翻译(双语字幕)

  • 勾选“启用翻译”后,字幕会被翻译。
  • 支持输出双语字幕,原文与译文上下两行显示。
  • 需要填写 API Key、Model Name 和 Base URL,点击获取API KEY>>

5. AI 自动总结

  • 勾选“启用 AI 自动总结”后,软件会调用 AI 对识别文本生成结构化总结。
  • 总结内容包括但不限于:
    • 摘要
    • 核心结论
    • 待办事项
  • 同样需要配置 API Key。

6. 配置自动保存

点击“开始识别”按钮时,当前界面的所有设置(语言、API 参数、翻译/总结开关等)会自动保存,下次启动时自动恢复。

7. 自动精度选择

软件会自动检测显卡能力:

  • 支持 bf16 时使用 bf16
  • 不支持 bf16 时使用 fp16
  • 无显卡时回退到 CPU / fp32


使用说明

1. 环境要求

  • windows 10 或 11系统
  • 推荐 NVIDIA 显卡显存不低于6G并安装最新驱动

2. 启动软件

首先将网盘内的软件压缩包下载到本地电脑并解压,然后双击启动软件.bat

启动后会自动打开浏览器,进入 Gradio 操作界面(默认地址:http://127.0.0.1:7860)。

3. 界面操作步骤

  1. 选择输入方式
    • 单文件上传:直接拖拽或选择音视频文件
    • 文件夹批量处理:填写包含音视频文件的文件夹路径
  2. 设置识别语言
    • 在“ASR 识别语言”中选择自动识别或指定语言(如中文、英文、日语等)
  3. 配置 API(如需翻译/总结)
  4. 启用附加功能
    • 勾选“启用翻译”输出双语字幕
    • 勾选“启用 AI 自动总结”输出内容摘要
  5. 点击“开始识别”
    • 软件会自动保存当前设置
    • 在日志区域显示处理进度
    • 在“识别预览”和“AI 总结”标签页查看结果

4. 查看结果

识别完成后,结果文件保存在:

  • output/ 目录:.txt.srt.bilingual.srt.summary.txt

输出文件说明

1. TXT 文本文件(带说话人)

示例:

speaker0: 大家好,欢迎来到今天的会议。
speaker0: 我们今天主要讨论三个问题。
speaker1: 我先补充一下背景信息。

连续同说话人的片段会自动合并,方便阅读。

2. SRT 字幕文件(无说话人)

标准 SRT 格式,可直接导入视频剪辑软件或播放器:

1
00:00:00,000 --> 00:00:05,000
大家好,欢迎来到今天的会议。

2
00:00:05,000 --> 00:00:10,000
我们今天主要讨论三个问题。

3. 双语 SRT 文件

启用翻译后的 SRT 文件,每行字幕显示原文和译文:

1
00:00:00,000 --> 00:00:05,000
大家好,欢迎来到今天的会议。
Hello everyone, welcome to today's meeting.

4. 总结文件

包含 AI 生成的结构化总结:

## 摘要
本次会议讨论了项目进度、资源分配和下阶段计划。

## 核心结论
1. 项目整体进度符合预期。
2. 需要增加两名后端开发人员。

## 待办事项
- [ ] 周三前提交预算表
- [ ] 周五前完成接口联调

注意事项

  1. GPU 显存要求:Qwen3-ASR-1.7B对显存有一定要求,显存不足时可能触发 OOM,建议关闭其他程序或降低批处理大小。
  2. 翻译/总结需要 API Key:如果未填写 API Key 却勾选了翻译或总结,软件会提示错误并停止处理。
  3. 断网/离线环境:如果不使用API功能的话,软件可在离线环境运行。

常见问题

识别结果不准确怎么办?

  • 尽量选择清晰的音频源
  • 在嘈杂环境或多人重叠对话时,说话人分离可能不够精准
  • 可尝试指定 ASR 语言而非自动识别

结语

本软件整合了当前先进的语音识别、说话人分离与大语言模型能力,旨在帮助用户快速、便捷地完成音视频字幕制作、翻译与总结工作。

区分说话人音视频语音识别软件下载链接:

https://pan.quark.cn/s/507047487ac0


AI软件用不了?2元爽玩4090: 立即体验>>

热门大语言模型API免费体验: 立即获取>>

软件催更及1对1人工答疑支持: https://nuowa.net/1806
赞(0) 打赏
软件无法使用?点击查看常见问题说明>>

最近更新

祝贺凡人修仙传2026年新年番开播同时在线人数超64万-诺瓦小站

祝贺凡人修仙传2026年新年番开播同时在线人数超64万

今天6月13日凡人修仙传新年番开播,同时在线人数破64万(非最高在线人数,只是我看到的在线人数),作为凡人5年老粉,必须发个帖祝贺一下。 我比较喜欢看动漫,各种类型看了很多,具体不清楚多少,像斗罗斗破之类看了一大半终究是没能看下去,还是雾山...

Claude居然自称“本人”-诺瓦小站

Claude居然自称“本人”

今天在和Claude聊网文写作的时候,Claude回复中居然自称本人,这让我有点震惊。 我经常会和AI聊工具功能对比等话题,ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的,好像都是本模型,本工具等等,反正从来没...

免费在线HTML转markdown工具

经常看一些在线文档,想复制给AI参考的话不方便直接复制,转换成markdown再给AI阅读会更简单明了,也方便自己查阅,这里给大家推荐两个在线的免费HTML转markdown网站。 1、https://d1tools.com/tools/c...

觉得文章对你有帮助就打赏一下作者

非常感谢你的打赏,我将有更多的动力继续提供优质内容,让我们一起创建更加美好的世界!

支付宝扫一扫

微信扫一扫