本次分享的是基于FunASR制作的中英文音频视频语音识别转文字软件,本人二次开发优化后的V3版本语音识别转文字软件windows电脑版
整合包更新说明:
V3版本更新内容如下:
音视频文件识别版:
1、优化字幕生成算法,生成的字幕时间戳更准确,
2、新增批量识别功能,可将选定的文件夹内的音频视频文件依次进行识别,
3、新增热词定制功能,医疗、法律或其它技术领域中很多陌生冷门词,热词定制功能可自行设置热词,更好的提高了语音识别的准确率
4、默认导出类型为txt文本和srt字幕格式
2025-09-11版本更新内容
删除谷歌翻译,新增支持在线大语言模型翻译功能
代码优化,处理时间缩短至原来的四分之一
重做UI操作界面
FunASR语音识别转文字软件介绍
本软件识别中文效果优于OpenAI的whisper,但多语言识别能力不足。

本软件基于FunASR模块及paraformer-zh模型开发制作
FunASR 是一款基础语音识别工具包,提供多种功能,包括语音识别 (ASR)、语音活动检测 (VAD)、标点符号恢复、语言模型、说话人验证、说话人分类和多说话人自动语音识别 (ASR)。
paraformer-zh模型:训练数据60000小时普通话,参数2.2亿
整合包用法:
将网盘内的软件压缩包下载到本地电脑上并解压,双击运行启动软件.bat。
第一次运行会慢些,需要耐心等待,只要没有输出报错,就一直等着,具体时间由个人电脑配置决定。
软件启动成功后会自动打开webui界面。点击按钮上传待处理文件,或是将音视频文件鼠标左键按住拖入左侧的文件输入框内,然后点击【开始处理】按钮,即可开始识别转换音视频文件。
如果需要将识别结果翻译成其它语言的话,可以选择翻译功能,支持百度翻译和在线大语言模型翻译。
如果选择百度翻译,先申请百度翻译API,申请教程请看《最新百度翻译api免费申请AppId和AppSecret流程,每月免费100万字符》
如果选择在线大语言模型翻译,类OPENAI的api都可以使用。模型名,BASE URL,API KEY根据实际使用情况填写即可,如果你还没有API的话,可以点击下方链接申请免费deepseek api。
还没有账号就直接注册一个就可以,新用户赠送50万tokens和10元赠金,算下来有不少tokens可用
各输入框按实际情况填写即可,如
模型名:deepseek-ai/DeepSeek-V3-0324
Base URL:https://api.modelverse.cn/v1
API KEY:你的api key
如果想使用本地大语言模型ollama的话,可以按以下方式填写。
模型名:如,gemma3:4b
Base URL:http://127.0.0.1:11434/v1
API KEY:随便填,如,a
热词就是辅助软件识别音频内容的,比如伊卡,音频里出现这个词,但是是生僻词,软件不懂。你可以把这个词填入hot_words.txt内,软件再次遇到这个发音的时候就会识别成伊卡这个词,非常适合某些领域专有名词识别。热词每行一个,在线使用的话,可以把热词直接填入输入框内,每行一个词。
视频教程和效果演示:https://nuowa.net/1729
注意事项:
本软件只支持识别中英文,不支持识别其它语言
软件运行路径中不要出现中文及空格,否则会报错
软件只支持处理wav、mp3、mp4、mkv格式文件
本地整合包只支持Windows 10或11系统
软件对英伟达显卡要求不高,运行时显存消耗1G,使用前先更新英伟达显卡驱动
如果音频中有音乐、音效或其它无法识别的特殊声音,可能会导致识别失败报错终止,如果报错的话就看是哪个文件引发错误的,可跳过该文件,或是用faster-whisper处理这个文件
语音识别转文字软件下载链接:
在线一键启动
如果你没有windows电脑,或是没有英伟达显卡,或是英伟达显卡配置太低用不了,可以使用我制作的在线一键启动云镜像,无需配置环境,对本地电脑没有任何要求。
同类软件推荐
适用于英文等语言的语音识别转文字软件faster-whisper:https://nuowa.net/1599
实时语音识别:https://nuowa.net/1675
相关推荐
FunASR最新模型FunAudioLLM/Fun-ASR-Nano-2512实时语音识别转文字热词版整合包下载
麦克风电脑内播放声音实时识别转文字软件FunASR整合包V5下载
批量音频视频语音转文字软件faster-whisper整合包下载,精准快速语音转录工具
免费音频视频语音识别转文字软件SenseVoice整合包,支持批量操作可生成字幕
免费语音识别转文字软件faster-whisper整合包下载,音频视频文字提取工具
多人对话声音克隆语音合成工具Chatterbox TTS免安装版,AI实时文字转语音
AI实时变声器Voice Changer2.1.4 CUDA版下载,高质量RVC变声软件
阿里Qwen3-TTS高质量声音克隆语音合成系统,AI视频配音多人对话生成工具
最近更新

ComfyUI 三参考图生图工作流,虚拟试衣、换脸、图片内容整合
本工作流核心能力是将三张不同角度、内容的参考图,通过 AI 理解融合,生成一张新的图像,新图像内容根据描述词指令生成。工作流集成了阿里巴巴的 Qwen2.5-VL 多模态大模型(图像编辑版本)与 SeedVR2 超分辨率放大模型,实现了「理...
comfyui CUDA128+torch 2.8.0+python3.12最新纯净版一键启动整合包
comfyui官方发布的最新版便携包是基于torch 2.11+CU130 +Python 3.13版本制作的,Python版本和torch版本都太新了,windows电脑上安装某些节点的时候会有冲突报错,有时候就算能安装上也会比较麻烦,感...
LTX2.3+comfyui音频驱动视频生成工作流
这是一个基于 ComfyUI 的 LTX 2.3 音视频同步生成工作流,核心功能是上传一段音频 + 参考图片(可多张图),自动生成与音频内容对应的视频,适合制作人物说话、唱歌等口型同步视频。工作流使用8位量化版ltx2.3模型,显存需求降低...
LTX2.3+comfyui分段提示词图片转视频工作流,AI视频带货生成器
再和大家分享一个基于 ComfyUI 的 AI 分段提示词图生视频工作流,本工作流主要基于模型LTX2.3和PromptRelay实现。可使用PromptRelay分时段控制生成不同视频画面或合成语音内容。 📌 工作流简介 本工作流是一套基...
windows电脑C盘垃圾查找清理软件
电脑用了好几年了,尽管我安装软件从来不主动装到C盘,偶尔也会清理垃圾,但是用的久了,容量也是在慢慢减少。我C盘303G,现在就剩了24G了,已经会影响到系统性能和虚拟内存调度了,已经不能不管了。C盘不装软件的话大多都是缓存,文件太多了,有时...

LTX2.3+comfyui视频去除字幕水印工作流分享
本次再和大家分享一个视频去字幕水印的comfyui工作流,工作流基于LTX2.3视频生成模型制作。LTX2.3是最新最强的视频生成模型,我前段时间就分享过了,可以看我另一篇文章:https://nuowa.net/2525,comfyui项...

多人对话声音克隆语音合成工具Chatterbox TTS免安装版,AI实时文字转语音
Chatterbox 是由 Resemble AI 开发的开源文本转语音(Text-to-Speech, TTS)模型,支持零样本音色克隆:只需提供一段参考音频(几秒钟的人声),即可模仿该音色朗读任意文本。我基于最新版源码制作了免安装一键启...
Mineru PDF转markdown软件局域网版
对于有的电脑配置比较低或是win7系统等电脑无法使用Mineru情况,可以使用局域网内可运行软件的电脑运行Mineru,然后其它电脑或手机等终端输入IP地址,打开运行软件的IP地址来使用Mineru。 具体用法: 下载局域网版压缩包到本地电...

OmniSVG:统一的可缩放矢量图形生成软件
OmniSVG 是一个基于视觉-语言模型(VLM)的端到端多模态 SVG(可缩放矢量图形)生成框架,由 OpenVGLab 团队开发。该项目能够从文本描述或参考图像生成高质量的 SVG 矢量图形,覆盖从简单图标...

AI实时变声器Voice Changer2.1.4 CUDA版下载,高质量RVC变声软件
Voice Changer是一款实时 AI 变声工具,允许你通过多种 AI 声音模型(如 RVC 和 Beatrice)实时转换声音。转换延迟更低,是目前社区中最受欢迎的开源实时变声方案之一。 核心特点 1. 实时性 voice-chang...
















