本次分享的是基于FunASR制作的中英文音频视频语音识别转文字软件,本人二次开发优化后的V3版本语音识别转文字软件windows电脑版
整合包更新说明:
V3版本更新内容如下:
音视频文件识别版:
1、优化字幕生成算法,生成的字幕时间戳更准确,
2、新增批量识别功能,可将选定的文件夹内的音频视频文件依次进行识别,
3、新增热词定制功能,医疗、法律或其它技术领域中很多陌生冷门词,热词定制功能可自行设置热词,更好的提高了语音识别的准确率
4、默认导出类型为txt文本和srt字幕格式
2025-09-11版本更新内容
删除谷歌翻译,新增支持在线大语言模型翻译功能
代码优化,处理时间缩短至原来的四分之一
重做UI操作界面
FunASR语音识别转文字软件介绍
本软件识别中文效果优于OpenAI的whisper,但多语言识别能力不足。

本软件基于FunASR模块及paraformer-zh模型开发制作
FunASR 是一款基础语音识别工具包,提供多种功能,包括语音识别 (ASR)、语音活动检测 (VAD)、标点符号恢复、语言模型、说话人验证、说话人分类和多说话人自动语音识别 (ASR)。
paraformer-zh模型:训练数据60000小时普通话,参数2.2亿
整合包用法:
将网盘内的软件压缩包下载到本地电脑上并解压,双击运行启动软件.bat。
第一次运行会慢些,需要耐心等待,只要没有输出报错,就一直等着,具体时间由个人电脑配置决定。
软件启动成功后会自动打开webui界面。点击按钮上传待处理文件,或是将音视频文件鼠标左键按住拖入左侧的文件输入框内,然后点击【开始处理】按钮,即可开始识别转换音视频文件。
如果需要将识别结果翻译成其它语言的话,可以选择翻译功能,支持百度翻译和在线大语言模型翻译。
如果选择百度翻译,先申请百度翻译API,申请教程请看《最新百度翻译api免费申请AppId和AppSecret流程,每月免费100万字符》
如果选择在线大语言模型翻译,类OPENAI的api都可以使用。模型名,BASE URL,API KEY根据实际使用情况填写即可,如果你还没有API的话,可以点击下方链接申请免费deepseek api。
还没有账号就直接注册一个就可以,新用户赠送50万tokens和10元赠金,算下来有不少tokens可用
各输入框按实际情况填写即可,如
模型名:deepseek-ai/DeepSeek-V3-0324
Base URL:https://api.modelverse.cn/v1
API KEY:你的api key
如果想使用本地大语言模型ollama的话,可以按以下方式填写。
模型名:如,gemma3:4b
Base URL:http://127.0.0.1:11434/v1
API KEY:随便填,如,a
热词就是辅助软件识别音频内容的,比如伊卡,音频里出现这个词,但是是生僻词,软件不懂。你可以把这个词填入hot_words.txt内,软件再次遇到这个发音的时候就会识别成伊卡这个词,非常适合某些领域专有名词识别。热词每行一个,在线使用的话,可以把热词直接填入输入框内,每行一个词。
视频教程和效果演示:https://nuowa.net/1729
注意事项:
本软件只支持识别中英文,不支持识别其它语言
软件运行路径中不要出现中文及空格,否则会报错
软件只支持处理wav、mp3、mp4、mkv格式文件
本地整合包只支持Windows 10或11系统
软件对英伟达显卡要求不高,运行时显存消耗1G,使用前先更新英伟达显卡驱动
如果音频中有音乐、音效或其它无法识别的特殊声音,可能会导致识别失败报错终止,如果报错的话就看是哪个文件引发错误的,可跳过该文件,或是用faster-whisper处理这个文件
语音识别转文字软件下载链接:
在线一键启动
如果你没有windows电脑,或是没有英伟达显卡,或是英伟达显卡配置太低用不了,可以使用我制作的在线一键启动云镜像,无需配置环境,对本地电脑没有任何要求。
同类软件推荐
适用于英文等语言的语音识别转文字软件faster-whisper:https://nuowa.net/1599
实时语音识别:https://nuowa.net/1675
相关推荐
FunASR最新模型FunAudioLLM/Fun-ASR-Nano-2512实时语音识别转文字热词版整合包下载
麦克风电脑内播放声音实时识别转文字软件FunASR整合包V5下载
批量音频视频语音转文字软件faster-whisper整合包下载,精准快速语音转录工具
免费音频视频语音识别转文字软件SenseVoice整合包,支持批量操作可生成字幕
免费语音识别转文字软件faster-whisper整合包下载,音频视频文字提取工具
最强分说话人语音识别工具,支持批量音视频识别转字幕,字幕翻译内容总结
AI实时语音聊天对话系统,外语口语陪练/虚拟好友实时语音交流
多人对话声音克隆语音合成工具Chatterbox TTS免安装版,AI实时文字转语音
最近更新

最强分说话人语音识别工具,支持批量音视频识别转字幕,字幕翻译内容总结
本软件是一款基于 Qwen3-ASR-1.7B 大模型的本地音视频语音识别工具,配备说话人分离功能,可在个人电脑上实现: 整个流程通过简洁的 Gradio Web 界面 操作,点击按钮即可完成识别与导出。 主要功能特点 1. 单文件识别与批...

最强PR中文视频自动语音识别生成字幕插件,语音识别准确率高支持多国语言
上次和大家分享了PR非常好用的自动剪辑口播视频静音片段插件,如果想要自动生成视频字幕的话,用PR自带的语音识别转字幕工具,效果非常差,语音识别准确率非常低,识别的文本差太多手动修改起来极其麻烦,反而更加浪费时间了。为了提高工作效率,降低人工...

祝贺凡人修仙传2026年新年番开播同时在线人数超64万
今天6月13日凡人修仙传新年番开播,同时在线人数破64万(非最高在线人数,只是我看到的在线人数),作为凡人5年老粉,必须发个帖祝贺一下。 我比较喜欢看动漫,各种类型看了很多,具体不清楚多少,像斗罗斗破之类看了一大半终究是没能看下去,还是雾山...

Premiere Pro静音片段自动剪辑插件——Silence Remover使用教程及下载
对于做口播、Vlog、播客剪辑的朋友来说,最耗时的工作之一就是手动找出视频中的”哑巴”片段——说话间隙、停顿、思考时的”嗯啊”——并逐一删除。今天给大家介绍一款来自 Phantom Edito...

蛙蛙写作-能替你"打工"的AI写作平台,附邀请码:UZekHC
我不是一个容易被工具说服的人。用过 ChatGPT、试过各种”AI写作神器”,大多数要么写出来全是机翻腔,要么根本不懂网文的爆款逻辑。 直到我开始用蛙蛙写作,才发现原来一个工具真的可以懂你想写什么。 🐸 蛙蛙写作是什...

PDFMathTranslate + MinerU 批量PDF全文双语翻译转Markdown工具
本工具是一款基于 PDFMathTranslate 与 MinerU 整合的桌面端 PDF 翻译工具,通过简洁的 Web 界面实现一键式 PDF 全文双语翻译,并可选择将翻译结果导出为 Markdown 格式,方便导入知识库或进行二次编辑。...

Claude居然自称“本人”
今天在和Claude聊网文写作的时候,Claude回复中居然自称本人,这让我有点震惊。 我经常会和AI聊工具功能对比等话题,ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的,好像都是本模型,本工具等等,反正从来没...

图像无损放大神器:Topaz Gigapixel AI软件下载及使用指南
在数字内容创作成风头的今天,我们经常会遇到低分辨率素材模糊、AI 生成图片尺寸太小、或者老照片充满噪点的情况。传统的图像放大方式(如双三次插值)只是单纯地拉伸像素,容易让画面变得模糊、虚化。 如果你正在寻找一种能“凭空”补齐细节、让低画质瞬...

AI视频提示词反推工具,参考视频即梦提示词一键生成
本工具是一款面向 AI 视频生成创作者的本地离线辅助软件。用户导入任意视频文件,工具会自动完成场景检测、关键帧提取、多模态模型分析、提示词拼装等全流程,最终输出一份可直接复制粘贴到即梦 AI 等视频生成平台的完整提示词。 适用场景 功能特点...
免费在线HTML转markdown工具
经常看一些在线文档,想复制给AI参考的话不方便直接复制,转换成markdown再给AI阅读会更简单明了,也方便自己查阅,这里给大家推荐两个在线的免费HTML转markdown网站。 1、https://d1tools.com/tools/c...
















