我基于FunASR制作的实时语音识别转文字软件当前更新到V4版本。软件可以实时识别麦克风声音和电脑内播放声音转为文字。当前版本将FunASR主程序更新到了最新2025年2月5日的最新版本,另外UI界面也重做了。
2025-06-01
更新到V5版本,更新主程序,更新UI

FunASR软件介绍
FunASR 是一款基础语音识别工具包和开源 SOTA 预训练模型,支持语音识别、语音活动检测、文本后处理等。
我使用FunASR制作了一款实时语音识别转文字软件,当前版本为V4版本,由于前几天分享过另一个音视频识别转文字软件faster-whisper《音频视频转文字软件faster-whisper 1.1.1整合包下载,精准快速语音转录工具》,那个软件已经很好用了,所以当前软件版本我删除了文件识别功能,只保留了实时语音识别功能。
FunASR在2月5日刚更新过,我基于最新版制作了当前版本实时语音识别软件整合包
如果需要同时有识别文件和实时识别功能的话,请用V3版本,链接《实时语音识别转文字软件V3版,批量音频视频录音转文字提取工具》
FunASR实时语音识别整合包V5软件使用说明
软件下载解压后直接双击【启动软件.exe】即可启动。软件操作界面比较简单
首先选择识别内容保存位置,识别结果输出文件格式为txt
块长度和上下文长度决定了最终的识别效果,块长度值越大,相同语速下每段识别出的内容的字数越多,上下文长度值建议是块长度值的1/2,这两个值越大,识别出的文字内容越准确,但是延迟也越高,这个可以自行测试效果,选择合适的值
音量阈值就是用于屏蔽低音噪音的,如果说话人环境比较嘈杂,可以设置该值,屏蔽掉低音噪音部分,值越大,屏蔽的声音分贝越高,也就是屏蔽的声音越多
翻译工具国内用户用百度,国外用户用谷歌,免费申请百度翻译API可以查看下面教程《最新百度翻译api免费申请AppId和AppSecret流程,每月免费100万字符》
如果你想翻译成的目标语言在列表里没有,可自行设置语言代码,百度翻译和Google翻译语言代码参考下面文章《百度翻译谷歌翻译API语言代码名称对照表》,将所需要的语言代码填入目标语言输入框里即可
由于软件是收集一定长度的识别文本之后再将文本提交到翻译工具进行翻译,然后收到返回翻译结果再进行显示,所以翻译文本和识别的文本有时间差,不会同步显示
待翻译文本长度的意思就是一次性提交给翻译工具的文本长度,软件并不是每次识别出内容之后都提交给翻译工具的,而是收集到一定长度的文本内容之后再发送给翻译工具进行翻译。发送给翻译工具的文本越短,翻译结果越不准确,发送的文本越长,翻译工具越能综合上下文意思翻译的更准确,但是收集的文本越长等待时间也就越长,可自行取舍。一个英文字母算一个字符,一个汉字也算一个字符,如果是类似英语语言这个值建议大一点
软件支持识别电脑内播放的声音或是麦克风等外部输入的声音。如果需要识别电脑内播放的声音,需要先进行电脑设置,鼠标右键点击电脑屏幕右下角音量喇叭图标,选择 【声音】,点击录制选项卡,鼠标右键点击【立体声混音】,选择【设置为默认设备】,如果立体声混音没启动的话,需要先启用,然后运行软件开始处理,就可以实时识别电脑播放声音了。
如果想同时接收麦克风声音和电脑内播放声音,可在软件音频源中选择电脑播放声音,电脑声音设置里-录制-麦克风,点击鼠标右键,选择麦克风属性,勾选【侦听此设备】
字幕文本显示长度就是前端实时显示语音识别出的文本的字幕字符长度
如果无法使用的话,可以勾选显示调试窗口查看报错信息
软件使用视频教程:https://nuowa.net/1681
注意事项
本软件只支持识别中英文,不支持识别其它语言
软件运行路径中不要出现中文及空格,否则会报错
软件只支持win10或win11,不支持其他版本Windows系统,也不支持手机和MAC
有部分Win11用户发现软件无法检测到音频,也就是电脑立体声混音没有音频输入,可以安装voicemeeter虚拟声卡解决。在【1 HARDWARE INPUT】设置硬件声音输入设备,在【VIRTUAL INPUT】选中【B】,在【HARDWARE OUT】选择声音输出设备,然后打开电脑系统-声音-录制,将默认设备选择为VoiceMeeter VAIO3 Output,VoiceMeeter点击下载>>

电脑实时语音识别转文字软件V5版本下载链接
相关推荐
最近更新

美团官方发福利,吃喝玩乐外卖神券天天领
美团官方发福利了,加美团企业微信,每天免费领各种吃喝玩乐神券,领取福利流程如下: 1、微信扫码登录↓↓↓ 2、长按添加美团企业微信 3、天天领券 每日签到领取更多红包 更有超多促销活动,限时活动,低价爆品等,让你放肆嗨吃嗨喝!

免费PDF文档翻译软件BabelDOC整合包下载,AI一键PDF全文翻译工具
分享另一个热门的PDF文档翻译软件BabelDOC,软件可以将PDF文档由原语言翻译成指定语言文档,基于在线大语言模型处理能力,文档翻译效果更准确,并保留排版,支持批量文档翻译,我制作了最新版免安装一键启动整合包。 BabelDOC介绍 另...

AI歌曲创作软件YuE整合包下载,一键谱曲演唱音乐生成器
YuE:开放的全曲音乐生成基础模型,可免费一键生成完整歌曲,AI作曲,AI演唱,是一个高质量的AI音乐生成软件。我制作了最新的面安装一键启动整合包。 YuE介绍 YuE 是一系列突破性的开源基础模型,专为音乐生成而设计,尤其适用于将歌词转化...

可灵AI会员专属优惠邀请码,限时福利领取
可灵AI发福利了,通过专属优惠邀请码 6BZPEJK83JZ9 可额外获得50%灵感值。 现在图片、音乐、视频等等,啥都可以用AI生成,可灵AI就是快手旗下非常强大的一个AI内容创作平台,功能多样,效果强大。我最近半年几乎每周都会使用多次,...

多人对话语音合成软件CSM整合包,AI多人文字转语音工具
CSM是发布不久的一款多人对话语音生成模型,声音自然延迟低,同时支持克隆音色语音合成,我基于当前最新版本制作了免安装一键启动整合包。 Sesame CSM介绍 CSM(Conversational Speech Model) 是由...

AI自动化任务执行工具OpenManus一键启动整合包
OpenManus是另一款AI自动化任务执行软件,是Manus的开源实现,无需邀请码,本地运行,我基于当前最新版本制作了免安装一键启动整合包。 OpenManus介绍 OpenManus 是一个开源复刻版 AI 智能体框架,由 MetaGP...

CAMEL-AI开源多智能体协作框架OWL一键整合包,自动化任务助手
OWL 是由 CAMEL-AI 团队开发的开源多智能体协作框架,旨在通过动态智能体交互实现复杂任务的自动化处理,在 GAIA 基准测试中以 69.09 分位列开源框架榜首,被誉为“Manus 的开源平替”。我基于当前最新...

微软PDF/WORD/HTML文档转Markdown格式软件markitdown整合包下载
本次和大家分享另一个微软发布的非常热门的文件文档转Markdown格式文档的软件markitdown,软件可以将PDF,word,ppt,Excel等十几种格式文档转换为markdown格式文档,我基于当前最新0.1.2版本制作了免安装一键...

AI描述万物软件describe-anything整合包,精准描述图片视频中指定区域内容
本次和大家分享一个英伟达联合其他大学开发的一款应用describe-anything,该应用可以通过AI识别分析并详细描述图片视频中指定区域物体内容,我基于最新版制作了免安装一键启动整合包。 describe-anything介绍 Desc...

高效可控歌曲生成器ACE-Step一键启动整合包,音乐人的歌曲创作利器
又一款AI歌曲创作利器:ACE-Step,ACE-Step是刚发布不久的AI自动谱曲AI自动演唱软件,软件在歌曲生成速度、音乐连贯性和可控性上相对同类软件有了较大提升。ACE-Step在3小时前刚发布了新版本,我基于当前最新版本制作了免安装...