本篇分享的是目前速度最快的免费语音识别转文字软件,本人二次开发优化的V2版本,可识别音频视频转为文字,支持生成字幕,支持识别文本翻译为其它语言文本。支持实时语音识别,支持实时语音翻译,可实时将接收到的语音识别并翻译为其它语言,支持实时显示翻译结果。
音视频文件识别操作界面如下
batch size值越大识别速度越快,但是对电脑配置要求也越高,可根据电脑配置决定。
原音频语言选项用于设置字幕用的,音频是什么语言这里就选择什么
翻译工具国内用户用百度,国外用户用谷歌,免费申请百度翻译API可以查看下面教程《最新百度翻译api免费申请AppId和AppSecret流程,每月免费100万字符》
如果你想翻译成的目标语言在列表里没有,可自行设置语言代码,百度翻译和Google翻译语言代码参考下面文章《百度翻译谷歌翻译API语言代码名称对照表》,将所需要的语言代码填入目标语言输入框里即可
实时语音识别操作界面功能参数用法如下
块长度和上下文长度决定了最终的识别效果,块长度值越大,相同语速下每段识别出的内容的字数越多,上下文长度值建议是块长度值的1/2,这两个值越大,识别出的文字内容越准确,但是延迟也越高,这个可以自行测试效果,选择合适的值
音量阈值就是用于屏蔽低音噪音的,如果说话人环境比较嘈杂,可以设置该值,屏蔽掉低音噪音部分,值越大,屏蔽的声音分贝越高
翻译工具和前面的设置相同
待翻译文本长度的意思就是一次性提交给翻译工具的文本长度,软件并不是每次识别出内容之后都提交给翻译工具的,而是收集到一定长度的文本内容之后再发送给翻译工具进行翻译。发送给翻译工具的文本越短,翻译结果越不准确,发送的文本越长,翻译工具越能综合上下文意思翻译的更准确,但是收集的文本越长等待时间也就越长,可自行取舍。一个英文字母算一个字符,一个汉字也算一个字符,如果是类似英语语言这个值建议大一点,类似中文日语之类的语言,这个值可以相对小些
实时显示翻译结果如果勾选的话,在终端窗口里会替代输出原识别内容,改为显示实时语音翻译结果
软件仍在继续优化中,
实时语音识别转文字软件V3版本下载链接:
https://afdian.com/p/178e445a94f411ef925352540025c377
V3版本介绍《实时语音识别转文字软件V3版,批量音频视频录音转文字提取工具》
V1版本下载链接: