本次分享的是阿里团队退出的一款快速免费语音识别转文字软件SenseVoice,以前分享过paraformer-zh-streaming模型的实时识别版,本次的是SenseVoiceSmall模型非实时识别版,本人二次开发优化版,可识别音频视频转为文字,支持生成字幕,支持批量操作,支持识别文本翻译为其它语言文本。
2025-06-20,更新新版,修复了一些问题

SenseVoice介绍
SenseVoice是阿里巴巴团队推出的一个语音基础模型,具有多种语音理解功能,包括自动语音识别 (ASR)、口语语言识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。
SenseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测。
- 多语言语音识别:经过超过40万小时的数据训练,支持超过50种语言,识别性能超越Whisper模型。
- 富转录:
- 拥有卓越的情绪识别能力,在测试数据上达到并超越目前最佳情绪识别模型的有效性。
- 提供声音事件检测能力,支持背景音乐、掌声、笑声、哭声、咳嗽声、打喷嚏声等多种常见人机交互事件的检测。
- 高效推理: SenseVoice-Small 模型采用非自回归端到端框架,推理延迟极低。处理 10 秒音频仅需 70 毫秒,比 Whisper-Large 快 15 倍。
- 便捷的微调:提供便捷的微调脚本和策略,让用户根据业务场景轻松解决长尾样本问题。
SenseVoice软件使用说明
原应用不支持批量操作和生成字幕,但是大家对这两个功能还是有比较强烈需求的,所以我顺便加了这两个功能,同时增加了翻译功能。
【待处理文件】软件只支持识别音频及mp4和mkv格式视频。
【batch size】值越大识别速度越快,但是对电脑配置要求也越高,可根据电脑配置决定。
【音量阈值】就是用于屏蔽低音噪音的,如果说话人环境比较嘈杂,可以设置该值,屏蔽掉低音噪音部分,值越大,屏蔽的声音分贝越高
【原语言】原音频视频的语言,zh中文,en英语,yue粤语,ja日语,ko韩语,如果待识别文件夹内包含多种语言的文件,原语言输入框内可输入“auto”,但是建议将不同语言分别开,识别的时候指定语言类型。
翻译工具国内用户用百度,国外用户用谷歌,免费申请百度翻译API可以查看下面教程《最新百度翻译api免费申请AppId和AppSecret流程,每月免费100万字符》
如果你想翻译成的目标语言在列表里没有,可自行设置语言代码,百度翻译和Google翻译语言代码参考下面文章《百度翻译谷歌翻译API语言代码名称对照表》,将所需要的语言代码填入目标语言输入框里即可
【最小静音时长】这个值越小,每段字幕字数越少,值越大,字幕字数越多。根据你实际生成的字幕长度按需调节。有些特殊情况,比如有的人说话特别快中间没有停顿,而且说话能连续说很久,那么这种情况下这段字幕就会很长。这时可以手动修改srt字幕文件内容进行调节字幕时长。
【块大小】太短的片段过滤掉,值太大,有可能会造成识别内容缺少
视频教程及效果演示:https://nuowa.net/2008
注意事项
先将电脑英伟达显卡驱动更新到最新版
软件只支持windows10或11
软件运行路径中不要出现非英文字符及空格,待处理文件同样注意
支持英伟达50系列显卡
建议英伟达显存不低于2G
为了尽快显示结果,软件没有执行删除缓存操作,可以定期手动删除【temp】文件夹内的临时音频文件
如果提示:处理段*/*时出错。可以调大最小静音时长的值重新生成。
批量音视频识别转文字软件SenseVoice整合包下载链接
https://pan.quark.cn/s/5c6e2544264b
https://pan.xunlei.com/s/VOTB-TMfUZGEXU2NYBTqEIyPA1?pwd=9w5e#
实时语音识别转文字软件V5版本下载链接:
SenseVoice本地电脑安装部署教程
相关推荐
最近更新

百度夸克webdav服务+alist+RaiDrive,将网盘挂载为本地电脑硬盘方法教程
由于每天都要操作网盘不下十几次,频繁启动网盘比较麻烦。 使用百度夸克网盘的webdav服务可以将百度夸克网盘挂载到本地电脑上,就像操作本地电脑硬盘一样操作网盘,非常方便。我们以alist+raidrive为例演示。 首先打开百度网盘pan....

Unreal Engine 5恐怖游戏设计制作教程,从入门到精通从零开始完整项目开发详细讲解,中英文字幕
和大家分享一个以前收集的UE5虚幻引擎恐怖游戏开发教程,这是国外一个大神制作的视频教程,教程从零开始到制作出一款完整的游戏。内容讲解全面,如蓝图基础知识讲解、角色控制、高级交互系统、高级库存系统、物品检查、恐怖环境氛围设计、过场动画、AI系...

PDF/图片转markdown软件MonkeyOCR整合包,文档图片解析工具下载
MonkeyOCR是上个月刚发布的一款文档解析工具,可以将PDF文档或图片识别转换为markdown格式文件。官方测试显示性能极佳。我基于当前最新版制作了免安装一键启动整合包,支持批量操作,并降低了显卡要求。 MonkeyOCR官方介绍 M...

AI视频变现项目,完整详细教程20250628期

即梦AI:创作者的强力“外挂”!免费积分等你领取
还在为创作图片、故事及视频内容而烦恼吗?朋友,你需要一个靠谱的“智能搭子”了!那就是即梦AI,就是那个能让你事半功倍、脑洞大开的神奇伙伴! 即梦AI,到底是什么? 简单说,即梦AI是字节跳动旗下一个强大、易用且懂你的一站式AI创作平台。&n...

支付宝发现金红包了!支付宝的羊毛快来薅💰️💰️
支付宝小荷包搞活动啦,新用户加入立得2元无门槛现金红包。 支付宝小荷包是支付宝推出的一款便捷的零钱管理工具,适合日常小额支付和理财。 什么是支付宝小荷包? 支付宝小荷包,简单来说,就像是你在支付宝里的“私人金库”。它不仅支持快速转账、收款,...

美团官方发福利,吃喝玩乐外卖神券天天领
美团官方发福利了,加美团企业微信,每天免费领各种吃喝玩乐神券,领取福利流程如下: 1、微信扫码登录↓↓↓ 2、长按添加美团企业微信 3、天天领券 每日签到领取更多红包 更有超多促销活动,限时活动,低价爆品等,让你放肆嗨吃嗨喝!

免费PDF文档翻译软件BabelDOC整合包下载,AI一键PDF全文翻译工具
分享另一个热门的PDF文档翻译软件BabelDOC,软件可以将PDF文档由原语言翻译成指定语言文档,基于在线大语言模型处理能力,文档翻译效果更准确,并保留排版,支持批量文档翻译,我制作了最新版免安装一键启动整合包。 BabelDOC介绍 另...

AI歌曲创作软件YuE整合包下载,一键谱曲演唱音乐生成器
YuE:开放的全曲音乐生成基础模型,可免费一键生成完整歌曲,AI作曲,AI演唱,是一个高质量的AI音乐生成软件。我制作了最新的面安装一键启动整合包。 YuE介绍 YuE 是一系列突破性的开源基础模型,专为音乐生成而设计,尤其适用于将歌词转化...

可灵AI会员专属优惠邀请码,限时福利领取
可灵AI发福利了,通过专属优惠邀请码 6BZPEJK83JZ9 可额外获得50%灵感值。 现在图片、音乐、视频等等,啥都可以用AI生成,可灵AI就是快手旗下非常强大的一个AI内容创作平台,功能多样,效果强大。我最近半年几乎每周都会使用多次,...