Faster-whisper距离我上次分享已经过去挺长时间了,而且中间也更新了多次了,看到Faster-whisper昨天刚更新了一下,更新内容有模型更新和处理速度大幅提升,更新内容还是挺重要的,我就做了一个最新版本的一键启动包,同时我对整合包功能也做了些修改和优化。

Faster-whisper语音转录工具介绍
faster-whisper是使用CTranslate2对 OpenAI 的 Whisper 模型的重新实现,是 Whisper 的一个优化版本,它是 Transformer 模型的快速推理引擎,用于实现语音识别。此实现比openai/whisper快 4 倍,且精度相同,同时占用的内存更少。在 CPU 和 GPU 上采用 8 位量化,效率可进一步提高。
主要功能
- 语音转录:
- 将语音文件(如 MP3、WAV)转换为文本。
- 支持多语言语音转录。
- 语言检测:
- 自动检测输入音频的语言,无需手动指定语言。
- 分段处理:
- 能够将长音频分成多个片段进行处理,从而提升处理效率和内存利用率。
Faster-whisper特点
- 高效优化:
- 使用 CTranslate2 后端来加速模型推理,显著提升了运行速度。
- 支持 GPU 和 CPU 加速,充分利用硬件资源。
- 轻量化:
- 更小的模型大小和更低的资源需求,适合嵌入式设备或低性能机器。
- 灵活性:
- 允许用户选择不同的模型大小(tiny、base、small、medium、large)以平衡速度和精度。
- 多语言支持:
- 支持 Whisper 所有的多语言模型,适用于不同语言的转录需求。
Faster-whisper更新说明
Faster-whisper最近发布的版本更新内容有如下方面:
1.1.1更新内容
恢复原始 VAD 参数命名
使批量 suppress_tokens 行为与顺序相同
修复 OOM 错误 – VAD 的 RAM 使用率过高
将音频持续时间和 VAD 移除持续时间添加到 BatchedInferencePipeline
修复 neg_threshold
1.1.0新功能
- 新的分批推理速度提高了 4 倍,而且准确度也提高了
- 支持新
large-v3-turbo
模型。 - VAD 过滤器现在在 CPU 上的运行速度提高了 3 倍。
- 特征提取速度现在提高了 3 倍。
- 已添加
log_progress
到WhisperModel.transcribe
打印转录进度。 - 添加了
multilingual
转录选项,允许转录多语言音频。请注意,大型模型已经具有代码转换功能,因此这对medium
模型或较小的模型最有益。 WhisperModel.detect_language
现在可以选择使用 VAD 过滤器,并改进使用language_detection_segments
和的语言检测language_detection_threshold
。
问题修复
chunk_length
在<30 秒时使用正确的特征填充编码器输入seek
在输出中使用正确的值
其他变化
- 在 Word、Segment、TranscriptionOptions、TranscriptionInfo 和 VadOptions 中用 dataclass 替换 NamedTuple,这样就可以转换为 json 而无需嵌套。
- 为开发添加了新测试
- 在自述文件中更新了基准
- 在基准中使用 jiwer 而不是评估
- 过滤掉抑制标记中的非语音标记
Faster-whisper整合包使用说明
首先将网盘内的压缩包下载到电脑解压出来,然后运行【启动软件.exe】。软件支持处理mp3,wav,mp4格式音视频。也支持批量处理。可以将需要处理的音视频文件或文件夹鼠标左键按住拖动到软件窗口中。软件会自动识别路径并填充文本编辑框。
选择模型:发音标准,音频干净清晰的话,使用small模型基本就够用了,如果你的音频文件比较复杂可以使用更大的模型,模型越大识别越精准,但是对电脑配置要求也越高。软件包只打包了small模型,如果选择更高模型的话,软件会自动下载模型。模型下载源为国内站点,速度可达四五十兆每秒,速度非常快,如果你下载速度比较慢的话,可以关闭软件重新打开,重新运行下载。
batch size:就是批处理大小,值越大,处理速度越快,但是对电脑配置要求也越高。默认值为4,相对较小。可以根据你电脑显存使用情况适当调高该值。
计算精度:默认float16,int8速度更快,显存消耗也会更少。
翻译工具:国外用户用Google,国内用户用百度,百度翻译api申请教程《最新百度翻译api免费申请AppId和AppSecret流程,每月免费100万字符》
翻译目标语言:想把识别出的文本翻译成什么语言的文本
点击【开始处理】按钮后软件就会开始处理选定的内容,识别结果保存在项目文件夹内的outputs文件夹内。
整合包更新内容:
相对于我分享的上个整合包,本次分享的整合包版本有了多处升级。
1、新增批量处理功能,直接选择文件夹,软件就会处理文件夹内的所有音视频文件。仅是MP4格式视频和音频类型文件,不要有其它类型文件。
2、新增batch size和计算精度选项,对高配电脑更加友好,处理效率更高
3、优化字幕生成算法,启用字级时间戳,生成的字幕更准确更友好。
4、增加对最新模型large-v3-turbo模型的支持
5、其它细节上的一些优化。
注意事项
整合包只支持Windows 10或11
软件运行路径中不要有非英文字符和空格
使用前请先将英伟达显卡驱动更新到最新版本,否则可能会报错
理论支持CPU模式,支持没有英伟达显卡的电脑使用,但是未做测试,有需要的可自行测试。
语音发音不标准、音频不干净等原因可能会导致输出繁体中文,可尝试更换更大的模型
如果选择处理文件夹,文件夹内不要有音频、MP4视频以外的文件类型
语音识别转文字软件faster-whisper一键启动包下载链接
相关推荐
最近更新

高效可控歌曲生成器ACE-Step一键启动整合包,音乐人的歌曲创作利器
又一款AI歌曲创作利器:ACE-Step,ACE-Step是刚发布不久的AI自动谱曲AI自动演唱软件,软件在歌曲生成速度、音乐连贯性和可控性上相对同类软件有了较大提升。ACE-Step在3小时前刚发布了新版本,我基于当前最新版本制作了免安装...

超逼真对话型文字转语音软件Dia-1.6B免安装一键启动整合包下载
本次分享一个刚出的超逼真对话型文字转语音软件Dia-1.6B,这个TTS软件不像传统的文字转语音那样,Dia可以生成对话音频,还可以生成非语言音效,如笑声,咳嗽,清嗓子等,还支持声音克隆。我基于当前Dia最新版本制作了免安装一键启动整合包。...

高精度2D图片转3D网格模型软件Stable3DGen整合包下载
本次和大家分享另一个非常牛叉的图片转3D模型软件Stable3DGen,从官方演示对比来看,效果要好于我之前分享的腾讯混元3D和TRELLIS,精度更高更细腻。基于当前最新版本我制作了一键启动整合包。 Stable3DGen介绍 随着从二维...

2D照片转3D视频软件stable-virtual-camera免安装一键启动整合包下载
本次和大家分享一个好玩实用的2D图片转3D视频软件stable-virtual-camera,支持多种相机模式,生成的3D视频效果丰富多样,适合多种使用场景,我基于当前最新版本制作了免安装一键启动整合包。 stable-virtual-ca...

AI歌曲创作软件DiffRhythm一键启动包,自定义风格AI谱曲演唱
DiffRhythm是首个基于扩散技术的开源音乐生成模型,能够创作完整的歌曲,包括AI谱曲,AI演唱。基于当前最新V1.2版本我制作了免安装一键启动整合包。 DiffRhythm介绍 Di♪♪Rhythm:速度惊人、简单至极、具有潜在扩散的...

虚拟试衣产品设计多图合成软件UNO一键启动整合包,人物转动漫工具
UNO是字节跳动开发的一款多主体图像生成软件,解决了角色或物体一致性的问题,可用于漫画、虚拟试衣等场景。我基于当前最新版本制作了免安装一键启动整合包。 UNO介绍 UNO是一款基于扩散模型的AI图像生成工具,核心目标是解决AI生成图像时难以...

临时邮箱,一次性匿名gmail.com邮箱
有时候网站需要测试一些功能,比如注册登录等,需要用到邮箱,但是自己的邮箱有限,不能更多的测试效果,这时候就需要一些不同后缀的一次性邮箱,网上有很多这样的一次性匿名邮箱,后缀很多,非常适合测试使用,下面分享几个比较好用的临时邮箱。 Gmail...

免费AI视频生成软件FramePack整合包下载,本地离线AI图片转视频工具
前段时间阿里开源了一个AI视频生成工具WAN2.1,可以实现文本转视频和图片转视频,虽说很强大,但是测试之后感觉软件对电脑配置要求太高了,感觉应该大部分用户都用不了,而且只支持720P视频,清晰度有些低,所以没和大家分享。前些天又出了一个更...

PDF OCR图片文字内容识别软件OCRmyPDF下载,免费PDF扫描内容转可搜索可复制工具
本次和大家分享一个非常热门强大的PDF文件内容OCR识别软件OCRmyPDF,这个软件可以将PDF内不可搜索的图片和文字识别转换为可复制可搜索的文本,并对PDF文件进行优化。 OCRmyPDF介绍 OCRmyPDF 为扫描的 PDF 文件添...

免费音效音乐生成软件AudioX整合包下载,快速音效配音工具
本次分享一个非常强大的音乐音效生成软件AudioX,这个软件可以通过提供文本、视频、图像、音乐和音频自动识别内容重新生成一段高质量的通用音频和音乐。 AudioX介绍 音频和音乐生成已成为众多应用中的关键任务,然而现有方法面临诸多限制:它们...