faster-whisper是基于OpenAI的whisper的优化版本,faster-whisper使用CTranslate2对 OpenAI 的 Whisper 模型的重新实现,它是 Transformer 模型的快速推理引擎。在相同准确率下,该实现比openai/whisper快 4 倍,同时占用更少的内存。在 CPU 和 GPU 上均采用 8 位量化,效率可进一步提高。
以下是使用不同实现方式转录13 分钟音频所需的时间和内存使用测试结果,测试设备为NVIDIA Tesla V100S,模型为Large-v2:
| 测试工具 | 精确 | Beam size | 时间 | 最大GPU显存 | 最大CPU内存 |
|---|---|---|---|---|---|
| openai/whisper | fp16 | 5 | 4m30s | 11325MB | 9439MB |
| faster-whisper | fp16 | 5 | 54s | 4755MB | 3244MB |
| faster-whisper | int8 | 5 | 59s | 3091MB | 3117MB |
可以明显的看出faster-whisper的执行速度是有非常大的提升的,快了近5倍了。这个应用是非常好的一个工具了,我制作了最新版的faster-whisper一键启动整合包,操作界面如下:

软件支持音频文件和视频文件的语音转文字
默认使用模型为small,模型越大识别效果越好,但是对电脑配置要求也越高,如果想使用更大的模型,需要到网盘里将另外两个模型下载到项目文件夹里huggingface文件夹内,
软件支持将识别的内容翻译为其它语言,可选的翻译工具有百度翻译和谷歌翻译,国内用户可用百度翻译,国外用户可用谷歌翻译。使用百度翻译需要先申请APP ID和密钥,可以看这篇文章《最新百度翻译api免费申请AppId和AppSecret流程,每月免费100万字符》,将申请到的APP ID和密钥填到软件里即可使用百度翻译功能。
如使用翻译功能必须填写下面的目标语言,软件里我只预设了少量几种语言,但是百度和谷歌支持几十种语言的翻译,你可以将语言代码直接填到目标语言输入框里。百度和谷歌翻译的语言代码如下:
百度翻译语言代码列表
| 语言代码 | 名称 |
|---|---|
| zh | 中文 |
| en | 英语 |
| yue | 粤语 |
| wyw | 文言文 |
| jp | 日语 |
| kor | 韩语 |
| fra | 法语 |
| spa | 西班牙语 |
| th | 泰语 |
| ara | 阿拉伯语 |
| ru | 俄语 |
| pt | 葡萄牙语 |
| de | 德语 |
| it | 意大利语 |
| el | 希腊语 |
| nl | 荷兰语 |
| pl | 波兰语 |
| bul | 保加利亚语 |
| est | 爱沙尼亚语 |
| dan | 丹麦语 |
| fin | 芬兰语 |
| cs | 捷克语 |
| rom | 罗马尼亚语 |
| slo | 斯洛文尼亚语 |
| swe | 瑞典语 |
| hu | 匈牙利语 |
| cht | 繁体中文 |
| vie | 越南语 |
Google翻译语言代码列表
| 语言 | 代码 |
|---|---|
| 南非荷兰语 | af |
| 阿尔巴尼亚语 | sq |
| 阿姆哈拉语 | am |
| 阿拉伯语 | ar |
| 亚美尼亚文 | hy |
| 阿萨姆语 | as |
| 艾马拉语 | ay |
| 阿塞拜疆语 | az |
| 班巴拉语 | bm |
| 巴斯克语 | eu |
| 白俄罗斯语 | be |
| 孟加拉文 | bn |
| 博杰普尔语 | bho |
| 波斯尼亚语 | bs |
| 保加利亚语 | bg |
| 加泰罗尼亚语 | ca |
| 宿务语 | ceb |
| 中文(简体) | zh-CN |
| 中文(繁体) | zh-TW |
| 科西嘉语 | co |
| 克罗地亚语 | hr |
| 捷克语 | cs |
| 丹麦语 | da |
| 迪维希语 | dv |
| 多格来语 | doi |
| 荷兰语 | nl |
| 英语 | en |
| 世界语 | eo |
| 爱沙尼亚语 | et |
| Ewe | ee |
| 菲律宾语(塔加拉语) | fil |
| 芬兰语 | fi |
| 法语 | fr |
| 弗里斯兰语 | fy |
| 加利西亚语 | gl |
| 格鲁吉亚语 | ka |
| 德语 | de |
| 希腊文 | el |
| 瓜拉尼人 | gn |
| 古吉拉特文 | gu |
| 海地克里奥尔语 | ht |
| Hausa | ha |
| 夏威夷语 | haw |
| 希伯来语 | he 或 iw |
| 印地语 | hi |
| 苗语 | hmn |
| 匈牙利语 | hu |
| 冰岛语 | is |
| 伊博语 | ig |
| 伊洛卡诺语 | ilo |
| 印度尼西亚语 | id |
| 爱尔兰语 | ga |
| 意大利语 | it |
| 日语 | ja |
| 爪哇语 | jv 或 jw |
| 卡纳达文 | kn |
| 哈萨克语 | kk |
| 高棉语 | km |
| 卢旺达语 | rw |
| Konkani | gom |
| 韩语 | ko |
| Krio | kri |
| 库尔德语 | ku |
| 库尔德语(索拉尼) | ckb |
| 吉尔吉斯语 | ky |
| 老挝语 | lo |
| 拉丁文 | la |
| 拉脱维亚语 | lv |
| 林加拉语 | ln |
| 立陶宛语 | lt |
| 卢干达语 | lg |
| 卢森堡语 | lb |
| 马其顿语 | mk |
| 迈蒂利语 | mai |
| 马尔加什语 | mg |
| 马来语 | ms |
| 马拉雅拉姆文 | ml |
| 马耳他语 | mt |
| 毛利语 | mi |
| 马拉地语 | mr |
| 梅泰语(曼尼普尔语) | mni-Mtei |
| 米佐语 | lus |
| 蒙古文 | mn |
| 缅甸语 | my |
| 尼泊尔语 | ne |
| 挪威语 | no |
| 尼杨扎语(齐切瓦语) | ny |
| 奥里亚语(奥里亚) | or |
| 奥罗莫语 | om |
| 普什图语 | ps |
| 波斯语 | fa |
| 波兰语 | pl |
| 葡萄牙语(葡萄牙、巴西) | pt |
| 旁遮普语 | pa |
| 克丘亚语 | qu |
| 罗马尼亚语 | ro |
| 俄语 | ru |
| 萨摩亚语 | sm |
| 梵语 | sa |
| 苏格兰盖尔语 | gd |
| 塞佩蒂语 | nso |
| 塞尔维亚语 | sr |
| 塞索托语 | st |
| 修纳语 | sn |
| 信德语 | sd |
| 僧伽罗语 | si |
| 斯洛伐克语 | sk |
| 斯洛文尼亚语 | sl |
| 索马里语 | so |
| 西班牙语 | es |
| 巽他语 | su |
| 斯瓦希里语 | sw |
| 瑞典语 | sv |
| 塔加路语(菲律宾语) | tl |
| 塔吉克语 | tg |
| 泰米尔语 | ta |
| 鞑靼语 | tt |
| 泰卢固语 | te |
| 泰语 | th |
| 提格里尼亚语 | ti |
| Tsonga | ts |
| 土耳其语 | tr |
| 土库曼语 | tk |
| 契维语(阿坎语) | ak |
| 乌克兰语 | uk |
| 乌尔都语 | ur |
| 维吾尔语 | ug |
| 乌兹别克语 | uz |
| 越南语 | vi |
| 威尔士语 | cy |
| 班图语 | xh |
| 意第绪语 | yi |
| 约鲁巴语 | yo |
| 祖鲁语 | zu |
如有需要的可自行下载测试
注意:软件运行路径中不能有中文和空格
语音识别转文字软件faster-whisper整合包下载链接:
相关推荐
FunASR最新模型FunAudioLLM/Fun-ASR-Nano-2512实时语音识别转文字热词版整合包下载
麦克风电脑内播放声音实时识别转文字软件FunASR整合包V5下载
离线语音识别转文字软件Faster-whisper整合包使用说明视频教程
批量音频视频语音转文字软件faster-whisper整合包下载,精准快速语音转录工具
最好用的免费中文音频视频语音识别转文字软件FunASR V3版,批量音视频录音转文字提取工具下载
免费音频视频语音识别转文字软件SenseVoice整合包,支持批量操作可生成字幕
照片人物表情控制软件AdvancedLivePortrait整合包,图片转视频工具
最新版PDF转Markdown格式软件MinerU一键启动整合包v0.10.0下载
最近更新
PDF转Markdown软件MinerU 3.1.11整合包(高性能版)
MinerU是一款非常热门的PDF、图片、DOCX、PPTX、XLSX转markdown格式软件,转换效果属于同类软件中比较优秀的一个。当前最新版为3.1.11版本,我基于最新版源码制作了免安装一键启动整合包,并做适当优化及修改,详情查看链...
阿里千问Qwen3-TTS声音克隆语音合成软件【低配电脑版】
阿里千问Qwen3-TTS是一款热门的语音合成及声音克隆软件,我基于当前最新版制作了免安装一键启动整合包,并增加多人对话语音合成功能。 此版本为低配显卡电脑版,软件使用0.6B模型,模型尺寸略小,对电脑显卡配置要求也更小,但是质量不会差太多...

腾讯混元三维世界重建系统WorldMirror 2.0通用3D三维资产重建工具下载
WorldMirror 2.0 是由腾讯混元(Hunyuan)团队开发的下一代通用三维世界重建系统,底层基于 HY-World-2.0 模型。它能够从一组普通照片或一段视频中,自动恢复出场景的三维结构,并生成多种形式的三维资产,包括: 我基...

阿里Qwen3-TTS高质量声音克隆语音合成系统,AI视频配音多人对话生成工具
Qwen3-TTS 是由阿里 Qwen 团队开发的新一代语音合成系统,基于自研的 Qwen3-TTS-Tokenizer-12Hz 编解码器和离散多码本 LM 架构,实现了端到端的全信息语音建模。它突破了传统级联架构的信息瓶颈,支持音色克隆...

PasteMD:一键将 Markdown 和网页 AI 对话文本内容粘贴到 Word、WPS 和 Excel
PasteMD:一键将 Markdown 和网页 AI 对话(ChatGPT/DeepSeek等)完美粘贴到 Word、WPS 和 Excel 的效率工具。 在写论文或报告时,从 ChatGPT / DeepSeek 等 AI 网站中复制出...

BiliNote:自动生成B站油管视频笔记,AI视频内容总结工具
在信息爆炸的时代,视频已经成为最重要的知识载体之一。但相比文字,视频的“可检索性”和“复用效率”始终较低。如何快速从长视频中提取重点、形成结构化知识,成为很多学习者和创作者的痛点。 而 BiliNote 正是为解决这一问题而诞生的一款开源 ...

优云智算HappyHorse AI 视频生成API KEY WebUI
大家可能平常刷视频的时候已经发现了,进入2026年AI短剧极其火爆,不管是短视频平台还是拼多多等购物平台,短剧视频里经常能刷到AI漫剧。前几年短剧公司拍真人短剧赚的盆满钵满,进入2026年短剧公司被AI打的毫无还手之力。借助AI的快速发展,...

LTX-2.3 视频生成免安装部署整合包软件下载
LTX-2 是由 Lightricks 开发的首个基于 DiT(扩散变换器)架构的音视频基础模型,能够在一个统一模型中同时生成高质量的视频与同步音频。与以往需要分别处理视频和音频的方案不同,LTX-2 将两者深度融合,实现真正的音画同步生成...
windows电脑剪贴板内容管理工具Ditto下载,快速粘贴预设文字内容回复话术
和大家分享一个windows电脑剪贴板内容管理神器Ditto,软件可以快速将预设文字内容填充到指定位置。 由于每天都要写大量文字,有时候还是重复内容,频繁到其它地方复制粘贴的话比较耗时间,所以找到了这款软件,首先佩服一下软件作者,这个软件维...
PDF转word软件FreeP2W免安装版下载
这软件还是很早的时候一个用户让做的,发现没分享过,现在分享一下。 软件主要功能就是把PDF文档转换为word文档 软件使用很简单,把需要处理的pdf文档复制到input文件夹内,双击启动软件.exe,等待处理完成即可。 注意事项 软件只支持...
















