Faster-whisper距离我上次分享已经过去挺长时间了,而且中间也更新了多次了,看到Faster-whisper昨天刚更新了一下,更新内容有模型更新和处理速度大幅提升,更新内容还是挺重要的,我就做了一个最新版本的一键启动包,同时我对整合包功能也做了些修改和优化。
2025-09-02
faster-whisper更新至最新1.2版,新增支持本地ollama大语言模型翻译功能
2026-04-01
源码更新到最新版,重做UI,功能及设置上一些优化

Faster-whisper语音转录工具介绍
faster-whisper是使用CTranslate2对 OpenAI 的 Whisper 模型的重新实现,是 Whisper 的一个优化版本,它是 Transformer 模型的快速推理引擎,用于实现语音识别。此实现比openai/whisper快 4 倍,且精度相同,同时占用的内存更少。在 CPU 和 GPU 上采用 8 位量化,效率可进一步提高。
主要功能
- 语音转录:
- 将语音文件(如 MP3、WAV)转换为文本。
- 支持多语言语音转录。
- 语言检测:
- 自动检测输入音频的语言,无需手动指定语言。
- 分段处理:
- 能够将长音频分成多个片段进行处理,从而提升处理效率和内存利用率。
Faster-whisper特点
- 高效优化:
- 使用 CTranslate2 后端来加速模型推理,显著提升了运行速度。
- 支持 GPU 和 CPU 加速,充分利用硬件资源。
- 轻量化:
- 更小的模型大小和更低的资源需求,适合嵌入式设备或低性能机器。
- 灵活性:
- 允许用户选择不同的模型大小(tiny、base、small、medium、large)以平衡速度和精度。
- 多语言支持:
- 支持 Whisper 所有的多语言模型,适用于不同语言的转录需求。
Faster-whisper更新说明
Faster-whisper最近发布的版本更新内容有如下方面:
1.2.0更新内容
- feat:允许通过特定修订版本进行下载
- 支持
distil-large-v3.5 - 功能:允许通过以下方式加载私有 HF 模型
- 错误修复:通过以下方式恢复时间戳时获取正确的块索引
- 通过批量转录删除静音
1.1.1更新内容
恢复原始 VAD 参数命名
使批量 suppress_tokens 行为与顺序相同
修复 OOM 错误 – VAD 的 RAM 使用率过高
将音频持续时间和 VAD 移除持续时间添加到 BatchedInferencePipeline
修复 neg_threshold
1.1.0新功能
- 新的分批推理速度提高了 4 倍,而且准确度也提高了
- 支持新
large-v3-turbo模型。 - VAD 过滤器现在在 CPU 上的运行速度提高了 3 倍。
- 特征提取速度现在提高了 3 倍。
- 已添加
log_progress到WhisperModel.transcribe打印转录进度。 - 添加了
multilingual转录选项,允许转录多语言音频。请注意,大型模型已经具有代码转换功能,因此这对medium模型或较小的模型最有益。 WhisperModel.detect_language现在可以选择使用 VAD 过滤器,并改进使用language_detection_segments和的语言检测language_detection_threshold。
问题修复
chunk_length在<30 秒时使用正确的特征填充编码器输入seek在输出中使用正确的值
Faster-whisper整合包使用说明
首先将网盘内的压缩包下载到电脑解压出来,然后运行【启动软件.bat】。软件支持处理多种格式音视频文件,格式如下:"*.mp3", "*.wav", "*.flac", "*.aac", "*.m4a", "*.mp4", "*.mkv", "*.avi", "*.mov"
。也支持批量处理。可以将需要处理的音视频文件鼠标左键按住拖动到软件窗口中。或是在输入框内输入需要批量处理的文件夹。
选择模型:默认使用的medium模型,如果你感觉识别效果不满意的话可以使用更大的模型,模型越大识别越精准,但是对电脑配置要求也越高。
选择其它模型软件会自动下载模型文件,如果你无法访问huggingface的话,就无法自动下载模型文件,可以到我网盘内【models】文件夹内手动下载模型压缩包文件到本地电脑项目文件夹【models】内解压,解压后的文件夹路径参考:
faster-whisper20260331–>models–>large-v3–>model.bin
文件夹不要有多余的嵌套,否则无法识别文件
batch size:就是批处理大小,值越大,处理速度越快,但是对电脑配置要求也越高。默认值为4,相对较小。可以根据你电脑显存使用情况适当调高该值。
翻译工具:如果想要把识别文本翻译成其它语言,可以选择翻译工具进行翻译,可以免费使用bing翻译,不过机器翻译效果略差。你也可以使用大语言模型翻译,不过需要申请API,如果还没有大语言模型API的话,你可以点击立即申请>>
硅基流动模型 Base URL:
https://api.siliconflow.cn/v1/API KEY 填你个人实际API KEY值
Model name填你想要使用的模型名,如:
Pro/MiniMaxAI/MiniMax-M2.5你有其他的deepseek等兼容openai API的都可以
翻译目标语言:想把识别出的文本翻译成什么语言的文本
支持识别导出为SRT字幕文件,可按需开启
点击【开始识别】按钮后软件就会开始处理选定的内容,识别结果保存在项目文件夹内的outputs文件夹内。
软件处理过程为本地电脑处理,如果不需要下载模型文件的话,可离线使用本软件
整合包更新内容:
相对于我分享的上个整合包,本次分享的整合包版本有了多处升级。
1、新增批量处理功能,直接选择文件夹,软件就会处理文件夹内的所有音视频文件。仅是MP4格式视频和音频类型文件,不要有其它类型文件。
2、新增batch size和计算精度选项,对高配电脑更加友好,处理效率更高
3、优化字幕生成算法,启用字级时间戳,生成的字幕更准确更友好。
4、增加对最新模型large-v3-turbo模型的支持
5、其它细节上的一些优化。
注意事项
整合包只支持Windows 10或11
软件运行路径中不要有非英文字符和空格
支持英伟达50X系列显卡,使用前请先将英伟达显卡驱动更新到最新版本,否则可能会报错
语音发音不标准、音频声音不干净等原因可能会导致输出繁体中文,可尝试更换更大的模型
如果选择处理文件夹,文件夹内不要有音频、视频以外的文件类型
本软件建议用于英文等外国语言识别,如果识别中文建议使用另一款:https://nuowa.net/721
语音识别转文字软件faster-whisper一键启动包下载链接
在线一键启动
相关推荐
FunASR语音识别转文字软件区分说话人版
FunASR最新模型FunAudioLLM/Fun-ASR-Nano-2512实时语音识别转文字热词版整合包下载
麦克风电脑内播放声音实时识别转文字软件FunASR整合包V5下载
离线语音识别转文字软件Faster-whisper整合包使用说明视频教程
最好用的免费中文音频视频语音识别转文字软件FunASR V3版,批量音视频录音转文字提取工具下载
免费音频视频语音识别转文字软件SenseVoice整合包,支持批量操作可生成字幕
免费语音识别转文字软件faster-whisper整合包下载,音频视频文字提取工具
语音识别转文字软件免费下载,音频视频文字提取工具whisper一键整合包下载,openai语音转文本技术
最近更新

Claude居然自称“本人”
今天在和Claude聊网文写作的时候,Claude回复中居然自称本人,这让我有点震惊。 我经常会和AI聊工具功能对比等话题,ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的,好像都是本模型,本工具等等,反正从来没...

图像无损放大神器:Topaz Gigapixel AI软件下载及使用指南
在数字内容创作成风头的今天,我们经常会遇到低分辨率素材模糊、AI 生成图片尺寸太小、或者老照片充满噪点的情况。传统的图像放大方式(如双三次插值)只是单纯地拉伸像素,容易让画面变得模糊、虚化。 如果你正在寻找一种能“凭空”补齐细节、让低画质瞬...

AI视频提示词反推工具,参考视频即梦提示词一键生成
本工具是一款面向 AI 视频生成创作者的本地离线辅助软件。用户导入任意视频文件,工具会自动完成场景检测、关键帧提取、多模态模型分析、提示词拼装等全流程,最终输出一份可直接复制粘贴到即梦 AI 等视频生成平台的完整提示词。 适用场景 功能特点...
免费在线HTML转markdown工具
经常看一些在线文档,想复制给AI参考的话不方便直接复制,转换成markdown再给AI阅读会更简单明了,也方便自己查阅,这里给大家推荐两个在线的免费HTML转markdown网站。 1、https://d1tools.com/tools/c...

闲鱼自动回复机器人XianyuAutoAgent下载,24小时在线智能客服机器人系统
XianyuAutoAgent是一款面向闲鱼平台的智能化自动回复机器人,利用大语言模型自动识别买家意图并生成专业回复,实现 7×24 小时智能客服。 主要功能 1. 智能自动回复 2. 可视化 Web UI 3. 人工接管模式 4. 安全防...

AI漫剧制作即梦seedance2.0教程及提示词2026年5月最新版分享
AI视频依旧持续火爆,各种类型的AI视频层出不穷,视频效果也是越来越好,甚至快接近影视级,目前最主要的AI视频生成工具还是即梦,即梦 Seedance 2.0生成视频一秒钟都到2块多钱了😂,不过也没办法,还是得用,目前还没能有替代即梦see...

AI实时语音聊天对话系统,外语口语陪练/虚拟好友实时语音交流
AI 实时语音对话系统 是一款集语音识别(ASR)、大语言模型(LLM)对话、语音合成(TTS)于一体的实时语音交互软件。用户通过麦克风说话,系统自动识别语音内容并转为文字,交由 AI 角色进行智能回复,最终将回复内容合成为语音实时播放,实...

ComfyUI 三参考图生图工作流,虚拟试衣、换脸、图片内容整合
本工作流核心能力是将三张不同角度、内容的参考图,通过 AI 理解融合,生成一张新的图像,新图像内容根据描述词指令生成。工作流集成了阿里巴巴的 Qwen2.5-VL 多模态大模型(图像编辑版本)与 SeedVR2 超分辨率放大模型,实现了「理...
comfyui CUDA128+torch 2.8.0+python3.12最新纯净版一键启动整合包
comfyui官方发布的最新版便携包是基于torch 2.11+CU130 +Python 3.13版本制作的,Python版本和torch版本都太新了,windows电脑上安装某些节点的时候会有冲突报错,有时候就算能安装上也会比较麻烦,感...
LTX2.3+comfyui音频驱动视频生成工作流
这是一个基于 ComfyUI 的 LTX 2.3 音视频同步生成工作流,核心功能是上传一段音频 + 参考图片(可多张图),自动生成与音频内容对应的视频,适合制作人物说话、唱歌等口型同步视频。工作流使用8位量化版ltx2.3模型,显存需求降低...
















