Chatterbox 是由 Resemble AI 开发的开源文本转语音(Text-to-Speech, TTS)模型,支持零样本音色克隆:只需提供一段参考音频(几秒钟的人声),即可模仿该音色朗读任意文本。我基于最新版源码制作了免安装一键启动整合包,重做UI,并增加多人对话及实时语音合成功能。

核心功能特点
多语言支持(23 种)
多语言版覆盖以下语言(括号内为代码):
| 语言 |
|---|
| 中文 (zh)、日语 (ja)、韩语 (ko)、印地语 (hi)、马来语 (ms)、土耳其语 (tr) |
| 英语 (en)、法语 (fr)、德语 (de)、西班牙语 (es)、葡萄牙语 (pt)、意大利语 (it)、荷兰语 (nl)、俄语 (ru)、波兰语 (pl)、丹麦语 (da)、瑞典语 (sv)、挪威语 (no)、芬兰语 (Bokmål)、芬兰语 (fi)、希腊语 (el) |
| 阿拉伯语 (ar)、希伯来语 (he) |
| 斯瓦希里语 (sw) |
零样本音色克隆
无需训练,只需一段参考音频(3-10秒)即可克隆音色。参考音频越清晰、越接近目标风格,效果越好。
精细的参数控制
提供 10 余个可调参数(详见下文”全局生成参数”),满足从快速生成到精细调优的各种需求。
内置音频水印
所有生成的音频自动嵌入 PerTh(Perceptual Threshold Watermarking) 水印技术:
- 人耳不可感知
- 抗 MP3 压缩和常见音频编辑
- 可通过
perth库提取验证
Chatterbox整合包功能与用法
启动软件
首先将网盘内软件压缩包下载到本地电脑并解压,双击 启动软件.bat
启动后浏览器自动打开 http://localhost:7860。
全局生成参数(可折叠面板)
点击”全局生成参数”展开面板,所有标签页共享以下设置:
| 参数 | 范围 | 默认值 | 说明 |
|---|---|---|---|
| 模型类型 | multilingual / english | multilingual | 选择多语言版或纯英文版 |
| 多语言版本 | v2 / v3 | v2 | v2 稳定,v3 实验性(仅多语言有效) |
| 语言 | 23 种语言代码 | en | 仅多语言模型有效 |
| 随机种子 | 整数 | 0 | 0 表示完全随机;固定值可复现结果 |
| 语调夸张度 Exaggeration | 0.25 ~ 2.0 | 0 | 0.5 |
| CFG 引导强度 | 0.0 ~ 1.0 | 0.5 | 0 = 无引导,越高越贴合参考音频 |
| 温度 Temperature | 0.05 ~ 5.0 | 0.8 | 越高随机性越强 |
| 重复惩罚 | 1.0 ~ 2.0 | 1.2 | 抑制词语重复 |
| Min P 采样 | 0.0 ~ 1.0 | 0.05 | 推荐 0.02~0.1,0 关闭 |
| Top P 核采样 | 0.0 ~ 1.0 | 1.0 | 1.0 关闭(推荐保持关闭) |
修改任意参数后,在对应标签页点击”生成”即可自动保存,下次启动自动恢复。
标签页一:单段合成
适合朗读一段文字、有声书、旁白等场景。
操作步骤:
- (可选)上传或录制一段参考音频(3-10秒),用于音色克隆。不提供则使用模型默认音色
- 在”合成文本”框中输入要朗读的文字
- 点击 “生成语音” 按钮
- 在下方”合成结果”中播放试听
标签页二:多人对话合成
适合播客、有声剧、对话场景,最多支持 5 位说话人。
操作步骤:
- 为每位说话人上传参考音频(至少需上传 1 人)
- 在文本中使用标签标记不同说话人:
[sp1]— 说话人 1[sp2]— 说话人 2[sp3]— 说话人 3[sp4]— 说话人 4[sp5]— 说话人 5
- 示例:
[sp1]你好,今天天气真不错。 [sp2]是啊,适合出去走走。 [sp1]一起去公园吧? - 点击 “生成多人对话”
- 结果自动拼接为每段文本匹配对应说话人的音色,段间加入 0.1 秒静音
- “生成日志”区域会显示每位说话人的生成状态
标签页三:实时合成
适合快速测试、交互式对话等场景。
操作步骤:
- (可选)上传参考音频
- 在输入框中键入文本
- 按 回车(Enter) 或点击 “发送” 按钮
- 语音立即生成并播放
- “生成历史”区域保留最近 50 条记录,可点击 “清空历史” 重置
参数调优建议
通用推荐
| 场景 | Exaggeration | CFG Weight | 温度 | 说明 |
|---|---|---|---|---|
| 中性朗读 | 0.5 | 0.5 | 0.8 | 最通用的设置 |
| 快速语速参考 | 0.5 | 0.3 | 0.8 | 降低 CFG 改善节奏 |
| 表现力/戏剧化 | 0.7+ | 0.3 | 0.9 | 低引导 + 高夸张 |
| 跨语言合成 | 0.5 | 0.0 | 0.8 | 避免参考音频的口音影响 |
跨语言注意事项
- 参考音频的语言尽量与目标语言一致
- 若无法匹配,可将
CFG Weight设为 0 以减轻口音影响 - 例如用英文参考音频生成中文语音,CFG=0 效果更自然
注意事项
硬件要求
- 推荐 GPU:NVIDIA 显卡(CUDA),4GB+ 显存
- CPU 模式:可用但速度较慢
参考音频要求
- 长度建议 3~10 秒
- 背景噪音越小越好
- 尽量选择与目标语音风格相近的参考音频
- 多人对话中,每个说话人都需要提供独立的参考音频
需要等到终端窗口里输出“模型加载成功”后再进行语音合成操作
请勿将本软件用于欺诈、冒充他人、制作虚假信息等不当用途。请遵守当地法律法规,合理使用语音合成技术。
Chatterbox多人对话声音克隆语音合成软件下载链接
https://pan.quark.cn/s/d915baaf2523
相关推荐
最近更新

多人对话声音克隆语音合成工具Chatterbox TTS免安装版,AI实时文字转语音
Chatterbox 是由 Resemble AI 开发的开源文本转语音(Text-to-Speech, TTS)模型,支持零样本音色克隆:只需提供一段参考音频(几秒钟的人声),即可模仿该音色朗读任意文本。我基于最新版源码制作了免安装一键启...
Mineru PDF转markdown软件局域网版
对于有的电脑配置比较低或是win7系统等电脑无法使用Mineru情况,可以使用局域网内可运行软件的电脑运行Mineru,然后其它电脑或手机等终端输入IP地址,打开运行软件的IP地址来使用Mineru。 具体用法: 下载局域网版压缩包到本地电...

OmniSVG:统一的可缩放矢量图形生成软件
OmniSVG 是一个基于视觉-语言模型(VLM)的端到端多模态 SVG(可缩放矢量图形)生成框架,由 OpenVGLab 团队开发。该项目能够从文本描述或参考图像生成高质量的 SVG 矢量图形,覆盖从简单图标...

AI实时变声器Voice Changer2.1.4 CUDA版下载,高质量RVC变声软件
Voice Changer是一款实时 AI 变声工具,允许你通过多种 AI 声音模型(如 RVC 和 Beatrice)实时转换声音。转换延迟更低,是目前社区中最受欢迎的开源实时变声方案之一。 核心特点 1. 实时性 voice-chang...

Studio One Pro 7免费开心版下载
Studio One 7是一款专业数字音频工作站(DAW)软件,它是音乐制作、混音、母带处理与现场演出一体化的旗舰软件。 ✨ 核心功能 1. AI 智能音轨分离(Stem Separation) AI 驱动的音轨分离功能允许用户将混缩后的音...
PDF转Markdown软件MinerU 3.1.11整合包(高性能版)
MinerU是一款非常热门的PDF、图片、DOCX、PPTX、XLSX转markdown格式软件,转换效果属于同类软件中比较优秀的一个。当前最新版为3.1.11版本,我基于最新版源码制作了免安装一键启动整合包,并做适当优化及修改,详情查看链...
阿里千问Qwen3-TTS声音克隆语音合成软件【低配电脑版】
阿里千问Qwen3-TTS是一款热门的语音合成及声音克隆软件,我基于当前最新版制作了免安装一键启动整合包,并增加多人对话语音合成功能。 此版本为低配显卡电脑版,软件使用0.6B模型,模型尺寸略小,对电脑显卡配置要求也更小,但是质量不会差太多...

腾讯混元三维世界重建系统WorldMirror 2.0通用3D三维资产重建工具下载
WorldMirror 2.0 是由腾讯混元(Hunyuan)团队开发的下一代通用三维世界重建系统,底层基于 HY-World-2.0 模型。它能够从一组普通照片或一段视频中,自动恢复出场景的三维结构,并生成多种形式的三维资产,包括: 我基...

阿里Qwen3-TTS高质量声音克隆语音合成系统,AI视频配音多人对话生成工具
Qwen3-TTS 是由阿里 Qwen 团队开发的新一代语音合成系统,基于自研的 Qwen3-TTS-Tokenizer-12Hz 编解码器和离散多码本 LM 架构,实现了端到端的全信息语音建模。它突破了传统级联架构的信息瓶颈,支持音色克隆...

PasteMD:一键将 Markdown 和网页 AI 对话文本内容粘贴到 Word、WPS 和 Excel
PasteMD:一键将 Markdown 和网页 AI 对话(ChatGPT/DeepSeek等)完美粘贴到 Word、WPS 和 Excel 的效率工具。 在写论文或报告时,从 ChatGPT / DeepSeek 等 AI 网站中复制出...















