多人对话声音克隆语音合成工具Chatterbox TTS免安装版，AI实时文字转语音-诺瓦小站

Chatterbox 是由 Resemble AI 开发的开源文本转语音（Text-to-Speech, TTS）模型，支持零样本音色克隆：只需提供一段参考音频（几秒钟的人声），即可模仿该音色朗读任意文本。我基于最新版源码制作了免安装一键启动整合包，重做UI，并增加多人对话及实时语音合成功能。

核心功能特点

多语言支持（23 种）

多语言版覆盖以下语言（括号内为代码）：

语言
中文 (zh)、日语 (ja)、韩语 (ko)、印地语 (hi)、马来语 (ms)、土耳其语 (tr)
英语 (en)、法语 (fr)、德语 (de)、西班牙语 (es)、葡萄牙语 (pt)、意大利语 (it)、荷兰语 (nl)、俄语 (ru)、波兰语 (pl)、丹麦语 (da)、瑞典语 (sv)、挪威语 (no)、芬兰语 (Bokmål)、芬兰语 (fi)、希腊语 (el)
阿拉伯语 (ar)、希伯来语 (he)
斯瓦希里语 (sw)

零样本音色克隆

无需训练，只需一段参考音频（3-10秒）即可克隆音色。参考音频越清晰、越接近目标风格，效果越好。

精细的参数控制

提供 10 余个可调参数（详见下文”全局生成参数”），满足从快速生成到精细调优的各种需求。

内置音频水印

所有生成的音频自动嵌入 PerTh（Perceptual Threshold Watermarking） 水印技术：

人耳不可感知
抗 MP3 压缩和常见音频编辑
可通过 perth 库提取验证

Chatterbox整合包功能与用法

启动软件

首先将网盘内软件压缩包下载到本地电脑并解压，双击 启动软件.bat

启动后浏览器自动打开 http://localhost:7860。

全局生成参数（可折叠面板）

点击”全局生成参数”展开面板，所有标签页共享以下设置：

参数	范围	默认值	说明
模型类型	multilingual / english	multilingual	选择多语言版或纯英文版
多语言版本	v2 / v3	v2	v2 稳定，v3 实验性（仅多语言有效）
语言	23 种语言代码	en	仅多语言模型有效
随机种子	整数	0	0 表示完全随机；固定值可复现结果
语调夸张度 Exaggeration	0.25 ~ 2.0	0	0.5
CFG 引导强度	0.0 ~ 1.0	0.5	0 = 无引导，越高越贴合参考音频
温度 Temperature	0.05 ~ 5.0	0.8	越高随机性越强
重复惩罚	1.0 ~ 2.0	1.2	抑制词语重复
Min P 采样	0.0 ~ 1.0	0.05	推荐 0.02~0.1，0 关闭
Top P 核采样	0.0 ~ 1.0	1.0	1.0 关闭（推荐保持关闭）

修改任意参数后，在对应标签页点击”生成”即可自动保存，下次启动自动恢复。

标签页一：单段合成

适合朗读一段文字、有声书、旁白等场景。

操作步骤：

（可选）上传或录制一段参考音频（3-10秒），用于音色克隆。不提供则使用模型默认音色
在”合成文本”框中输入要朗读的文字
点击 “生成语音” 按钮
在下方”合成结果”中播放试听

标签页二：多人对话合成

适合播客、有声剧、对话场景，最多支持 5 位说话人。

操作步骤：

为每位说话人上传参考音频（至少需上传 1 人）
在文本中使用标签标记不同说话人：
- [sp1] — 说话人 1
- [sp2] — 说话人 2
- [sp3] — 说话人 3
- [sp4] — 说话人 4
- [sp5] — 说话人 5
示例：[sp1]你好，今天天气真不错。 [sp2]是啊，适合出去走走。 [sp1]一起去公园吧？
点击 “生成多人对话”
结果自动拼接为每段文本匹配对应说话人的音色，段间加入 0.1 秒静音
“生成日志”区域会显示每位说话人的生成状态

标签页三：实时合成

适合快速测试、交互式对话等场景。

操作步骤：

（可选）上传参考音频
在输入框中键入文本
按 回车（Enter） 或点击 “发送” 按钮
语音立即生成并播放
“生成历史”区域保留最近 50 条记录，可点击 “清空历史” 重置

参数调优建议

通用推荐

场景	Exaggeration	CFG Weight	温度	说明
中性朗读	0.5	0.5	0.8	最通用的设置
快速语速参考	0.5	0.3	0.8	降低 CFG 改善节奏
表现力/戏剧化	0.7+	0.3	0.9	低引导 + 高夸张
跨语言合成	0.5	0.0	0.8	避免参考音频的口音影响