Chatterbox 是由 Resemble AI 开发的开源文本转语音(Text-to-Speech, TTS)模型,支持零样本音色克隆:只需提供一段参考音频(几秒钟的人声),即可模仿该音色朗读任意文本。我基于最新版源码制作了免安装一键启动整合包,重做UI,并增加多人对话及实时语音合成功能。

核心功能特点
多语言支持(23 种)
多语言版覆盖以下语言(括号内为代码):
| 语言 |
|---|
| 中文 (zh)、日语 (ja)、韩语 (ko)、印地语 (hi)、马来语 (ms)、土耳其语 (tr) |
| 英语 (en)、法语 (fr)、德语 (de)、西班牙语 (es)、葡萄牙语 (pt)、意大利语 (it)、荷兰语 (nl)、俄语 (ru)、波兰语 (pl)、丹麦语 (da)、瑞典语 (sv)、挪威语 (no)、芬兰语 (Bokmål)、芬兰语 (fi)、希腊语 (el) |
| 阿拉伯语 (ar)、希伯来语 (he) |
| 斯瓦希里语 (sw) |
零样本音色克隆
无需训练,只需一段参考音频(3-10秒)即可克隆音色。参考音频越清晰、越接近目标风格,效果越好。
精细的参数控制
提供 10 余个可调参数(详见下文”全局生成参数”),满足从快速生成到精细调优的各种需求。
内置音频水印
所有生成的音频自动嵌入 PerTh(Perceptual Threshold Watermarking) 水印技术:
- 人耳不可感知
- 抗 MP3 压缩和常见音频编辑
- 可通过
perth库提取验证
Chatterbox整合包功能与用法
启动软件
首先将网盘内软件压缩包下载到本地电脑并解压,双击 启动软件.bat
启动后浏览器自动打开 http://localhost:7860。
全局生成参数(可折叠面板)
点击”全局生成参数”展开面板,所有标签页共享以下设置:
| 参数 | 范围 | 默认值 | 说明 |
|---|---|---|---|
| 模型类型 | multilingual / english | multilingual | 选择多语言版或纯英文版 |
| 多语言版本 | v2 / v3 | v2 | v2 稳定,v3 实验性(仅多语言有效) |
| 语言 | 23 种语言代码 | en | 仅多语言模型有效 |
| 随机种子 | 整数 | 0 | 0 表示完全随机;固定值可复现结果 |
| 语调夸张度 Exaggeration | 0.25 ~ 2.0 | 0 | 0.5 |
| CFG 引导强度 | 0.0 ~ 1.0 | 0.5 | 0 = 无引导,越高越贴合参考音频 |
| 温度 Temperature | 0.05 ~ 5.0 | 0.8 | 越高随机性越强 |
| 重复惩罚 | 1.0 ~ 2.0 | 1.2 | 抑制词语重复 |
| Min P 采样 | 0.0 ~ 1.0 | 0.05 | 推荐 0.02~0.1,0 关闭 |
| Top P 核采样 | 0.0 ~ 1.0 | 1.0 | 1.0 关闭(推荐保持关闭) |
修改任意参数后,在对应标签页点击”生成”即可自动保存,下次启动自动恢复。
标签页一:单段合成
适合朗读一段文字、有声书、旁白等场景。
操作步骤:
- (可选)上传或录制一段参考音频(3-10秒),用于音色克隆。不提供则使用模型默认音色
- 在”合成文本”框中输入要朗读的文字
- 点击 “生成语音” 按钮
- 在下方”合成结果”中播放试听
标签页二:多人对话合成
适合播客、有声剧、对话场景,最多支持 5 位说话人。
操作步骤:
- 为每位说话人上传参考音频(至少需上传 1 人)
- 在文本中使用标签标记不同说话人:
[sp1]— 说话人 1[sp2]— 说话人 2[sp3]— 说话人 3[sp4]— 说话人 4[sp5]— 说话人 5
- 示例:
[sp1]你好,今天天气真不错。 [sp2]是啊,适合出去走走。 [sp1]一起去公园吧? - 点击 “生成多人对话”
- 结果自动拼接为每段文本匹配对应说话人的音色,段间加入 0.1 秒静音
- “生成日志”区域会显示每位说话人的生成状态
标签页三:实时合成
适合快速测试、交互式对话等场景。
操作步骤:
- (可选)上传参考音频
- 在输入框中键入文本
- 按 回车(Enter) 或点击 “发送” 按钮
- 语音立即生成并播放
- “生成历史”区域保留最近 50 条记录,可点击 “清空历史” 重置
参数调优建议
通用推荐
| 场景 | Exaggeration | CFG Weight | 温度 | 说明 |
|---|---|---|---|---|
| 中性朗读 | 0.5 | 0.5 | 0.8 | 最通用的设置 |
| 快速语速参考 | 0.5 | 0.3 | 0.8 | 降低 CFG 改善节奏 |
| 表现力/戏剧化 | 0.7+ | 0.3 | 0.9 | 低引导 + 高夸张 |
| 跨语言合成 | 0.5 | 0.0 | 0.8 | 避免参考音频的口音影响 |
跨语言注意事项
- 参考音频的语言尽量与目标语言一致
- 若无法匹配,可将
CFG Weight设为 0 以减轻口音影响 - 例如用英文参考音频生成中文语音,CFG=0 效果更自然
注意事项
硬件要求
- 推荐 GPU:NVIDIA 显卡(CUDA),4GB+ 显存
- CPU 模式:可用但速度较慢
参考音频要求
- 长度建议 3~10 秒
- 背景噪音越小越好
- 尽量选择与目标语音风格相近的参考音频
- 多人对话中,每个说话人都需要提供独立的参考音频
需要等到终端窗口里输出“模型加载成功”后再进行语音合成操作
请勿将本软件用于欺诈、冒充他人、制作虚假信息等不当用途。请遵守当地法律法规,合理使用语音合成技术。
Chatterbox多人对话声音克隆语音合成软件下载链接
https://pan.quark.cn/s/d915baaf2523
相关推荐
最近更新

蛙蛙写作-能替你"打工"的AI写作平台,附邀请码:UZekHC
我不是一个容易被工具说服的人。用过 ChatGPT、试过各种”AI写作神器”,大多数要么写出来全是机翻腔,要么根本不懂网文的爆款逻辑。 直到我开始用蛙蛙写作,才发现原来一个工具真的可以懂你想写什么。 🐸 蛙蛙写作是什...

PDFMathTranslate + MinerU 批量PDF全文双语翻译转Markdown工具
本工具是一款基于 PDFMathTranslate 与 MinerU 整合的桌面端 PDF 翻译工具,通过简洁的 Web 界面实现一键式 PDF 全文双语翻译,并可选择将翻译结果导出为 Markdown 格式,方便导入知识库或进行二次编辑。...

Claude居然自称“本人”
今天在和Claude聊网文写作的时候,Claude回复中居然自称本人,这让我有点震惊。 我经常会和AI聊工具功能对比等话题,ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的,好像都是本模型,本工具等等,反正从来没...

图像无损放大神器:Topaz Gigapixel AI软件下载及使用指南
在数字内容创作成风头的今天,我们经常会遇到低分辨率素材模糊、AI 生成图片尺寸太小、或者老照片充满噪点的情况。传统的图像放大方式(如双三次插值)只是单纯地拉伸像素,容易让画面变得模糊、虚化。 如果你正在寻找一种能“凭空”补齐细节、让低画质瞬...

AI视频提示词反推工具,参考视频即梦提示词一键生成
本工具是一款面向 AI 视频生成创作者的本地离线辅助软件。用户导入任意视频文件,工具会自动完成场景检测、关键帧提取、多模态模型分析、提示词拼装等全流程,最终输出一份可直接复制粘贴到即梦 AI 等视频生成平台的完整提示词。 适用场景 功能特点...
免费在线HTML转markdown工具
经常看一些在线文档,想复制给AI参考的话不方便直接复制,转换成markdown再给AI阅读会更简单明了,也方便自己查阅,这里给大家推荐两个在线的免费HTML转markdown网站。 1、https://d1tools.com/tools/c...

闲鱼自动回复机器人XianyuAutoAgent下载,24小时在线智能客服机器人系统
XianyuAutoAgent是一款面向闲鱼平台的智能化自动回复机器人,利用大语言模型自动识别买家意图并生成专业回复,实现 7×24 小时智能客服。 主要功能 1. 智能自动回复 2. 可视化 Web UI 3. 人工接管模式 4. 安全防...

AI漫剧制作即梦seedance2.0教程及提示词2026年5月最新版分享
AI视频依旧持续火爆,各种类型的AI视频层出不穷,视频效果也是越来越好,甚至快接近影视级,目前最主要的AI视频生成工具还是即梦,即梦 Seedance 2.0生成视频一秒钟都到2块多钱了😂,不过也没办法,还是得用,目前还没能有替代即梦see...

AI实时语音聊天对话系统,外语口语陪练/虚拟好友实时语音交流
AI 实时语音对话系统 是一款集语音识别(ASR)、大语言模型(LLM)对话、语音合成(TTS)于一体的实时语音交互软件。用户通过麦克风说话,系统自动识别语音内容并转为文字,交由 AI 角色进行智能回复,最终将回复内容合成为语音实时播放,实...

ComfyUI 三参考图生图工作流,虚拟试衣、换脸、图片内容整合
本工作流核心能力是将三张不同角度、内容的参考图,通过 AI 理解融合,生成一张新的图像,新图像内容根据描述词指令生成。工作流集成了阿里巴巴的 Qwen2.5-VL 多模态大模型(图像编辑版本)与 SeedVR2 超分辨率放大模型,实现了「理...
















