AI软件下载
有趣网站推荐及实用软件下载

多人对话声音克隆语音合成工具Chatterbox TTS免安装版,AI实时文字转语音

Chatterbox 是由 Resemble AI 开发的开源文本转语音(Text-to-Speech, TTS)模型,支持零样本音色克隆:只需提供一段参考音频(几秒钟的人声),即可模仿该音色朗读任意文本。我基于最新版源码制作了免安装一键启动整合包,重做UI,并增加多人对话及实时语音合成功能。

多人对话声音克隆语音合成工具Chatterbox TTS免安装版,AI实时文字转语音

核心功能特点

多语言支持(23 种)

多语言版覆盖以下语言(括号内为代码):

语言
中文 (zh)、日语 (ja)、韩语 (ko)、印地语 (hi)、马来语 (ms)、土耳其语 (tr)
英语 (en)、法语 (fr)、德语 (de)、西班牙语 (es)、葡萄牙语 (pt)、意大利语 (it)、荷兰语 (nl)、俄语 (ru)、波兰语 (pl)、丹麦语 (da)、瑞典语 (sv)、挪威语 (no)、芬兰语 (Bokmål)、芬兰语 (fi)、希腊语 (el)
阿拉伯语 (ar)、希伯来语 (he)
斯瓦希里语 (sw)

零样本音色克隆

无需训练,只需一段参考音频(3-10秒)即可克隆音色。参考音频越清晰、越接近目标风格,效果越好。

精细的参数控制

提供 10 余个可调参数(详见下文”全局生成参数”),满足从快速生成到精细调优的各种需求。

内置音频水印

所有生成的音频自动嵌入 PerTh(Perceptual Threshold Watermarking) 水印技术:

  • 人耳不可感知
  • 抗 MP3 压缩和常见音频编辑
  • 可通过 perth 库提取验证

Chatterbox整合包功能与用法

启动软件

首先将网盘内软件压缩包下载到本地电脑并解压,双击 启动软件.bat 

启动后浏览器自动打开 http://localhost:7860

全局生成参数(可折叠面板)

点击”全局生成参数”展开面板,所有标签页共享以下设置:

参数范围默认值说明
模型类型multilingual / englishmultilingual选择多语言版或纯英文版
多语言版本v2 / v3v2v2 稳定,v3 实验性(仅多语言有效)
语言23 种语言代码en仅多语言模型有效
随机种子整数00 表示完全随机;固定值可复现结果
语调夸张度 Exaggeration0.25 ~ 2.000.5
CFG 引导强度0.0 ~ 1.00.50 = 无引导,越高越贴合参考音频
温度 Temperature0.05 ~ 5.00.8越高随机性越强
重复惩罚1.0 ~ 2.01.2抑制词语重复
Min P 采样0.0 ~ 1.00.05推荐 0.02~0.1,0 关闭
Top P 核采样0.0 ~ 1.01.01.0 关闭(推荐保持关闭)

修改任意参数后,在对应标签页点击”生成”即可自动保存,下次启动自动恢复。

标签页一:单段合成

适合朗读一段文字、有声书、旁白等场景。

操作步骤:

  1. (可选)上传或录制一段参考音频(3-10秒),用于音色克隆。不提供则使用模型默认音色
  2. 在”合成文本”框中输入要朗读的文字
  3. 点击 “生成语音” 按钮
  4. 在下方”合成结果”中播放试听

标签页二:多人对话合成

适合播客、有声剧、对话场景,最多支持 5 位说话人

操作步骤:

  1. 为每位说话人上传参考音频(至少需上传 1 人)
  2. 在文本中使用标签标记不同说话人:
    • [sp1] — 说话人 1
    • [sp2] — 说话人 2
    • [sp3] — 说话人 3
    • [sp4] — 说话人 4
    • [sp5] — 说话人 5
  3. 示例:[sp1]你好,今天天气真不错。 [sp2]是啊,适合出去走走。 [sp1]一起去公园吧?
  4. 点击 “生成多人对话”
  5. 结果自动拼接为每段文本匹配对应说话人的音色,段间加入 0.1 秒静音
  6. “生成日志”区域会显示每位说话人的生成状态

标签页三:实时合成

适合快速测试、交互式对话等场景。

操作步骤:

  1. (可选)上传参考音频
  2. 在输入框中键入文本
  3. 按 回车(Enter) 或点击 “发送” 按钮
  4. 语音立即生成并播放
  5. “生成历史”区域保留最近 50 条记录,可点击 “清空历史” 重置

参数调优建议

通用推荐

场景ExaggerationCFG Weight温度说明
中性朗读0.50.50.8最通用的设置
快速语速参考0.50.30.8降低 CFG 改善节奏
表现力/戏剧化0.7+0.30.9低引导 + 高夸张
跨语言合成0.50.00.8避免参考音频的口音影响

跨语言注意事项

  • 参考音频的语言尽量与目标语言一致
  • 若无法匹配,可将 CFG Weight 设为 0 以减轻口音影响
  • 例如用英文参考音频生成中文语音,CFG=0 效果更自然

注意事项

硬件要求

  • 推荐 GPU:NVIDIA 显卡(CUDA),4GB+ 显存
  • CPU 模式:可用但速度较慢

参考音频要求

  • 长度建议 3~10 秒
  • 背景噪音越小越好
  • 尽量选择与目标语音风格相近的参考音频
  • 多人对话中,每个说话人都需要提供独立的参考音频

需要等到终端窗口里输出“模型加载成功”后再进行语音合成操作

请勿将本软件用于欺诈、冒充他人、制作虚假信息等不当用途。请遵守当地法律法规,合理使用语音合成技术。

Chatterbox多人对话声音克隆语音合成软件下载链接

https://pan.quark.cn/s/d915baaf2523


AI软件用不了?2元爽玩4090: 立即体验>>

热门大语言模型API免费体验: 立即获取>>

软件催更及1对1人工答疑支持: https://nuowa.net/1806
赞(0) 打赏
软件无法使用?点击查看常见问题说明>>

最近更新

Mineru PDF转markdown软件局域网版

对于有的电脑配置比较低或是win7系统等电脑无法使用Mineru情况,可以使用局域网内可运行软件的电脑运行Mineru,然后其它电脑或手机等终端输入IP地址,打开运行软件的IP地址来使用Mineru。 具体用法: 下载局域网版压缩包到本地电...

Studio One Pro 7免费开心版下载-诺瓦小站

Studio One Pro 7免费开心版下载

Studio One 7是一款专业数字音频工作站(DAW)软件,它是音乐制作、混音、母带处理与现场演出一体化的旗舰软件。 ✨ 核心功能 1. AI 智能音轨分离(Stem Separation) AI 驱动的音轨分离功能允许用户将混缩后的音...

觉得文章对你有帮助就打赏一下作者

非常感谢你的打赏,我将有更多的动力继续提供优质内容,让我们一起创建更加美好的世界!

支付宝扫一扫

微信扫一扫