AI软件下载
有趣网站推荐及实用软件下载

阿里Qwen3-TTS高质量声音克隆语音合成系统,AI视频配音多人对话生成工具

Qwen3-TTS 是由阿里 Qwen 团队开发的新一代语音合成系统,基于自研的 Qwen3-TTS-Tokenizer-12Hz 编解码器和离散多码本 LM 架构,实现了端到端的全信息语音建模。它突破了传统级联架构的信息瓶颈,支持音色克隆音色设计预设音色合成等多种语音生成能力,覆盖 10 种主要语言,可广泛应用于内容创作、有声读物、语音助手、游戏配音等场景。

我基于当前最新版制作了免安装一键启动整合包,重做UI界面,并增加多人对话功能,取消Flash-Attention改为xformers实现了对低端显卡的友好支持,开箱即用。

阿里Qwen3-TTS高质量声音克隆语音合成系统,AI视频配音多人对话生成工具

核心技术亮点

  • Qwen3-TTS-Tokenizer-12Hz 编码器:高效声学压缩与高维语义建模,完整保留副语言信息和声学环境特征。
  • 离散多码书 LM 架构:真正的端到端架构,完全绕过传统 LM+DiT 方案的信息瓶颈和级联误差。
  • 双轨混合流式生成架构:同时支持流式与非流式生成,首包延迟最低 97ms。
  • 自然语言指令控制:通过文字描述即可控制音色、情感、语速、语调等多维声学属性。

模型系列与功能特点

Qwen3-TTS 提供三个核心模型,各自承担不同的语音合成任务:

模型功能支持尺寸流式生成指令控制
CustomVoice(预设音色)使用预定义的 9 种高品质音色进行语音合成,支持风格指令0.6B / 1.7B
VoiceDesign(音色设计)通过自然语言描述创造全新的定制音色1.7B 仅
Base(音色克隆)基于 3 秒参考音频快速克隆任意音色0.6B / 1.7B

支持的 10 种语言

中文、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、俄语、意大利语。

9 种预设音色(CustomVoice)

说话人音色描述母语
Vivian明亮、略带锋芒的年轻女声中文
Serena温暖、温柔的年轻女声中文
Uncle_Fu低沉稳重的成熟男声中文
Dylan北京男声,清晰自然中文(京腔)
Eric成都男声,略带沙哑明亮中文(川渝)
Ryan动感男声,节奏感强英语
Aiden阳光美式男声,中音清晰英语
Ono_Anna俏皮日系女声,轻快灵动日语
Sohee温暖韩系女声,情感丰富韩语

每位说话人均可使用模型支持的所有语言进行合成,但以其母语表现最佳。

WebUI界面功能详解

软件启动后会自动打开 http://127.0.0.1:7860 WEBUI操作界面。界面共分为 4 个功能标签页和一个设置面板

⚙️ 模型与生成参数设置(可折叠面板)

在页面顶部,可展开进行全局参数配置:

  • 模型路径:分别设置 CustomVoice、VoiceDesign、Base(音色克隆)三个模型的路径(支持 Hugging Face 模型 ID 或本地目录)。
  • 设备选择:cuda:0 / cuda:1 / cpu,GPU 显存不足时可切换到 CPU(速度较慢)。
  • 精度选择:bfloat16(推荐)、float16、float32。低精度节省显存,高精度质量更稳。
  • 生成参数
    • max_new_tokens(最大生成 Token 数):控制输出音频长度,值越大可生成越长音频。
    • Temperature:温度值,越高随机性越强,越低越稳定(推荐 0.9)。
    • Top-K:采样时仅考虑概率最高的 K 个 token,越小越稳定。
    • Top-P:核采样累积概率阈值。
    • 重复惩罚系数:抑制词语重复,值越大重复越少。
  • 保存设置:修改参数后点击保存,下次生成时自动加载新配置。

标签页 1:🎤 预设音色 TTS

功能:使用预设说话人合成语音,适合快速生成高质量朗读内容。

操作步骤

  1. 在”合成文本”框中输入要合成的文字。
  2. 选择语言(建议明确选择以获最佳效果,或选 Auto 自动识别)。
  3. 选择说话人(从 9 种预设音色中挑选)。
  4. (可选)填写风格指令,例如:”用特别愤怒的语气说”、”温柔地、轻声细语地念”。
  5. 选择模型大小(0.6B 更快省显存,1.7B 质量更高)。
  6. 点击 生成语音,稍后在右侧音频播放器中试听结果。

典型用例:有声书朗读、语音提示、多风格配音。

标签页 2:🎨 音色设计

功能:用自然语言描述你想要的音色,模型直接生成符合描述的语音。这是 Qwen3-TTS 最具创新性的功能之一。

操作步骤

  1. 在”合成文本”框中输入要合成的文字内容。
  2. 选择语言。
  3. 填写音色描述(关键输入),例如:
    • “体现撒娇稚嫩的萝莉女声,音调偏高且起伏明显”
    • “低沉沙哑的磁性男声,语速较慢,带有沧桑感”
    • “用难以置信的语气说话,但语气中要开始流露出一丝恐慌”
  4. 点击 生成语音

典型用例:游戏角色配音、动画配音、创意内容制作,无需真实录音即可创造全新音色。

标签页 3:🎭 音色克隆

功能:上传一段参考音频,克隆其音色后合成任意新内容。包含两个子标签页。

子标签页 3.1:克隆并合成

操作步骤

  1. 上传参考音频(WAV/MP3 等格式,建议 3-30 秒清晰录音)。
  2. 填写参考文本(参考音频的准确转录文字)。
  3. 或勾选 “仅使用说话人向量”(无需参考文本,但克隆效果略差)。
  4. 在”待合成文本”中输入要生成的内容。
  5. 选择语言和模型大小。
  6. 点击 克隆并生成

子标签页 3.2:保存 / 加载音色

功能:将音色克隆的提示(Prompt)保存为 .pt 文件,便于重复使用,避免每次合成都重新提取特征。

保存音色:上传参考音频 → 填写参考文本 → 点击保存 → 下载 .pt 文件。

加载并合成:上传之前保存的 .pt 文件 → 输入待合成文本 → 点击生成语音。

典型用例:为固定角色批量配音、保护隐私(只需提供音色文件不需要保留原始音频)。

标签页 4:👥 多人对话合成

功能:一次合成包含多个角色的对话音频,自动拼接。

操作步骤

  1. 在”对话文本”框中按格式编写剧本,使用 [sp1] ~ [sp5] 标签标记不同说话人:[sp1]你好啊,[sp2]今天天气不错, [sp3]我们一起去玩吧,[sp4]好啊,[sp5]太棒了!
  2. 选择语言。
  3. 在下方发音人参考音频设置区域,为每个用到的 sp 标签上传对应的参考音频。
  4. 点击 生成多人对话,系统自动分段合成并拼接为完整对话音频。

典型用例:广播剧制作、播客对谈、动画配音、语言教学对话示例。

使用注意事项

硬件要求

模型最低显存(bfloat16)推荐显存
0.6B 系列约 2GB4GB+
1.7B 系列约 4GB6GB+
  • 显存不足时可尝试 float16 精度或切换到 CPU 模式(速度会显著变慢)。
  • 若使用多人对话功能,需额外预留显存空间。

参考音频要求(音色克隆)

  • 时长:建议 3~10 秒,过短则音色特征提取不充分,过长则冗余。
  • 清晰度:尽量使用干净、无背景噪音的录音。
  • 内容:参考音频应包含说话人自然的音色特征,建议覆盖多种发音。
  • 格式:程序自动处理常见音频格式(WAV、MP3、FLAC 等)。

语言选择建议

  • 明确选择目标语言可获得最佳合成效果。
  • 若不确定文本语言,可选 “Auto” 让模型自动识别。
  • 预设说话人以母语表现最佳,但也可用于其他语言。

合成文本注意事项

  • 文本不宜过短(少于 5 个字效果可能不理想)。
  • 过长文本建议分批次生成,避免 max_new_tokens 不足截断。
  • 标点符号会影响韵律,合理使用逗号、句号、问号等。
  • 暂时不支持 SSML(语音合成标记语言)。

音色文件使用

  • 保存的 .pt 音色文件包含了说话人向量和可选的参考编码,不含原始音频,可安全分发。
  • 音色文件与特定 Base 模型版本相关,大版本更新后可能需要重新生成。

免责声明

本软件生成的音频由 AI 模型自动合成,仅供体验与展示模型效果。用户应自行评估并承担使用、传播或依赖该音频所产生的一切风险与责任。严禁利用本服务生成违法、有害、诽谤、欺诈、深度伪造或侵犯他人权益的内容。

Qwen3-TTS声音克隆语音合成软件下载链接

https://pan.quark.cn/s/e0374d90ef7a


AI软件用不了?2元爽玩4090: 立即体验>>

热门大语言模型API免费体验: 立即获取>>

软件催更及1对1人工答疑支持: https://nuowa.net/1806
赞(0) 打赏
软件无法使用?点击查看常见问题说明>>

最近更新

优云智算HappyHorse AI 视频生成API KEY WebUI-诺瓦小站

优云智算HappyHorse AI 视频生成API KEY WebUI

大家可能平常刷视频的时候已经发现了,进入2026年AI短剧极其火爆,不管是短视频平台还是拼多多等购物平台,短剧视频里经常能刷到AI漫剧。前几年短剧公司拍真人短剧赚的盆满钵满,进入2026年短剧公司被AI打的毫无还手之力。借助AI的快速发展,...

LTX-2.3 视频生成免安装部署整合包软件下载-诺瓦小站

LTX-2.3 视频生成免安装部署整合包软件下载

LTX-2 是由 Lightricks 开发的首个基于 DiT(扩散变换器)架构的音视频基础模型,能够在一个统一模型中同时生成高质量的视频与同步音频。与以往需要分别处理视频和音频的方案不同,LTX-2 将两者深度融合,实现真正的音画同步生成...

PDF转word软件FreeP2W免安装版下载

这软件还是很早的时候一个用户让做的,发现没分享过,现在分享一下。 软件主要功能就是把PDF文档转换为word文档 软件使用很简单,把需要处理的pdf文档复制到input文件夹内,双击启动软件.exe,等待处理完成即可。 注意事项 软件只支持...

觉得文章对你有帮助就打赏一下作者

非常感谢你的打赏,我将有更多的动力继续提供优质内容,让我们一起创建更加美好的世界!

支付宝扫一扫

微信扫一扫