热门文字转语音应用CosyVoice发布2.0了,CosyVoice是一个非常强大的语音合成工具,提供文字转语音、声音克隆和情感语音合成控制功能。这是一个由阿里团队推出的应用,在免费声音克隆和语音合成软件中,算是比较不错的一款应用了。合成的语音非常的自然,不会像以前其它软件那么的僵硬。从1.0版本我就分享过了,可以查看我以前分享的文章《CosyVoice情感语音合成软件一键启动整合包,带音色模型训练工具》。我把这个2.0版本也做了一个一键启动整合包,并制作了一个适用2.0版本的UI界面。
2026-02-01 更新CosyVoice 3.0

CosyVoice 3.0说明
Fun-CosyVoice 3.0 是一个基于大型语言模型 (LLM) 的高级文本转语音 (TTS) 系统,在内容一致性、说话人相似度和韵律自然性方面超越了其前身 (CosyVoice 2.0)。它旨在实现零样本多语种野外语音合成。
主要特点
- 语言覆盖范围: 涵盖9种常用语言(中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语),18种以上的中文方言/口音(广东话、闽南话、四川话、东北话、陕西话、山西话、上海话、天津话、山东话、宁夏话、甘肃话等),同时支持多语种/跨语种零样本语音克隆。
- 内容一致性和自然性: 在内容一致性、说话人相似度和韵律自然性方面达到最先进的性能。
- 发音修复: 支持中文拼音和英文CMU音素的发音修复,提供更多可控性,因此适用于生产使用。
- 文本规范化: 支持读取数字、特殊符号和各种文本格式,无需传统的前端模块。
- 双向流处理: 支持文本输入流和音频输出流,并在保持高质量音频输出的同时实现低至150毫秒的延迟。
- 指令支持: 支持多种指令,如语言、方言、情感、速度、音量等。
CosyVoice 2.0说明
CosyVoice 2.0相比1.0版本,新版本语音生成更准确、更稳定、更快速、功能更强大。
多种语言
支持语言:中文、英文、日语、韩语、中国方言(粤语、四川话、上海话、天津话、武汉话等)
跨语言和混合语言:支持跨语言和代码切换场景的零样本语音克隆。
超低延迟
双向流支持:CosyVoice 2.0 集成了离线和流建模技术。
快速首包合成:实现低至 150 毫秒的延迟,同时保持高质量的音频输出。
高精度
改进发音:与 CosyVoice 1.0 相比,发音错误减少了 30% 到 50%。
基准测试成果:在Seed-TTS评估集的硬测试集上取得最低的字符错误率。
稳定性强
音色一致性:确保零样本和跨语言语音合成的可靠语音一致性。
跨语言合成:与 1.0 版本相比有显著的改进。
自然体验
增强韵律和音质:改进了合成音频的对齐,将 MOS 评估分数从 5.4 提高到 5.53。
情感和方言灵活性:现在支持更细致的情感控制和口音调整。
CosyVoice整合包使用说明
首先到网盘内将压缩包下载到电脑上解压,然后双击运行【启动软件.bat】,稍等一会即可启动webUI界面。软件主要有下面4项功能:
0样本复刻
只需提供一段3秒的音频素材,即可克隆音色,并使用这个音色进行文字转语音操作。声音音色克隆效果非常好,非常逼真。
支持跨语种复刻。
指令控制
通过自然语言指令控制生成语音的风格、语种或语速。如生成各地方言,各种情绪等。
高级控制
直接构建完整的 Prompt 字符串。适用于:
- 插入
[breath],[laught],[noise]等标签。 - 拼音修正 (Hotfix),如
[j][ǐ]。 - 日语合成(需输入片假名)。
所有功能都要依赖于音频样本,所以你首先需要先导入一个3-5秒的prompt音频文件和prompt文本。设置完成后可以点击下方生成音频按钮来合成语音,语音生成完成后可点击预览播放音频,也可以点击音频右侧的下载符号按钮下载音频结果。
注意事项
软件运行路径中不要有非英文字符及空格
未测试最低电脑配置要求,建议英伟达显卡显存4G以上用户使用
整合包只支持Windows 10或11系统
日语文本必须手动转换为片假名输入。
声音克隆及语音合成工具CosyVoice 3.0一键启动包下载地址
相关推荐
最近更新

AI实时变声器Voice Changer2.1.4 CUDA版下载,高质量RVC变声软件
Voice Changer是一款实时 AI 变声工具,允许你通过多种 AI 声音模型(如 RVC 和 Beatrice)实时转换声音。转换延迟更低,是目前社区中最受欢迎的开源实时变声方案之一。 核心特点 1. 实时性 voice-chang...

Studio One Pro 7免费开心版下载
Studio One 7是一款专业数字音频工作站(DAW)软件,它是音乐制作、混音、母带处理与现场演出一体化的旗舰软件。 ✨ 核心功能 1. AI 智能音轨分离(Stem Separation) AI 驱动的音轨分离功能允许用户将混缩后的音...
PDF转Markdown软件MinerU 3.1.11整合包(高性能版)
MinerU是一款非常热门的PDF、图片、DOCX、PPTX、XLSX转markdown格式软件,转换效果属于同类软件中比较优秀的一个。当前最新版为3.1.11版本,我基于最新版源码制作了免安装一键启动整合包,并做适当优化及修改,详情查看链...
阿里千问Qwen3-TTS声音克隆语音合成软件【低配电脑版】
阿里千问Qwen3-TTS是一款热门的语音合成及声音克隆软件,我基于当前最新版制作了免安装一键启动整合包,并增加多人对话语音合成功能。 此版本为低配显卡电脑版,软件使用0.6B模型,模型尺寸略小,对电脑显卡配置要求也更小,但是质量不会差太多...

腾讯混元三维世界重建系统WorldMirror 2.0通用3D三维资产重建工具下载
WorldMirror 2.0 是由腾讯混元(Hunyuan)团队开发的下一代通用三维世界重建系统,底层基于 HY-World-2.0 模型。它能够从一组普通照片或一段视频中,自动恢复出场景的三维结构,并生成多种形式的三维资产,包括: 我基...

阿里Qwen3-TTS高质量声音克隆语音合成系统,AI视频配音多人对话生成工具
Qwen3-TTS 是由阿里 Qwen 团队开发的新一代语音合成系统,基于自研的 Qwen3-TTS-Tokenizer-12Hz 编解码器和离散多码本 LM 架构,实现了端到端的全信息语音建模。它突破了传统级联架构的信息瓶颈,支持音色克隆...

PasteMD:一键将 Markdown 和网页 AI 对话文本内容粘贴到 Word、WPS 和 Excel
PasteMD:一键将 Markdown 和网页 AI 对话(ChatGPT/DeepSeek等)完美粘贴到 Word、WPS 和 Excel 的效率工具。 在写论文或报告时,从 ChatGPT / DeepSeek 等 AI 网站中复制出...

BiliNote:自动生成B站油管视频笔记,AI视频内容总结工具
在信息爆炸的时代,视频已经成为最重要的知识载体之一。但相比文字,视频的“可检索性”和“复用效率”始终较低。如何快速从长视频中提取重点、形成结构化知识,成为很多学习者和创作者的痛点。 而 BiliNote 正是为解决这一问题而诞生的一款开源 ...

优云智算HappyHorse AI 视频生成API KEY WebUI
大家可能平常刷视频的时候已经发现了,进入2026年AI短剧极其火爆,不管是短视频平台还是拼多多等购物平台,短剧视频里经常能刷到AI漫剧。前几年短剧公司拍真人短剧赚的盆满钵满,进入2026年短剧公司被AI打的毫无还手之力。借助AI的快速发展,...

LTX-2.3 视频生成免安装部署整合包软件下载
LTX-2 是由 Lightricks 开发的首个基于 DiT(扩散变换器)架构的音视频基础模型,能够在一个统一模型中同时生成高质量的视频与同步音频。与以往需要分别处理视频和音频的方案不同,LTX-2 将两者深度融合,实现真正的音画同步生成...














