CosyVoice是阿里团队推出的一款强大的TTS文字转语音工具,支持3秒声音复刻,跨语种复刻,情感语音合成等功能,支持几十种语言,合成速度快,发音流畅自然,非常的强大。本软件为免费开源软件,原项目地址:https://github.com/FunAudioLLM/CosyVoice,webUI操作界面如下:
我制作了Windows版最新版一键启动整合包,操作界面如下:
目前主要4种模型,主要的就是CosyVoice-300M
和CosyVoice-300M-Instruct
模型
CosyVoice webUI使用方法:
1、预训练音色模式:
先输入待合成语音的文本,然后选择预训练音色,然后点击生成音频按钮。
2、3s极速复刻模式:
先输入待合成语音的文本,然后上传一段不超过30秒的prompt音频,也就是想要提取声音音色的音频,然后输入prompt文本,也就是prompt音频内容的文本,然后点击生成音频按钮。
3、跨语种复刻模式:
和3s极速复刻模式类似,只不过prompt音频要和待合成的文本是不同的语言
4、自然语言控制模式:
需要在启动程序界面选择启动CosyVoice-300M-Instruct
模型,可以在instruct文本框中输入描述词如:Sad,Happy,A female speaker with high pitch, normal speaking rate, and happy emotion.等,合成的语音就会根据你的描述词调整说话语气情感,效果比较明显。
有感兴趣的可以自己去体验一下。
3秒声音极速克隆情感语音合成软件CosyVoice整合包下载链接:
夸克网盘:
https://pan.quark.cn/s/2c99f19bff57
百度网盘:
https://pan.baidu.com/s/1xAb9ULU7zf6SliYsf1mAcw?pwd=wctq 提取码: wctq