今天和大家分享一个非常热门的TTS文字转语音软件GPT-SoVITS,这个软件不光可以实现语音合成,而且还可以声音克隆,仅使用1分钟音频数据样品即可克隆,功能非常强大,本软件为免费开源软件,原项目地址:https://github.com/RVC-Boss/GPT-SoVITS,部分功能操作界面如下:
GPT-SoVITS软件介绍及版本特点:
特征:
- 零样本 TTS:输入 5 秒的声音样本并体验即时文本到语音的转换。
- 少量样本 TTS:仅使用 1 分钟的训练数据对模型进行微调,以提高语音相似度和真实感。
- 跨语言支持:使用不同于训练数据集的语言进行推理,目前支持英语、日语、韩语、粤语和中文。
- WebUI 工具:集成工具包括语音伴奏分离、自动训练集分割、中文 ASR 和文本标注,帮助初学者创建训练数据集和 GPT/SoVITS 模型。
GPT-SoVITS-V1实现了:
由参考音频的情感、音色、语速控制合成音频的情感、音色、语速
可以少量语音微调训练,也可不训练直接推理
可以跨语种生成,即参考音频(训练集)和推理文本的语种为不同语种
GPT-SoVITS-V2新增特点:
对低音质参考音频合成出来音质更好
底膜训练集增加到5k小时,zero shot性能更好音色更像,所需数据集更少
增加韩粤两种语言,中日英韩粤5个语种均可跨语种合成
更好的文本前端:持续迭代更新。V2中英文加入多音字优化。
TTS文字转语音合成及声音克隆软件GPT-SoVITS整合包下载链接:
夸克网盘:
https://pan.quark.cn/s/3d4628397997
百度网盘:
https://pan.baidu.com/s/1BlucU3o7qWPhHYAY7gyj9A?pwd=71qr 提取码: 71qr