 

当前位置：诺瓦小站  AI软件  AI音频  正文

极速轻便声音克隆语音合成软件MOSS-TTS-Nano整合包，CPU可流畅运行

2026-06-27 分类：AI音频评论(0)

一、项目概述

MOSS-TTS-Nano 是由 MOSI.AI 与 OpenMOSS 团队联合开发的开源多语言小模型语音合成系统。模型参数量仅 0.1B，专为实时语音生成场景设计，无需 GPU 即可在 CPU 上直接运行，适合本地演示、Web 服务及轻量级产品集成。

核心技术架构

采用 Audio Tokenizer + LLM 的纯自回归流水线：

输入文本经文本正则化预处理
参考音频（提示语音）经音频分词器编码为离散 Token
轻量级语言模型以文本 Token 和音频 Token 为条件，自回归生成音频 Token
音频分词器解码器将 Token 流实时还原为 48 kHz、双声道波形

两种推理后端

特性	PyTorch 版（`app.py`）	ONNX 版（`app_onnx.py`）
推理依赖	PyTorch	ONNX Runtime
执行后端	CUDA / CPU	CPU / CUDA（需 onnxruntime-gpu）
推理效率	基准	约 2 倍于 PyTorch 版
单核 CPU 运行	可行	流畅运行（MacBook Air M4 实测）
部署体积	包含 PyTorch 全家桶	无 PyTorch 依赖，更轻量
推荐场景	研究调试、GPU 环境	生产部署、CPU 环境（首选）

二、软件功能特点

1. 语音克隆（Voice Clone）

提供一段参考音频（提示语音），模型即可模仿该说话人的音色、语调和风格
支持上传自定义音频文件（WAV、MP3、FLAC、M4A、OGG、Opus、AAC 等格式）
内置演示音频（位于 assets/audio/，通过 assets/demo.jsonl 配置）
自动长文本分块克隆，超长文本无压力

2. 多语言支持

支持 20 种语言的语音合成：

语言	代码	语言	代码	语言	代码
中文	zh	英语	en	德语	de
西班牙语	es	法语	fr	日语	ja
意大利语	it	匈牙利语	hu	韩语	ko
俄语	ru	波斯语	fa	阿拉伯语	ar
波兰语	pl	葡萄牙语	pt	捷克语	cs
丹麦语	da	瑞典语	sv	希腊语	el
土耳其语	tr

3. 实时流式解码（Realtime Streaming Decode）

支持边生成边播放，首音延迟极低
使用 Web Audio API 进行 PCM 流式调度播放
实时显示已合成文本高亮，逐句跟踪播放进度
支持暂停/恢复播放

4. 丰富的生成参数调节

最大新帧数（Max New Frames）：控制音频生成长度
文本/音频采样参数：Temperature、Top-P、Top-K
音频重复惩罚（Audio Repetition Penalty）：减少音频伪影
随机种子（Seed）：支持可复现生成
注意力后端（PyTorch 版）：model_default / sdpa / eager
采样模式（ONNX 版）：fixed（使用模型内置常量）/ full（使用页面超参数）/ greedy（贪心解码）
批量大小：TTS 批大小和编解码器批大小（ONNX 版固定为 1）

5. 文本正则化

内置 WeTextProcessing 文本正则化流水线
支持独立开关 WeTextProcessing 和 normalize_tts_text
启动时预加载，首次请求无图构建延迟
正则化后文本实时展示在输出面板

6. 启动预热机制

服务启动时自动加载模型并执行一次短文本预热合成
Web 界面实时显示预热进度和状态
预热失败时展示错误信息，便于排查

7. 可视化播放脚本高亮

将合成文本按语义分句，以卡片形式展示在播放面板中
播放时当前句子高亮显示，已播放句子以标记色标识
支持自动滚动跟随

三、启动方式

一键启动（Windows）

双击 0启动软件.bat，脚本自动调用 ONNX 版 Web 服务：

默认使用 ONNX CPU 后端。

四、界面功能说明

左侧面板（输入区）

区域	说明
Demo 选择器	下拉选择内置演示条目，自动填充文本和参考音频
提示语音	上传自定义音频文件作为音色参考；可预览播放；支持切换回 Demo 音频
文本输入	输入要合成的文本内容
生成选项（可折叠）	展开后可调节上述所有生成参数
生成按钮	触发合成，支持流式/缓冲两种模式切换
暂停播放	暂停/恢复当前音频播放
刷新预热状态	手动刷新模型加载和文本正则化状态

右侧面板（输出区）

区域	说明
预热状态	显示模型加载和预热进度百分比及状态信息
文本正则化状态	显示 WeTextProcessing 加载状态
运行状态	显示当前合成任务的实时状态和执行详情
流式指标	流式模式下显示延迟、已播放时长等技术指标
正则化文本	显示经过文本正则化处理后的文本
播放脚本	以卡片形式分句显示，播放时高亮当前句
生成音频	音频播放器，支持播放/暂停/进度拖拽
模型信息	底部显示当前使用的检查点路径和音频分词器路径

五、注意事项

硬件要求

CPU 模式：建议 4 核以上 CPU，支持流式流畅运行

音频文件

上传的提示音频会暂存在 .app_prompt_uploads/ 目录，服务重启后清理
生成的音频文件保存到 generated_audio/ 目录
支持常见的音频格式：WAV、MP3、FLAC、M4A、OGG、Opus、AAC
建议参考音频时长 3~15 秒，过短可能导致克隆效果不佳

MOSS-TTS-Nano整合包软件下载链接

https://pan.quark.cn/s/90a215039c1b

AI软件用不了？2元爽玩4090：立即体验>>

热门大语言模型API免费体验：立即获取>>

软件催更及1对1人工答疑支持： https://nuowa.net/1806

赞(0)  打赏

软件无法使用？点击查看常见问题说明>>

分享到

相关推荐

最近更新

Claude 再放大招，Sonnet 5 来了

一觉醒来Anthropic又放大招了，Claude Sonnet 5来了。不得不说国外大语言模型更新的是真快的，各家LLM版本更新迭代频率都很高，Claude 刚发布Opus 4.8 不久，这又发布了Sonnet 5.Anthropic ...

赞(0)2026-07-01趣站

AutoVidDub支持分角色配音的全自动视频翻译配音加字幕工具

支持分角色配音的全自动流水线，一键将外语视频转为带母语配音和双语字幕的目标语言视频。一、软件简介 AutoVidDub 是一套运行在本地 GPU 上的全自动视频翻译配音工具。你只需提供一个视频文件，它就能自动完成以下全部工序：二、核心功...

赞(0)2026-06-28专属软件

极速轻便声音克隆语音合成软件MOSS-TTS-Nano整合包，CPU可流畅运行

一、项目概述 MOSS-TTS-Nano 是由 MOSI.AI 与 OpenMOSS 团队联合开发的开源多语言小模型语音合成系统。模型参数量仅 0.1B，专为实时语音生成场景设计，无需 GPU 即可在 CPU 上直接运行，适合本地演示、W...

赞(0)2026-06-27AI音频

最强分说话人语音识别工具，支持批量音视频识别转字幕，字幕翻译内容总结

本软件是一款基于 Qwen3-ASR-1.7B 大模型的本地音视频语音识别工具，配备说话人分离功能，可在个人电脑上实现：整个流程通过简洁的 Gradio Web 界面操作，点击按钮即可完成识别与导出。主要功能特点 1. 单文件识别与批...

赞(1)2026-06-21AI音频

最强PR中文视频自动语音识别生成字幕插件，语音识别准确率高支持多国语言

上次和大家分享了PR非常好用的自动剪辑口播视频静音片段插件，如果想要自动生成视频字幕的话，用PR自带的语音识别转字幕工具，效果非常差，语音识别准确率非常低，识别的文本差太多手动修改起来极其麻烦，反而更加浪费时间了。为了提高工作效率，降低人工...

赞(0)2026-06-15专属软件

祝贺凡人修仙传2026年新年番开播同时在线人数超64万

今天6月13日凡人修仙传新年番开播，同时在线人数破64万（非最高在线人数，只是我看到的在线人数），作为凡人5年老粉，必须发个帖祝贺一下。我比较喜欢看动漫，各种类型看了很多，具体不清楚多少，像斗罗斗破之类看了一大半终究是没能看下去，还是雾山...

赞(1)2026-06-13趣站

Premiere Pro静音片段自动剪辑插件——Silence Remover使用教程及下载

对于做口播、Vlog、播客剪辑的朋友来说，最耗时的工作之一就是手动找出视频中的”哑巴”片段——说话间隙、停顿、思考时的”嗯啊”——并逐一删除。今天给大家介绍一款来自 Phantom Edito...

赞(0)2026-06-11实用软件

蛙蛙写作-能替你"打工"的AI写作平台，附邀请码：UZekHC

我不是一个容易被工具说服的人。用过 ChatGPT、试过各种”AI写作神器”，大多数要么写出来全是机翻腔，要么根本不懂网文的爆款逻辑。直到我开始用蛙蛙写作，才发现原来一个工具真的可以懂你想写什么。 🐸 蛙蛙写作是什...

赞(0)2026-06-09趣站

PDFMathTranslate + MinerU 批量PDF全文双语翻译转Markdown工具

本工具是一款基于 PDFMathTranslate 与 MinerU 整合的桌面端 PDF 翻译工具，通过简洁的 Web 界面实现一键式 PDF 全文双语翻译，并可选择将翻译结果导出为 Markdown 格式，方便导入知识库或进行二次编辑。...

赞(1)2026-06-09专属软件

Claude居然自称“本人”

今天在和Claude聊网文写作的时候，Claude回复中居然自称本人，这让我有点震惊。我经常会和AI聊工具功能对比等话题，ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的，好像都是本模型，本工具等等，反正从来没...

赞(1)2026-06-05趣站