AI实时语音聊天对话系统，外语口语陪练/虚拟好友实时语音交流-诺瓦小站

AI 实时语音对话系统 是一款集语音识别（ASR）、大语言模型（LLM）对话、语音合成（TTS）于一体的实时语音交互软件。用户通过麦克风说话，系统自动识别语音内容并转为文字，交由 AI 角色进行智能回复，最终将回复内容合成为语音实时播放，实现端到端的自然语音对话体验。本来想测试英伟达的personaplex，但是发现personaplex不支持中文，一时兴起就做了当前这个软件。

软件功能特点

1. 全链路实时语音对话

语音输入 → 语音输出：用户只需点击录音按钮说话，系统自动完成”语音识别 → AI 推理 → 语音合成 → 语音播放”的完整闭环。
流式处理：ASR 文本、LLM 回复、TTS 音频均采用流式传输，AI 的思考过程和语音播报几乎同步呈现，延迟低、体验流畅。
WebSocket 实时通信：前后端通过 WebSocket 保持长连接，支持双向实时数据传输。

2. 多角色 AI 对话

内置 7 种不同性格的 AI 角色，每个角色拥有独立的系统提示词和语音音色，用户也可以自定义角色：

角色	标签	语言	性格特点
Lucy	英语口语陪练	英语	热情友好，纠正语法错误，鼓励式教学
Sakura	日语口语陪练	日语	明るく親しみやすい，耐心纠错
Ah-May	粤语口语陪练	粤语	热情友善，粤语书面语对话
银月	话痨	中文	天生八卦，自来熟，情报中心
南宫婉	高冷	中文	极简回复，冷淡但有分量
范静梅	女王	中文	若即若离，成熟魅力，情场高手
陈巧倩	治愈系	中文	温柔共情，倾听陪伴式对话

3. 智能语音处理

语音活动检测（VAD）：可配置音量阈值和静音超时时间，自动判断用户是否说完话。
降噪与回声消除：内置回声消除、噪声抑制、自动增益控制；播报 AI 回复时自动静音麦克风输入，防止扬声器声音被重新识别。
PCM16 音频编码：麦克风采集 16kHz 采样率音频；TTS 输出 22050Hz 采样率音频，Web Audio API 精确调度实现无缝播放。

4. 灵活的大模型配置

兼容 OpenAI 标准 API：支持任意兼容 OpenAI API 标准的模型提供商，如果还没有大语言模型API，可点击立即注册>>
用户可自定义 Base URL、API Key、Model 名称,Model建议使用gpt-5.4-mini，响应速度最快。
可调参数：支持调节 Temperature（温度）、Max Tokens（最大生成长度），适应不同场景下的回复风格需求。

5. 可视化操作界面

三栏布局：左侧显示语音识别实时文本、中间展示对话历史、右侧显示 AI 完整回复。
录音状态指示：彩色指示灯显示当前状态（待机/识别中/AI思考中/AI说话中），一目了然。
角色一键切换：点击角色按钮即可切换，无需重启软件。

使用场景

1. 外语口语练习

使用 Lucy 练习英语口语，获得实时对话反馈和语法纠错。
使用 Sakura 练习日语口语，沉浸式日语对话环境。
使用 Ah-May 练习粤语口语，学习地道粤语表达。

2. 日常聊天陪伴

选择银月天南海北聊天，获取”八卦情报”般的趣味对话。
选择 陈巧倩 倾诉心事，获得温柔共情的倾听和回应。
选择 南宫婉、范静梅 体验不同风格的对话乐趣。

3. 本地化 AI 体验

软件运行在本地服务器（127.0.0.1:7860），数据无需经过第三方服务器（除 LLM API 调用外），隐私性较好。
支持本地 TTS 模型（CosyVoice）。

注意事项

需要麦克风权限：首次使用时，浏览器会请求麦克风访问权限，请务必允许。
需要 LLM API Key：软件本身不内置大模型 API Key，需用户自行在设置页面配置有效的 Base URL 和 API Key 方可使用对话功能。
网络要求：LLM 对话功能需要联网（调用远程 API）；ASR 和 TTS 可在本地运行。
性能建议：TTS 语音合成和 ASR 语音识别均消耗一定的 CPU/GPU 资源，建议英伟达显卡显存4G以上电脑使用。如遇卡顿，可适当提高音量阈值以减少不必要的音频处理。
扬声器回声：使用外放时，AI 回复的语音可能被麦克风重新拾取。建议佩戴耳机使用以获得最佳体验；软件也内置了”播报后静默期”机制来缓解此问题。
浏览器兼容：推荐使用 Chrome、Edge 等基于 Chromium 内核的现代浏览器，以确保 WebSocket 和 Web Audio API 的正常运行。
首次启动较慢：首次运行时会稍慢，请耐心等待。后续启动速度会明显加快。