AI 实时语音对话系统 是一款集语音识别(ASR)、大语言模型(LLM)对话、语音合成(TTS)于一体的实时语音交互软件。用户通过麦克风说话,系统自动识别语音内容并转为文字,交由 AI 角色进行智能回复,最终将回复内容合成为语音实时播放,实现端到端的自然语音对话体验。本来想测试英伟达的personaplex,但是发现personaplex不支持中文,一时兴起就做了当前这个软件。

软件功能特点
1. 全链路实时语音对话
- 语音输入 → 语音输出:用户只需点击录音按钮说话,系统自动完成”语音识别 → AI 推理 → 语音合成 → 语音播放”的完整闭环。
- 流式处理:ASR 文本、LLM 回复、TTS 音频均采用流式传输,AI 的思考过程和语音播报几乎同步呈现,延迟低、体验流畅。
- WebSocket 实时通信:前后端通过 WebSocket 保持长连接,支持双向实时数据传输。
2. 多角色 AI 对话
内置 7 种不同性格的 AI 角色,每个角色拥有独立的系统提示词和语音音色,用户也可以自定义角色:
| 角色 | 标签 | 语言 | 性格特点 |
|---|---|---|---|
| Lucy | 英语口语陪练 | 英语 | 热情友好,纠正语法错误,鼓励式教学 |
| Sakura | 日语口语陪练 | 日语 | 明るく親しみやすい,耐心纠错 |
| Ah-May | 粤语口语陪练 | 粤语 | 热情友善,粤语书面语对话 |
| 银月 | 话痨 | 中文 | 天生八卦,自来熟,情报中心 |
| 南宫婉 | 高冷 | 中文 | 极简回复,冷淡但有分量 |
| 范静梅 | 女王 | 中文 | 若即若离,成熟魅力,情场高手 |
| 陈巧倩 | 治愈系 | 中文 | 温柔共情,倾听陪伴式对话 |
3. 智能语音处理
- 语音活动检测(VAD):可配置音量阈值和静音超时时间,自动判断用户是否说完话。
- 降噪与回声消除:内置回声消除、噪声抑制、自动增益控制;播报 AI 回复时自动静音麦克风输入,防止扬声器声音被重新识别。
- PCM16 音频编码:麦克风采集 16kHz 采样率音频;TTS 输出 22050Hz 采样率音频,Web Audio API 精确调度实现无缝播放。
4. 灵活的大模型配置
- 兼容 OpenAI 标准 API:支持任意兼容 OpenAI API 标准的模型提供商,如果还没有大语言模型API,可点击立即注册>>
- 用户可自定义 Base URL、API Key、Model 名称,Model建议使用gpt-5.4-mini,响应速度最快。
- 可调参数:支持调节 Temperature(温度)、Max Tokens(最大生成长度),适应不同场景下的回复风格需求。
5. 可视化操作界面
- 三栏布局:左侧显示语音识别实时文本、中间展示对话历史、右侧显示 AI 完整回复。
- 录音状态指示:彩色指示灯显示当前状态(待机/识别中/AI思考中/AI说话中),一目了然。
- 角色一键切换:点击角色按钮即可切换,无需重启软件。
使用场景
1. 外语口语练习
- 使用 Lucy 练习英语口语,获得实时对话反馈和语法纠错。
- 使用 Sakura 练习日语口语,沉浸式日语对话环境。
- 使用 Ah-May 练习粤语口语,学习地道粤语表达。
2. 日常聊天陪伴
- 选择 银月 天南海北聊天,获取”八卦情报”般的趣味对话。
- 选择 陈巧倩 倾诉心事,获得温柔共情的倾听和回应。
- 选择 南宫婉、范静梅 体验不同风格的对话乐趣。
3. 本地化 AI 体验
- 软件运行在本地服务器(127.0.0.1:7860),数据无需经过第三方服务器(除 LLM API 调用外),隐私性较好。
- 支持本地 TTS 模型(CosyVoice)。
注意事项
- 需要麦克风权限:首次使用时,浏览器会请求麦克风访问权限,请务必允许。
- 需要 LLM API Key:软件本身不内置大模型 API Key,需用户自行在设置页面配置有效的 Base URL 和 API Key 方可使用对话功能。
- 网络要求:LLM 对话功能需要联网(调用远程 API);ASR 和 TTS 可在本地运行。
- 性能建议:TTS 语音合成和 ASR 语音识别均消耗一定的 CPU/GPU 资源,建议英伟达显卡显存4G以上电脑使用。如遇卡顿,可适当提高音量阈值以减少不必要的音频处理。
- 扬声器回声:使用外放时,AI 回复的语音可能被麦克风重新拾取。建议佩戴耳机使用以获得最佳体验;软件也内置了”播报后静默期”机制来缓解此问题。
- 浏览器兼容:推荐使用 Chrome、Edge 等基于 Chromium 内核的现代浏览器,以确保 WebSocket 和 Web Audio API 的正常运行。
- 首次启动较慢:首次运行时会稍慢,请耐心等待。后续启动速度会明显加快。
快速开始
- 双击
0启动软件.bat启动后端服务。 - 打开浏览器访问
http://127.0.0.1:7860。 - 点击页面底部”设置”,填入 API Base URL 和 API Key。
- 选择一个角色(如 Lucy、银月等)。
- 点击”开始录音”按钮,开始语音对话。
AI实时对话软件下载链接
https://pan.quark.cn/s/dfc1e9fa9784
相关推荐
多人对话声音克隆语音合成工具Chatterbox TTS免安装版,AI实时文字转语音
AI实时变声器Voice Changer2.1.4 CUDA版下载,高质量RVC变声软件
阿里Qwen3-TTS高质量声音克隆语音合成系统,AI视频配音多人对话生成工具
多人对话有声书制作软件VoxCPM Windows版整合包,高质量声音克隆语音合成工具
【免安装/解压即用】支持600+语言的神级TTS!OmniVoice 零样本语音克隆一键整合包发布
FunASR语音识别转文字软件区分说话人版
FunASR最新模型FunAudioLLM/Fun-ASR-Nano-2512实时语音识别转文字热词版整合包下载
VibeVoice:富有表现力的长篇多人对话语音合成工具整合包下载
最近更新

最强PR中文视频自动语音识别生成字幕插件,语音识别准确率高支持多国语言
上次和大家分享了PR非常好用的自动剪辑口播视频静音片段插件,如果想要自动生成视频字幕的话,用PR自带的语音识别转字幕工具,效果非常差,语音识别准确率非常低,识别的文本差太多手动修改起来极其麻烦,反而更加浪费时间了。为了提高工作效率,降低人工...

祝贺凡人修仙传2026年新年番开播同时在线人数超64万
今天6月13日凡人修仙传新年番开播,同时在线人数破64万(非最高在线人数,只是我看到的在线人数),作为凡人5年老粉,必须发个帖祝贺一下。 我比较喜欢看动漫,各种类型看了很多,具体不清楚多少,像斗罗斗破之类看了一大半终究是没能看下去,还是雾山...

Premiere Pro静音片段自动剪辑插件——Silence Remover使用教程及下载
对于做口播、Vlog、播客剪辑的朋友来说,最耗时的工作之一就是手动找出视频中的”哑巴”片段——说话间隙、停顿、思考时的”嗯啊”——并逐一删除。今天给大家介绍一款来自 Phantom Edito...

蛙蛙写作-能替你"打工"的AI写作平台,附邀请码:UZekHC
我不是一个容易被工具说服的人。用过 ChatGPT、试过各种”AI写作神器”,大多数要么写出来全是机翻腔,要么根本不懂网文的爆款逻辑。 直到我开始用蛙蛙写作,才发现原来一个工具真的可以懂你想写什么。 🐸 蛙蛙写作是什...

PDFMathTranslate + MinerU 批量PDF全文双语翻译转Markdown工具
本工具是一款基于 PDFMathTranslate 与 MinerU 整合的桌面端 PDF 翻译工具,通过简洁的 Web 界面实现一键式 PDF 全文双语翻译,并可选择将翻译结果导出为 Markdown 格式,方便导入知识库或进行二次编辑。...

Claude居然自称“本人”
今天在和Claude聊网文写作的时候,Claude回复中居然自称本人,这让我有点震惊。 我经常会和AI聊工具功能对比等话题,ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的,好像都是本模型,本工具等等,反正从来没...

图像无损放大神器:Topaz Gigapixel AI软件下载及使用指南
在数字内容创作成风头的今天,我们经常会遇到低分辨率素材模糊、AI 生成图片尺寸太小、或者老照片充满噪点的情况。传统的图像放大方式(如双三次插值)只是单纯地拉伸像素,容易让画面变得模糊、虚化。 如果你正在寻找一种能“凭空”补齐细节、让低画质瞬...

AI视频提示词反推工具,参考视频即梦提示词一键生成
本工具是一款面向 AI 视频生成创作者的本地离线辅助软件。用户导入任意视频文件,工具会自动完成场景检测、关键帧提取、多模态模型分析、提示词拼装等全流程,最终输出一份可直接复制粘贴到即梦 AI 等视频生成平台的完整提示词。 适用场景 功能特点...
免费在线HTML转markdown工具
经常看一些在线文档,想复制给AI参考的话不方便直接复制,转换成markdown再给AI阅读会更简单明了,也方便自己查阅,这里给大家推荐两个在线的免费HTML转markdown网站。 1、https://d1tools.com/tools/c...

闲鱼自动回复机器人XianyuAutoAgent下载,24小时在线智能客服机器人系统
XianyuAutoAgent是一款面向闲鱼平台的智能化自动回复机器人,利用大语言模型自动识别买家意图并生成专业回复,实现 7×24 小时智能客服。 主要功能 1. 智能自动回复 2. 可视化 Web UI 3. 人工接管模式 4. 安全防...
















