AI软件下载
有趣网站推荐及实用软件下载

AI实时语音聊天对话系统,外语口语陪练/虚拟好友实时语音交流

AI 实时语音对话系统 是一款集语音识别(ASR)、大语言模型(LLM)对话、语音合成(TTS)于一体的实时语音交互软件。用户通过麦克风说话,系统自动识别语音内容并转为文字,交由 AI 角色进行智能回复,最终将回复内容合成为语音实时播放,实现端到端的自然语音对话体验。本来想测试英伟达的personaplex,但是发现personaplex不支持中文,一时兴起就做了当前这个软件。

AI实时语音聊天对话系统,外语口语陪练/虚拟好友实时语音交流

软件功能特点

1. 全链路实时语音对话

  • 语音输入 → 语音输出:用户只需点击录音按钮说话,系统自动完成”语音识别 → AI 推理 → 语音合成 → 语音播放”的完整闭环。
  • 流式处理:ASR 文本、LLM 回复、TTS 音频均采用流式传输,AI 的思考过程和语音播报几乎同步呈现,延迟低、体验流畅。
  • WebSocket 实时通信:前后端通过 WebSocket 保持长连接,支持双向实时数据传输。

2. 多角色 AI 对话

内置 7 种不同性格的 AI 角色,每个角色拥有独立的系统提示词和语音音色,用户也可以自定义角色:

角色标签语言性格特点
Lucy英语口语陪练英语热情友好,纠正语法错误,鼓励式教学
Sakura日语口语陪练日语明るく親しみやすい,耐心纠错
Ah-May粤语口语陪练粤语热情友善,粤语书面语对话
银月话痨中文天生八卦,自来熟,情报中心
南宫婉高冷中文极简回复,冷淡但有分量
范静梅女王中文若即若离,成熟魅力,情场高手
陈巧倩治愈系中文温柔共情,倾听陪伴式对话

3. 智能语音处理

  • 语音活动检测(VAD):可配置音量阈值和静音超时时间,自动判断用户是否说完话。
  • 降噪与回声消除:内置回声消除、噪声抑制、自动增益控制;播报 AI 回复时自动静音麦克风输入,防止扬声器声音被重新识别。
  • PCM16 音频编码:麦克风采集 16kHz 采样率音频;TTS 输出 22050Hz 采样率音频,Web Audio API 精确调度实现无缝播放。

4. 灵活的大模型配置

  • 兼容 OpenAI 标准 API:支持任意兼容 OpenAI API 标准的模型提供商,如果还没有大语言模型API,可点击立即注册>>
  • 用户可自定义 Base URL、API Key、Model 名称,Model建议使用gpt-5.4-mini,响应速度最快。
  • 可调参数:支持调节 Temperature(温度)、Max Tokens(最大生成长度),适应不同场景下的回复风格需求。

5. 可视化操作界面

  • 三栏布局:左侧显示语音识别实时文本、中间展示对话历史、右侧显示 AI 完整回复。
  • 录音状态指示:彩色指示灯显示当前状态(待机/识别中/AI思考中/AI说话中),一目了然。
  • 角色一键切换:点击角色按钮即可切换,无需重启软件。

使用场景

1. 外语口语练习

  • 使用 Lucy 练习英语口语,获得实时对话反馈和语法纠错。
  • 使用 Sakura 练习日语口语,沉浸式日语对话环境。
  • 使用 Ah-May 练习粤语口语,学习地道粤语表达。

2. 日常聊天陪伴

  • 选择 银月 天南海北聊天,获取”八卦情报”般的趣味对话。
  • 选择 陈巧倩 倾诉心事,获得温柔共情的倾听和回应。
  • 选择 南宫婉范静梅 体验不同风格的对话乐趣。

3. 本地化 AI 体验

  • 软件运行在本地服务器(127.0.0.1:7860),数据无需经过第三方服务器(除 LLM API 调用外),隐私性较好。
  • 支持本地 TTS 模型(CosyVoice)。

注意事项

  1. 需要麦克风权限:首次使用时,浏览器会请求麦克风访问权限,请务必允许。
  2. 需要 LLM API Key:软件本身不内置大模型 API Key,需用户自行在设置页面配置有效的 Base URL 和 API Key 方可使用对话功能。
  3. 网络要求:LLM 对话功能需要联网(调用远程 API);ASR 和 TTS 可在本地运行。
  4. 性能建议:TTS 语音合成和 ASR 语音识别均消耗一定的 CPU/GPU 资源,建议英伟达显卡显存4G以上电脑使用。如遇卡顿,可适当提高音量阈值以减少不必要的音频处理。
  5. 扬声器回声:使用外放时,AI 回复的语音可能被麦克风重新拾取。建议佩戴耳机使用以获得最佳体验;软件也内置了”播报后静默期”机制来缓解此问题。
  6. 浏览器兼容:推荐使用 Chrome、Edge 等基于 Chromium 内核的现代浏览器,以确保 WebSocket 和 Web Audio API 的正常运行。
  7. 首次启动较慢:首次运行时会稍慢,请耐心等待。后续启动速度会明显加快。

快速开始

  1. 双击 0启动软件.bat 启动后端服务。
  2. 打开浏览器访问 http://127.0.0.1:7860
  3. 点击页面底部”设置”,填入 API Base URL 和 API Key。
  4. 选择一个角色(如 Lucy、银月等)。
  5. 点击”开始录音”按钮,开始语音对话。

AI实时对话软件下载链接

https://pan.quark.cn/s/dfc1e9fa9784


AI软件用不了?2元爽玩4090: 立即体验>>

热门大语言模型API免费体验: 立即获取>>

软件催更及1对1人工答疑支持: https://nuowa.net/1806
赞(0) 打赏
软件无法使用?点击查看常见问题说明>>

最近更新

LTX2.3+comfyui音频驱动视频生成工作流

这是一个基于 ComfyUI 的 LTX 2.3 音视频同步生成工作流,核心功能是上传一段音频 + 参考图片(可多张图),自动生成与音频内容对应的视频,适合制作人物说话、唱歌等口型同步视频。工作流使用8位量化版ltx2.3模型,显存需求降低...

windows电脑C盘垃圾查找清理软件

电脑用了好几年了,尽管我安装软件从来不主动装到C盘,偶尔也会清理垃圾,但是用的久了,容量也是在慢慢减少。我C盘303G,现在就剩了24G了,已经会影响到系统性能和虚拟内存调度了,已经不能不管了。C盘不装软件的话大多都是缓存,文件太多了,有时...

Mineru PDF转markdown软件局域网版

对于有的电脑配置比较低或是win7系统等电脑无法使用Mineru情况,可以使用局域网内可运行软件的电脑运行Mineru,然后其它电脑或手机等终端输入IP地址,打开运行软件的IP地址来使用Mineru。 具体用法: 下载局域网版压缩包到本地电...

觉得文章对你有帮助就打赏一下作者

非常感谢你的打赏,我将有更多的动力继续提供优质内容,让我们一起创建更加美好的世界!

支付宝扫一扫

微信扫一扫