WorldMirror 2.0 是由腾讯混元(Hunyuan)团队开发的下一代通用三维世界重建系统,底层基于 HY-World-2.0 模型。它能够从一组普通照片或一段视频中,自动恢复出场景的三维结构,并生成多种形式的三维资产,包括:
- 点云 / 网格(Mesh)模型:场景的几何结构重建
- 3D 高斯泼溅(Gaussian Splatting):高质量的神经渲染表示
- 深度图 / 法线图:每帧对应的几何信息
- 相机参数:每张图像的位姿与内参
我基于当前最新版源码制作了免安装一键启动整合包,功能略作优化,修复已知BUG,UI界面翻译调整

软件特点
1. 多视角三维重建
只需提供围绕场景拍摄的多张照片(或一段视频),即可自动完成相机姿态估计、深度估计、法线估计,并融合为完整的三维场景。
2. 支持多种输出形式
- GLB 格式的三维网格/点云模型:可直接在浏览器中交互查看,也支持导入 Blender、Unity 等软件
- 3D 高斯泼溅(3DGS):新一代神经渲染技术,渲染质量高、速度快,适合高质量可视化展示
- 每帧深度图与法线图:可用于后续的二次编辑或分析
- 相机参数导出:支持 COLMAP 格式的相机位姿与内参,方便对接传统三维重建管线
3. 支持视频输入
内置视频抽帧工具,自动从视频中按指定间隔提取关键帧,无需手动预处理。
4. 天空背景检测与过滤
集成了天空检测模型,可自动识别并滤除天空区域,避免天空干扰三维重建质量;天空过滤开关可在界面中实时切换。
5. 高斯泼溅体素合并优化
使用体素合并算法对高斯点云进行压缩,在保证质量的前提下显著减少高斯数量,降低文件体积和渲染开销。
6. 边缘与低置信度过滤
自动检测场景中的边缘区域和低置信度预测,用户可通过开关控制是否滤除这些区域以获得更干净的模型。
WorldMirror 2.0应用界面功能详解
应用界面分为:左栏(文件上传与终端)、右栏(三维可视化与重建控制)
左栏:文件上传
| 组件 | 功能说明 |
|---|---|
| 上传视频或图片 | 支持上传多张图片(PNG/JPG/JPEG/WebP/HEIC)或视频文件(MP4/AVI/MOV/MKV 等)。支持批量上传。 |
| 视频采样间隔(秒) | 当上传视频时,此滑块控制每隔多少秒抽取一帧。值越大,抽帧越少;建议对运动缓慢的场景用 1.0-2.0 秒,快速运动的场景用 0.5-1.0 秒。 |
| 重新采样 | 仅对视频有效。调整采样间隔后点击此按钮,按新的间隔重新抽取视频帧。 |
| 图片预览 | 显示已上传/抽取的所有图片,方便确认输入数据。 |
| 终端输出 | 显示运行过程中的实时日志(模型加载、推理进度、保存状态等),便于排查问题。 |
右栏:三维可视化与重建控制
顶部状态栏
- 显示当前操作状态提示(如”请上传文件,然后点击开始重建”、”正在重建中…”、”重建成功”等)。
查看标签页
| 标签页 | 功能说明 |
|---|---|
| 3D 高斯泼溅 | 以高斯泼溅形式展示三维场景。支持鼠标拖拽旋转、滚轮缩放,交互流畅。这是最高质量的渲染效果。 |
| 点云 / 网格 | 以三角网格或点云形式展示场景的几何结构。同样支持鼠标交互查看。可通过下方的重建选项切换显示模式。 |
| 深度图 | 逐帧查看每张输入图像对应的深度估计结果。拖动滑块切换不同帧,深度值以伪彩色显示(暖色近、冷色远)。 |
| 法线图 | 逐帧查看每张图像对应的法线估计结果。RGB 颜色编码了表面的朝向信息。 |
| 相机参数 | 可下载所有输入图像对应的相机位姿和相机内参 JSON 文件,格式兼容 COLMAP。 |
重建按钮
- 开始重建:点击后启动世界重建流程。处理时间取决于图片数量和分辨率,通常从数十秒到数分钟不等。
- 清除:一键清除所有上传文件和重建结果,重置界面。
帧选择器
- 显示指定帧的点云:默认为”All”(显示所有帧),可切换为特定帧,仅显示该帧视角下的点云数据。
重建选项(不适用于 3DGS)
| 选项 | 说明 |
|---|---|
| 显示相机 | 在 3D 场景中显示相机图标/位置,便于理解每张照片的拍摄视角。 |
| 显示网格 | 切换点云/网格标签页的显示方式为三角网格(勾选)或原始点云(取消勾选)。 |
| 过滤低置信度 & 边缘 | 自动检测并滤除重建质量较低的区域和深度不连续边缘。开启后模型更干净但可能丢失部分细节。 |
| 过滤天空背景 | 开启后自动识别并移除天空区域。对于室外场景建议开启,室内场景可关闭。 |
注意:以上选项修改后会自动刷新 3D 场景,无需重新运行推理。
注意事项
1. 输入图片要求
- 数量:图片越多,重建质量越好,生成耗时越久。
- 覆盖:拍摄时应围绕场景从不同角度拍摄,确保每部分至少有 2-3 张图片覆盖。
- 重叠:相邻图片之间应有 60% 以上的视野重叠。
- 清晰度:避免运动模糊或过暗的图片。
- 格式:支持 PNG、JPG、JPEG、WebP、HEIC/HEIF。
2. 视频输入建议
- 拍摄时保持匀速移动,避免剧烈抖动。
- 采样间隔建议:慢速环绕拍摄用 1.0-2.0 秒,手持步行拍摄用 0.5-1.0 秒。
- 视频总帧数建议控制在 50-200 帧之间。
3. 硬件要求
- GPU:建议 NVIDIA 显卡30系列起,显存 6GB 以上,显存越大性能越好
- 系统:windows 10 或 11
4. 运行时间
- 推理时间与图片数量、分辨率成正比。
- 体素合并和高斯点云优化在后处理阶段进行,通常耗时数秒。
5. 输出文件说明
重建完成后,在 output/ 目录下会生成以时间戳命名的文件夹,包含:
| 文件 | 说明 |
|---|---|
scene_xxx.glb | 三维场景模型文件(点云/网格),可在浏览器或 Blender 中打开 |
gaussians.ply | 高斯泼溅点云文件,可用 3DGS 查看器渲染 |
camera_params.json | 相机参数(位姿 + 内参),COLMAP 兼容格式 |
predictions.npz | 完整的推理结果(深度、法线、掩码等),可用于二次分析 |
images/ | 输入图片目录 |
depth/、normals/ | 每帧对应的深度图、法线图 PNG 文件 |
sky_mask/ | 天空区域掩码 PNG 文件 |
6. 已知限制
- 对纯色的、缺乏纹理的场景(如白墙、光滑地面)重建效果可能不佳。
- 透明/反射物体(玻璃、水面)可能产生不准确的深度估计。
- 输入图片尺寸过大会显著增加显存消耗,系统会自动缩放到合适的尺寸(最大 952px)。
- 高度动态的场景(人群中、车流中)可能导致重建失败。
腾讯混元WorldMirror 2.0整合包下载链接
https://pan.quark.cn/s/78597f48e361
相关推荐
Apple苹果3D 高斯(3DGS)模型ply文件生成器,图片转3D模型软件下载
微软最新图片转3D网格模型软件TRELLIS.2 windows版整合包下载,AI一键建模工具
高精度2D图片转3D网格模型软件Stable3DGen整合包下载
腾讯混元3D大模型2.1版图片文本转3D网格模型软件Hunyuan3D-2.1整合包
图片转3D模型软件Wonder3D整合包使用说明视频教程
微软2D图片/文本转3D模型软件TRELLIS整合包使用说明视频教程
微软图片转3D模型软件TRELLIS整合包下载,2D图片转3D GLB资产
图片转3D模型软件Wonder3D++整合包下载,AI一键生成3D网格建模工具
最近更新

AI漫剧制作即梦seedance2.0教程及提示词2026年最新版分享
AI视频依旧持续火爆,各种类型的AI视频层出不穷,视频效果也是越来越好,甚至快接近影视级,目前最主要的AI视频生成工具还是即梦,即梦 Seedance 2.0生成视频一秒钟都到2块多钱了😂,不过也没办法,还是得用,目前还没能有替代即梦see...

AI实时语音聊天对话系统,外语口语陪练/虚拟好友实时语音交流
AI 实时语音对话系统 是一款集语音识别(ASR)、大语言模型(LLM)对话、语音合成(TTS)于一体的实时语音交互软件。用户通过麦克风说话,系统自动识别语音内容并转为文字,交由 AI 角色进行智能回复,最终将回复内容合成为语音实时播放,实...

ComfyUI 三参考图生图工作流,虚拟试衣、换脸、图片内容整合
本工作流核心能力是将三张不同角度、内容的参考图,通过 AI 理解融合,生成一张新的图像,新图像内容根据描述词指令生成。工作流集成了阿里巴巴的 Qwen2.5-VL 多模态大模型(图像编辑版本)与 SeedVR2 超分辨率放大模型,实现了「理...
comfyui CUDA128+torch 2.8.0+python3.12最新纯净版一键启动整合包
comfyui官方发布的最新版便携包是基于torch 2.11+CU130 +Python 3.13版本制作的,Python版本和torch版本都太新了,windows电脑上安装某些节点的时候会有冲突报错,有时候就算能安装上也会比较麻烦,感...
LTX2.3+comfyui音频驱动视频生成工作流
这是一个基于 ComfyUI 的 LTX 2.3 音视频同步生成工作流,核心功能是上传一段音频 + 参考图片(可多张图),自动生成与音频内容对应的视频,适合制作人物说话、唱歌等口型同步视频。工作流使用8位量化版ltx2.3模型,显存需求降低...
LTX2.3+comfyui分段提示词图片转视频工作流,AI视频带货生成器
再和大家分享一个基于 ComfyUI 的 AI 分段提示词图生视频工作流,本工作流主要基于模型LTX2.3和PromptRelay实现。可使用PromptRelay分时段控制生成不同视频画面或合成语音内容。 📌 工作流简介 本工作流是一套基...
windows电脑C盘垃圾查找清理软件
电脑用了好几年了,尽管我安装软件从来不主动装到C盘,偶尔也会清理垃圾,但是用的久了,容量也是在慢慢减少。我C盘303G,现在就剩了24G了,已经会影响到系统性能和虚拟内存调度了,已经不能不管了。C盘不装软件的话大多都是缓存,文件太多了,有时...

LTX2.3+comfyui视频去除字幕水印工作流分享
本次再和大家分享一个视频去字幕水印的comfyui工作流,工作流基于LTX2.3视频生成模型制作。LTX2.3是最新最强的视频生成模型,我前段时间就分享过了,可以看我另一篇文章:https://nuowa.net/2525,comfyui项...

多人对话声音克隆语音合成工具Chatterbox TTS免安装版,AI实时文字转语音
Chatterbox 是由 Resemble AI 开发的开源文本转语音(Text-to-Speech, TTS)模型,支持零样本音色克隆:只需提供一段参考音频(几秒钟的人声),即可模仿该音色朗读任意文本。我基于最新版源码制作了免安装一键启...
Mineru PDF转markdown软件局域网版
对于有的电脑配置比较低或是win7系统等电脑无法使用Mineru情况,可以使用局域网内可运行软件的电脑运行Mineru,然后其它电脑或手机等终端输入IP地址,打开运行软件的IP地址来使用Mineru。 具体用法: 下载局域网版压缩包到本地电...















