本工作流核心能力是将三张不同角度、内容的参考图,通过 AI 理解融合,生成一张新的图像,新图像内容根据描述词指令生成。工作流集成了阿里巴巴的 Qwen2.5-VL 多模态大模型(图像编辑版本)与 SeedVR2 超分辨率放大模型,实现了「理解 → 生成 → 放大」的完整闭环。
| 工作流类型 | 多参考图合成 + AI 超分辨率放大 |
| 核心模型 | Qwen Image Edit 2511 (fp8) + SeedVR2 3B (Q8) |
| LoRA 加速 | Qwen-Image-Edit Lightning 4步推理版 |
| 输出分辨率 | 生成 720×1280,SeedVR2 放大至 1080p+ |
| 适用场景 | 服装展示、虚拟试衣、人物形象合成、AI 写真 |


工作流节点结构
整体数据流
工作流从左到右分为四个功能区,各区域之间通过数据连线传递信息:
| 区域 | 颜色标记 | 主要节点 | 职责 |
| 设置区(左侧) | 蓝色边框 | 3×LoadImage、CR Text、EmptyLatentImage | 上传参考图、填写提示词、设定画布尺寸 |
| 主流程区(中) | 蓝色边框 | CLIPLoader、UNETLoader、LoRA、KSampler、VAEDecode | 模型加载、文本编码、扩散采样、解码输出 |
| 放大区(右侧) | 紫色边框 | SeedVR2LoadDiTModel、SeedVR2LoadVAEModel、SeedVR2VideoUpscaler | AI 超分辨率放大至高清 |
| 预览区 | 自动 | ImageConcatMulti、ImageConcanate、SaveImage、PreviewImage | 参考图拼合展示、保存最终结果 |
核心节点说明
① 图像加载节点(LoadImage × 3)
工作流预设了三个图像加载节点,对应三个不同部位或角度的参考图。每张图同时连接到两处:一路送入文本编码器(作为视觉参考),另一路送入图像拼接节点(用于预览对比)。
② 文本与图像联合编码(TextEncodeQwenImageEditPlus)
这是工作流的核心节点,基于 Qwen2.5-VL 多模态模型,能够同时理解文字提示词和三张参考图的视觉内容。它将「语言描述 + 图像特征」融合编码为扩散模型可消费的 Conditioning 向量。
| 重要 | 该节点硬编码只支持 image1 / image2 / image3 共三个图像输入,无法直接扩展。如需5图参考,须将多余的图先用 ImageConcatMulti 横向拼合后再输入 image3 插槽。 |
③ 参考潜空间方法(FluxKontextMultiReferenceLatentMethod × 2)
正向 Conditioning 经此节点处理后进入采样器正面输入,负向(ConditioningZeroOut 清零后)作为负面输入。method 参数统一设为 index_timestep_zero,是当前兼容性最佳的选项。
④ KSampler(采样器)
配合 Lightning LoRA 使用,当前配置为:steps=8、cfg=1、采样器=euler、调度器=simple、denoise=1.0。这是 4步闪电推理的标准配置,在速度与质量之间取得平衡。
⑤ SeedVR2 超分辨率放大链
VAEDecode 解码出的图像(约 720×1280)会直接进入 SeedVR2VideoUpscaler,经 DiT 模型与 VAE 模型协同放大至 1080p 甚至更高分辨率,细节恢复能力显著优于传统插值算法。
使用方法
Step 1 上传参考图
- 点击「设置区」中的三个 LoadImage 节点,分别上传三张参考图
- 三张图的分辨率不需要一致,节点会自动处理尺寸差异
Step 2 填写提示词
在 CR Text 节点中填写生成描述,需明确说明每张图对应的内容,以及期望的输出形式。参考格式:
根据图1中的腿部图、图2中的侧身图、图3中的上半身正面图,生成人物全身正面纯色背景图片
- 提示词支持中文,Qwen 模型对中文理解表现优秀
- 可以加入风格描述,如「写实摄影风格」「干净白色背景」「全身正面站立」
- 不需要写负面提示词,负面端已由 ConditioningZeroOut 清零处理
Step 3 确认画布尺寸
EmptyLatentImage 节点默认设为 720×1280(竖向人物图),一般无需修改。如需横图可改为 1280×720,方形可改为 1024×1024。
Step 4 执行生成
点击 ComfyUI 界面右下角的「Queue Prompt」按钮开始运行。生成过程分为两个阶段:
- 阶段一:KSampler 采样(约10~30秒,取决于显存和步数)
- 阶段二:SeedVR2 超分放大(约20~60秒,会占用较多 VRAM)
Step 5 查看结果
右侧 SaveImage 节点会将主生成图保存到 ComfyUI 的 output 目录,PreviewImage 节点展示「参考图拼合 + 超分结果」对比预览。
关键参数配置详解
KSampler 参数
| seed | 随机种子,设为 randomize 每次生成不同结果;固定数值可复现 |
| steps | 推理步数,默认 8,配合 Lightning LoRA 无需增加,增加反而可能降质 |
| cfg | 提示词引导强度,当前为 1,Lightning 模式下不建议超过 1.5 |
| sampler_name | euler,Lightning LoRA 的推荐采样器 |
| scheduler | simple,与 euler 配套使用效果最佳 |
| denoise | 去噪强度,1.0 = 完全重绘,从空白 Latent 生成 |
SeedVR2 放大参数
| resolution | 目标放大分辨率(长边),默认 1080,可设 1440/2160 |
| max_resolution | 最大分辨率限制,0 = 不限制 |
| batch_size | 单次处理帧数,图片场景设为 1 即可 |
| color_correction | 色彩校正模式,lab 效果最自然,推荐保持 |
| offload_device | 模型卸载设备,必须设为 cpu(不可为 none,否则崩溃) |
| cache_model | 是否缓存 DiT 模型到内存,True = 第二次运行更快 |
| 注意 | SeedVR2 的 offload_device 参数必须设为「cpu」,不能留空或设为「none」。设为 none 时程序会直接报错崩溃:”Model caching requires offload_device to be set.” |
使用注意事项
显存管理
- 建议英伟达显卡显存8G以上
- 如显存不足导致 OOM,可尝试将 SeedVR2 的 blocks_to_swap 从 0 适当增大(如 8~16),将部分 DiT 计算块卸载至 CPU
- SeedVR2 的 cache_model 设为 True 可加速第二次运行,但会多占约 2~4GB 系统内存
参考图质量要求
- 分辨率建议不低于 512×512,过小的图会导致细节丢失
- 三张图尽量来自同一人物,差异过大(体型、肤色明显不同)会导致合成混乱
- 避免使用高度压缩、有明显噪点的图片,会影响 Qwen 的图像理解质量
- 图片中的人物尽量为独立个体,不要有大量其他人物干扰
提示词技巧
- 明确描述每张图的内容与对应关系(图1是…,图2是…,图3是…)
- 指定输出风格:「写实摄影」「白色纯色背景」「全身正面站立」「高清」等
- 如果生成的人物比例不对,可在提示词中加入「保持正常人体比例」「全身比例正确」
- 不建议在提示词中描述背景细节,纯色背景场景下越简单越好
常见问题排查
| 问题现象 | 解决方案 |
| SeedVR2 报 offload_device 错误 | 将 SeedVR2LoadDiTModel 的 offload_device 从 none 改为 cpu |
| invalid prompt: class_type None | 工作流包含未注册节点,用文本编辑器删除 JSON 中对应 id 的节点对象后重新加载 |
| Fast Groups 节点缺失 | 通过 ComfyUI-Manager 安装 rgthree-comfy 插件并重启 |
| 生成图人物比例失真 | 在提示词中增加全身比例、站姿描述;检查 EmptyLatentImage 的宽高比 |
| SeedVR2 显存溢出(OOM) | 增大 blocks_to_swap 参数(建议从 8 开始尝试);或将 max_resolution 降低 |
| 生成速度很慢 | 确认 LoRA 已正确加载(steps 应在 8 左右即完成);检查是否有其他进程占用 GPU |
| 三张图合成效果差 | 参考图之间差异过大,尝试换用同一套装的不同角度图;优化提示词描述 |
优化建议
批量生成
将 EmptyLatentImage 的 batch_size 改为 2~4 可同时生成多张,结合随机种子(randomize)可快速筛选最佳结果。但每增加一张 batch 会相应增加显存需求和生成时间。
二次细化
对 SaveImage 输出的结果不满意时,可将其重新载入 LoadImage,使用 img2img 模式(KSampler 的 denoise 调低至 0.5~0.7)进行局部细化,保留整体构图同时优化细节。
SeedVR2 放大参数调优
- color_correction=lab 效果最自然,如遇肤色偏差可尝试切换为 none
- input_noise_scale 和 latent_noise_scale 适当调高(0.02~0.05)可让细节更丰富,但过高会引入噪点
- resolution 设为 2160 可获得更高清结果,但耗时和显存翻倍,需权衡
本工作流将多模态理解模型与扩散生成模型深度结合,在服装展示、AI 写真、虚拟形象合成等场景下具有较强实用价值。合理配置显存参数、提供高质量参考图、写清晰的提示词,是获得理想结果的三个关键要素。
comfyui三参考图生图工作流下载链接
https://pan.quark.cn/s/17f7fd198685
模型文件下载链接:
https://pan.quark.cn/s/186b6dd01260
相关推荐
最近更新

ComfyUI 三参考图生图工作流,虚拟试衣、换脸、图片内容整合
本工作流核心能力是将三张不同角度、内容的参考图,通过 AI 理解融合,生成一张新的图像,新图像内容根据描述词指令生成。工作流集成了阿里巴巴的 Qwen2.5-VL 多模态大模型(图像编辑版本)与 SeedVR2 超分辨率放大模型,实现了「理...
comfyui CUDA128+torch 2.8.0+python3.12最新纯净版一键启动整合包
comfyui官方发布的最新版便携包是基于torch 2.11+CU130 +Python 3.13版本制作的,Python版本和torch版本都太新了,windows电脑上安装某些节点的时候会有冲突报错,有时候就算能安装上也会比较麻烦,感...
LTX2.3+comfyui音频驱动视频生成工作流
这是一个基于 ComfyUI 的 LTX 2.3 音视频同步生成工作流,核心功能是上传一段音频 + 参考图片(可多张图),自动生成与音频内容对应的视频,适合制作人物说话、唱歌等口型同步视频。工作流使用8位量化版ltx2.3模型,显存需求降低...
LTX2.3+comfyui分段提示词图片转视频工作流,AI视频带货生成器
再和大家分享一个基于 ComfyUI 的 AI 分段提示词图生视频工作流,本工作流主要基于模型LTX2.3和PromptRelay实现。可使用PromptRelay分时段控制生成不同视频画面或合成语音内容。 📌 工作流简介 本工作流是一套基...
windows电脑C盘垃圾查找清理软件
电脑用了好几年了,尽管我安装软件从来不主动装到C盘,偶尔也会清理垃圾,但是用的久了,容量也是在慢慢减少。我C盘303G,现在就剩了24G了,已经会影响到系统性能和虚拟内存调度了,已经不能不管了。C盘不装软件的话大多都是缓存,文件太多了,有时...

LTX2.3+comfyui视频去除字幕水印工作流分享
本次再和大家分享一个视频去字幕水印的comfyui工作流,工作流基于LTX2.3视频生成模型制作。LTX2.3是最新最强的视频生成模型,我前段时间就分享过了,可以看我另一篇文章:https://nuowa.net/2525,comfyui项...

多人对话声音克隆语音合成工具Chatterbox TTS免安装版,AI实时文字转语音
Chatterbox 是由 Resemble AI 开发的开源文本转语音(Text-to-Speech, TTS)模型,支持零样本音色克隆:只需提供一段参考音频(几秒钟的人声),即可模仿该音色朗读任意文本。我基于最新版源码制作了免安装一键启...
Mineru PDF转markdown软件局域网版
对于有的电脑配置比较低或是win7系统等电脑无法使用Mineru情况,可以使用局域网内可运行软件的电脑运行Mineru,然后其它电脑或手机等终端输入IP地址,打开运行软件的IP地址来使用Mineru。 具体用法: 下载局域网版压缩包到本地电...

OmniSVG:统一的可缩放矢量图形生成软件
OmniSVG 是一个基于视觉-语言模型(VLM)的端到端多模态 SVG(可缩放矢量图形)生成框架,由 OpenVGLab 团队开发。该项目能够从文本描述或参考图像生成高质量的 SVG 矢量图形,覆盖从简单图标...

AI实时变声器Voice Changer2.1.4 CUDA版下载,高质量RVC变声软件
Voice Changer是一款实时 AI 变声工具,允许你通过多种 AI 声音模型(如 RVC 和 Beatrice)实时转换声音。转换延迟更低,是目前社区中最受欢迎的开源实时变声方案之一。 核心特点 1. 实时性 voice-chang...













