AI软件下载
有趣网站推荐及实用软件下载

ComfyUI 三参考图生图工作流,虚拟试衣、换脸、图片内容整合

本工作流核心能力是将三张不同角度、内容的参考图,通过 AI 理解融合,生成一张新的图像,新图像内容根据描述词指令生成。工作流集成了阿里巴巴的 Qwen2.5-VL 多模态大模型(图像编辑版本)与 SeedVR2 超分辨率放大模型,实现了「理解 → 生成 → 放大」的完整闭环。

工作流类型多参考图合成 + AI 超分辨率放大
核心模型Qwen Image Edit 2511 (fp8) + SeedVR2 3B (Q8)
LoRA 加速Qwen-Image-Edit Lightning 4步推理版
输出分辨率生成 720×1280,SeedVR2 放大至 1080p+
适用场景服装展示、虚拟试衣、人物形象合成、AI 写真
ComfyUI 三参考图生图工作流,虚拟试衣、换脸、图片内容整合
ComfyUI 三参考图生图工作流,虚拟试衣、换脸、图片内容整合

工作流节点结构

整体数据流

工作流从左到右分为四个功能区,各区域之间通过数据连线传递信息:

区域颜色标记主要节点职责
设置区(左侧)蓝色边框3×LoadImage、CR Text、EmptyLatentImage上传参考图、填写提示词、设定画布尺寸
主流程区(中)蓝色边框CLIPLoader、UNETLoader、LoRA、KSampler、VAEDecode模型加载、文本编码、扩散采样、解码输出
放大区(右侧)紫色边框SeedVR2LoadDiTModel、SeedVR2LoadVAEModel、SeedVR2VideoUpscalerAI 超分辨率放大至高清
预览区自动ImageConcatMulti、ImageConcanate、SaveImage、PreviewImage参考图拼合展示、保存最终结果

核心节点说明

图像加载节点(LoadImage × 3)

工作流预设了三个图像加载节点,对应三个不同部位或角度的参考图。每张图同时连接到两处:一路送入文本编码器(作为视觉参考),另一路送入图像拼接节点(用于预览对比)。

文本与图像联合编码(TextEncodeQwenImageEditPlus)

这是工作流的核心节点,基于 Qwen2.5-VL 多模态模型,能够同时理解文字提示词和三张参考图的视觉内容。它将「语言描述 + 图像特征」融合编码为扩散模型可消费的 Conditioning 向量。

重要该节点硬编码只支持 image1 / image2 / image3 共三个图像输入,无法直接扩展。如需5图参考,须将多余的图先用 ImageConcatMulti 横向拼合后再输入 image3 插槽。

参考潜空间方法(FluxKontextMultiReferenceLatentMethod × 2)

正向 Conditioning 经此节点处理后进入采样器正面输入,负向(ConditioningZeroOut 清零后)作为负面输入。method 参数统一设为 index_timestep_zero,是当前兼容性最佳的选项。

④ KSampler(采样器)

配合 Lightning LoRA 使用,当前配置为:steps=8、cfg=1、采样器=euler、调度器=simple、denoise=1.0。这是 4步闪电推理的标准配置,在速度与质量之间取得平衡。

⑤ SeedVR2 超分辨率放大链

VAEDecode 解码出的图像(约 720×1280)会直接进入 SeedVR2VideoUpscaler,经 DiT 模型与 VAE 模型协同放大至 1080p 甚至更高分辨率,细节恢复能力显著优于传统插值算法。

使用方法

Step 1  上传参考图

  • 点击「设置区」中的三个 LoadImage 节点,分别上传三张参考图
  • 三张图的分辨率不需要一致,节点会自动处理尺寸差异

Step 2  填写提示词

在 CR Text 节点中填写生成描述,需明确说明每张图对应的内容,以及期望的输出形式。参考格式:

根据图1中的腿部图、图2中的侧身图、图3中的上半身正面图,生成人物全身正面纯色背景图片

  • 提示词支持中文,Qwen 模型对中文理解表现优秀
  • 可以加入风格描述,如「写实摄影风格」「干净白色背景」「全身正面站立」
  • 不需要写负面提示词,负面端已由 ConditioningZeroOut 清零处理

Step 3  确认画布尺寸

EmptyLatentImage 节点默认设为 720×1280(竖向人物图),一般无需修改。如需横图可改为 1280×720,方形可改为 1024×1024。

Step 4  执行生成

点击 ComfyUI 界面右下角的「Queue Prompt」按钮开始运行。生成过程分为两个阶段:

  • 阶段一:KSampler 采样(约10~30秒,取决于显存和步数)
  • 阶段二:SeedVR2 超分放大(约20~60秒,会占用较多 VRAM)

Step 5  查看结果

右侧 SaveImage 节点会将主生成图保存到 ComfyUI 的 output 目录,PreviewImage 节点展示「参考图拼合 + 超分结果」对比预览。

关键参数配置详解

KSampler 参数

seed随机种子,设为 randomize 每次生成不同结果;固定数值可复现
steps推理步数,默认 8,配合 Lightning LoRA 无需增加,增加反而可能降质
cfg提示词引导强度,当前为 1,Lightning 模式下不建议超过 1.5
sampler_nameeuler,Lightning LoRA 的推荐采样器
schedulersimple,与 euler 配套使用效果最佳
denoise去噪强度,1.0 = 完全重绘,从空白 Latent 生成

SeedVR2 放大参数

resolution目标放大分辨率(长边),默认 1080,可设 1440/2160
max_resolution最大分辨率限制,0 = 不限制
batch_size单次处理帧数,图片场景设为 1 即可
color_correction色彩校正模式,lab 效果最自然,推荐保持
offload_device模型卸载设备,必须设为 cpu(不可为 none,否则崩溃)
cache_model是否缓存 DiT 模型到内存,True = 第二次运行更快
注意SeedVR2 的 offload_device 参数必须设为「cpu」,不能留空或设为「none」。设为 none 时程序会直接报错崩溃:”Model caching requires offload_device to be set.”

使用注意事项

显存管理

  • 建议英伟达显卡显存8G以上
  • 如显存不足导致 OOM,可尝试将 SeedVR2 的 blocks_to_swap 从 0 适当增大(如 8~16),将部分 DiT 计算块卸载至 CPU
  • SeedVR2 的 cache_model 设为 True 可加速第二次运行,但会多占约 2~4GB 系统内存

参考图质量要求

  • 分辨率建议不低于 512×512,过小的图会导致细节丢失
  • 三张图尽量来自同一人物,差异过大(体型、肤色明显不同)会导致合成混乱
  • 避免使用高度压缩、有明显噪点的图片,会影响 Qwen 的图像理解质量
  • 图片中的人物尽量为独立个体,不要有大量其他人物干扰

提示词技巧

  • 明确描述每张图的内容与对应关系(图1是…,图2是…,图3是…)
  • 指定输出风格:「写实摄影」「白色纯色背景」「全身正面站立」「高清」等
  • 如果生成的人物比例不对,可在提示词中加入「保持正常人体比例」「全身比例正确」
  • 不建议在提示词中描述背景细节,纯色背景场景下越简单越好

常见问题排查

问题现象解决方案
SeedVR2 报 offload_device 错误将 SeedVR2LoadDiTModel 的 offload_device 从 none 改为 cpu
invalid prompt: class_type None工作流包含未注册节点,用文本编辑器删除 JSON 中对应 id 的节点对象后重新加载
Fast Groups 节点缺失通过 ComfyUI-Manager 安装 rgthree-comfy 插件并重启
生成图人物比例失真在提示词中增加全身比例、站姿描述;检查 EmptyLatentImage 的宽高比
SeedVR2 显存溢出(OOM)增大 blocks_to_swap 参数(建议从 8 开始尝试);或将 max_resolution 降低
生成速度很慢确认 LoRA 已正确加载(steps 应在 8 左右即完成);检查是否有其他进程占用 GPU
三张图合成效果差参考图之间差异过大,尝试换用同一套装的不同角度图;优化提示词描述

优化建议

批量生成

将 EmptyLatentImage 的 batch_size 改为 2~4 可同时生成多张,结合随机种子(randomize)可快速筛选最佳结果。但每增加一张 batch 会相应增加显存需求和生成时间。

二次细化

对 SaveImage 输出的结果不满意时,可将其重新载入 LoadImage,使用 img2img 模式(KSampler 的 denoise 调低至 0.5~0.7)进行局部细化,保留整体构图同时优化细节。

SeedVR2 放大参数调优

  • color_correction=lab 效果最自然,如遇肤色偏差可尝试切换为 none
  • input_noise_scale 和 latent_noise_scale 适当调高(0.02~0.05)可让细节更丰富,但过高会引入噪点
  • resolution 设为 2160 可获得更高清结果,但耗时和显存翻倍,需权衡

本工作流将多模态理解模型与扩散生成模型深度结合,在服装展示、AI 写真、虚拟形象合成等场景下具有较强实用价值。合理配置显存参数、提供高质量参考图、写清晰的提示词,是获得理想结果的三个关键要素。

comfyui三参考图生图工作流下载链接

https://pan.quark.cn/s/17f7fd198685

模型文件下载链接:

https://pan.quark.cn/s/186b6dd01260


AI软件用不了?2元爽玩4090: 立即体验>>

热门大语言模型API免费体验: 立即获取>>

软件催更及1对1人工答疑支持: https://nuowa.net/1806
赞(0) 打赏
软件无法使用?点击查看常见问题说明>>

最近更新

LTX2.3+comfyui音频驱动视频生成工作流

这是一个基于 ComfyUI 的 LTX 2.3 音视频同步生成工作流,核心功能是上传一段音频 + 参考图片(可多张图),自动生成与音频内容对应的视频,适合制作人物说话、唱歌等口型同步视频。工作流使用8位量化版ltx2.3模型,显存需求降低...

windows电脑C盘垃圾查找清理软件

电脑用了好几年了,尽管我安装软件从来不主动装到C盘,偶尔也会清理垃圾,但是用的久了,容量也是在慢慢减少。我C盘303G,现在就剩了24G了,已经会影响到系统性能和虚拟内存调度了,已经不能不管了。C盘不装软件的话大多都是缓存,文件太多了,有时...

Mineru PDF转markdown软件局域网版

对于有的电脑配置比较低或是win7系统等电脑无法使用Mineru情况,可以使用局域网内可运行软件的电脑运行Mineru,然后其它电脑或手机等终端输入IP地址,打开运行软件的IP地址来使用Mineru。 具体用法: 下载局域网版压缩包到本地电...

觉得文章对你有帮助就打赏一下作者

非常感谢你的打赏,我将有更多的动力继续提供优质内容,让我们一起创建更加美好的世界!

支付宝扫一扫

微信扫一扫