再和大家分享一个基于 ComfyUI 的 AI 分段提示词图生视频工作流,本工作流主要基于模型LTX2.3和PromptRelay实现。可使用PromptRelay分时段控制生成不同视频画面或合成语音内容。
📌 工作流简介
本工作流是一套基于 Lightricks LTX-2.3 音视频大模型构建的 ComfyUI 专业级图生视频流水线,核心能力是将一张静态参考图片,结合按时间段分段编写的提示词,生成一段连贯、可控的视频内容。
工作流内置了 NAG 引导增强、多 LoRA 叠加、两阶段采样+潜空间超分放大三大核心技术模块,并通过可视化时间轴节点(PromptRelayEncodeTimeline)实现提示词随时间变化的精细控制,特别适合需要镜头语言丰富、内容节奏清晰的短视频创作场景。
✨ 核心功能特点
1. 分段时间轴提示词控制
工作流的最大亮点是内置了 Prompt Relay Encode (Timeline) 节点,支持将视频按时间段切分,每段独立编写提示词。
- 每段可设置不同的镜头语言(中景、特写、推镜等)
- 每段可设置不同的人物动作、说话内容、画面重点
- 段与段之间自动平滑过渡,时序连贯性由模型保证
- 配色区分各段,可视化直观
2. 多 LoRA 叠加增强
工作流同时加载了多个专用 LoRA,各司其职:
| LoRA | 用途 |
|---|---|
| ltx-2.3-22b-distilled-lora | 蒸馏加速,减少采样步数 |
| Ltx2.3-Licon-VBVR-I2V | 图生视频,保持参考图特征 |
| Singularity OmniCine | 运镜风格控制,画面电影感 |
| ltx2.3-ic-subtitles-remove | 去除视频中的字幕叠加 |
3. NAG 引导增强
LTX2_NAG 节点(Normalized Attention Guidance)是 LTX-2.3 的专属引导技术,在 CFG=1 的蒸馏模型上提供额外的语义引导能力,弥补低 CFG 下提示词跟随能力弱的问题。
默认参数:
- nag_scale = 11(引导强度)
- nag_alpha = 0.25(混合比例)
- nag_tau = 2.5(温度系数)
4. 两阶段采样流水线
第一阶段:正常分辨率生成,快速出图
- 采样步数:5步(蒸馏模型)
- 输出实时预览,每 24 帧刷新一次
第二阶段(默认关闭,可按需开启):潜空间超分放大
- 使用
ltx-2.3-spatial-upscaler-x2-1.1将分辨率×2放大 - 仅用 3~4 步精修 Sigmas,避免过度重绘
- 保留第一阶段的动态和结构,只增强细节
5. 音视频同步输出
工作流内置了完整的音频处理管道:
LTXVAudioVAELoader加载音频 VAELTXVEmptyLatentAudio生成音频潜空间LTXVConcatAVLatent合并音视频潜空间LTXVAudioVAEDecode解码音频VHS_VideoCombine最终合并为带音频的 MP4 文件
6. 智能尺寸自适应
LayerUtility: ImageScaleByAspectRatio V2 节点自动将输入图片:
- 按原始比例缩放
- 最长边对齐到用户设定值(默认 1280px)
- 强制对齐到 32 的倍数(LTX 模型要求)
- 自动输出宽高值给下游节点使用
🗂️ 所需模型文件清单
使用前请确保以下文件已下载并放置到对应目录:
ComfyUI/models/
├── checkpoints/
│ └── ltx-2.3-22b-dev-fp8.safetensors # 主模型(必须)
├── loras/
│ ├── ltx-2.3-22b-distilled-lora-384-1.1.safetensors # 蒸馏LoRA(必须)
│ ├── Ltx2.3-Licon-VBVR-I2V-240K-R32.safetensors # 图生视频LoRA(必须)
│ ├── Singularity LTX-2.3 OmniCine Preview v0.1.safetensors # 运镜LoRA
│ └── ltx2.3-ic-subtitles-remove-general.safetensors # 字幕去除LoRA
├── text_encoders/
│ └── gemma_3_12B_it.safetensors # 文本编码器(必须)
├── vae/
│ └── taeltx2_3.safetensors # Tiny VAE(预览用)
└── latent_upscale_models/
└── ltx-2.3-spatial-upscaler-x2-1.1.safetensors # 超分模型(第二阶段用)
所需自定义节点包:
ComfyUI-LTXVideo(Lightricks 官方)comfyui-kjnodes(KJ Nodes,含 SageAttention、NAG 等)ComfyUI-PromptRelay(kijai,时间轴提示词节点)comfyui-videohelpersuite(VHS,视频输入输出)comfyui_layerstyle(LayerStyle,图像缩放节点)comfyui-easy-use(Easy Use,辅助节点)
🚀 使用方法
第一步:准备参考图
在 LoadImage(画布左侧)节点上传一张参考图片。
- 推荐使用竖版图片(9:16),适合短视频平台
- 图片中人物的姿势、服装、背景会成为视频的初始帧
- 图片清晰度越高,生成视频质量越好
第二步:调整用户控制参数
找到画布左侧的用户控制区(黄色分组),只需修改 3 个数值:
时长(秒) → 建议从 4~5 秒开始测试
帧率 → 保持 24(无需修改)
最长边尺寸 → 建议从 768 开始,满意后再改 1024/1280
第三步:编写提示词
找到 PromptRelayEncodeTimeline 节点(最大的那个节点),修改以下内容:
全局提示词(global_prompt):描述整体画面风格、场景、画质要求,适用于所有帧。
时间轴各段提示词:在节点的可视化时间轴上点击各色块,为每段单独编写提示词。描述该段的:
- 景别(特写/中景/全景)
- 人物动作
- 镜头运动(推/拉/横移)
- 说话或互动内容
负面提示词(CLIPTextEncode 节点):描述不想出现的内容,默认已包含字幕、水印、抖动、变形等常见负面词,一般无需修改。
第四步:运行工作流
点击 Queue Prompt 开始生成。
- 第一阶段生成完成后会自动预览视频
- 对结果满意后,可选中第二阶段节点按
Q键取消 Bypass,开启超分放大 - 最终视频保存在
ComfyUI/output/目录下
⚙️ 参数调优建议
生成质量 vs 速度平衡
| 场景 | 最长边 | 时长 | 预期时间(RTX 3080 16G) |
|---|---|---|---|
| 快速测试 | 768 | 4秒 | 约 1 分钟 |
| 正常使用 | 1024 | 6秒 | 约 3 分钟 |
| 高质量输出 | 1280 | 8~10秒 | 约 8 分钟 |
LoRA 强度调节
当多个 LoRA 叠加时,总强度过高会导致画面失真或风格混乱,建议:
- 字幕去除 LoRA:0.5~0.7(勿超过 0.8)
- 运镜 OmniCine:0.5~0.7(勿超过 0.8)
- 图生视频 Licon:0.4~0.6
- 蒸馏 LoRA:0.4~0.5
图片注入强度(strength)
LTXVImgToVideoInplace 节点的 strength 参数控制参考图对视频的影响程度:
- 值越高 → 视频越贴近参考图,但动态幅度受限
- 值越低 → 动态更自由,但可能偏离参考图风格
- 推荐范围:0.55~0.75
⚠️ 注意事项
- 先更新英伟达显卡驱动到最新版
- 建议RTX30系列起,8G显存以上
- 只支持windows 10和11
常见问题
生成的视频人物面部变形 → 降低 OmniCine LoRA 强度至 0.5 以下,或在负面提示词中加入 face warp, face melt
视频段落之间过渡突兀 → 将 PromptRelayEncodeTimeline 的 epsilon 参数从 0.001 调高到 0.05~0.1
显存不足报错 → 先将最长边降至 768,时长缩短至 4 秒;或关闭第二阶段放大
字幕没有被去除 → 字幕去除 LoRA 强度调高至 0.8,并在全局提示词中加入 no subtitles, clean image
运动幅度太小,像幻灯片 → 降低 strength 到 0.55,适当提高 nag_scale 到 12~15
第二阶段放大后细节过度锐化 → 将 LTXVImgToVideoInplace(第二阶段)的 strength 从 0.7 降至 0.4~0.5
🎯 适用场景
电商直播内容生成
最契合本工作流的设计初衷。可为直播预热、商品展示、短视频素材批量生成分段展示视频,降低真人出镜的拍摄成本。
产品展示视频
将产品图片转化为动态展示视频,配合多段提示词控制镜头从全景到特写的自然过渡,适合电商详情页、广告素材制作。
虚拟主播/数字人原型验证
在正式制作前,用静态形象图快速生成动态视频样片,验证动态效果和风格方向是否符合预期。
社交媒体短视频创作
为竖屏短视频平台(抖音、小红书、视频号)批量生成风格统一的内容素材,支持 9:16 竖版输出。
影视分镜预演
用概念图快速生成动态分镜样片,辅助导演或制作团队在正式拍摄前验证镜头语言和场景设计。
企业宣传与品牌内容
将品牌视觉素材转化为动态展示视频,适合发布会、路演、官网主视觉等场景。
工作流整合包下载链接:
https://pan.quark.cn/s/fc0960db52a6
模型下载链接:
https://pan.quark.cn/s/186b6dd01260
工作流里节点提示缺少哪个模型就到网盘里下载哪个模型即可
相关推荐
最近更新
LTX2.3+comfyui分段提示词图片转视频工作流,AI视频带货生成器
再和大家分享一个基于 ComfyUI 的 AI 分段提示词图生视频工作流,本工作流主要基于模型LTX2.3和PromptRelay实现。可使用PromptRelay分时段控制生成不同视频画面或合成语音内容。 📌 工作流简介 本工作流是一套基...
windows电脑C盘垃圾查找清理软件
电脑用了好几年了,尽管我安装软件从来不主动装到C盘,偶尔也会清理垃圾,但是用的久了,容量也是在慢慢减少。我C盘303G,现在就剩了24G了,已经会影响到系统性能和虚拟内存调度了,已经不能不管了。C盘不装软件的话大多都是缓存,文件太多了,有时...

LTX2.3+comfyui视频去除字幕水印工作流分享
本次再和大家分享一个视频去字幕水印的comfyui工作流,工作流基于LTX2.3视频生成模型制作。LTX2.3是最新最强的视频生成模型,我前段时间就分享过了,可以看我另一篇文章:https://nuowa.net/2525,comfyui项...

多人对话声音克隆语音合成工具Chatterbox TTS免安装版,AI实时文字转语音
Chatterbox 是由 Resemble AI 开发的开源文本转语音(Text-to-Speech, TTS)模型,支持零样本音色克隆:只需提供一段参考音频(几秒钟的人声),即可模仿该音色朗读任意文本。我基于最新版源码制作了免安装一键启...
Mineru PDF转markdown软件局域网版
对于有的电脑配置比较低或是win7系统等电脑无法使用Mineru情况,可以使用局域网内可运行软件的电脑运行Mineru,然后其它电脑或手机等终端输入IP地址,打开运行软件的IP地址来使用Mineru。 具体用法: 下载局域网版压缩包到本地电...

OmniSVG:统一的可缩放矢量图形生成软件
OmniSVG 是一个基于视觉-语言模型(VLM)的端到端多模态 SVG(可缩放矢量图形)生成框架,由 OpenVGLab 团队开发。该项目能够从文本描述或参考图像生成高质量的 SVG 矢量图形,覆盖从简单图标...

AI实时变声器Voice Changer2.1.4 CUDA版下载,高质量RVC变声软件
Voice Changer是一款实时 AI 变声工具,允许你通过多种 AI 声音模型(如 RVC 和 Beatrice)实时转换声音。转换延迟更低,是目前社区中最受欢迎的开源实时变声方案之一。 核心特点 1. 实时性 voice-chang...

Studio One Pro 7免费开心版下载
Studio One 7是一款专业数字音频工作站(DAW)软件,它是音乐制作、混音、母带处理与现场演出一体化的旗舰软件。 ✨ 核心功能 1. AI 智能音轨分离(Stem Separation) AI 驱动的音轨分离功能允许用户将混缩后的音...
PDF转Markdown软件MinerU 3.1.11整合包(高性能版)
MinerU是一款非常热门的PDF、图片、DOCX、PPTX、XLSX转markdown格式软件,转换效果属于同类软件中比较优秀的一个。当前最新版为3.1.11版本,我基于最新版源码制作了免安装一键启动整合包,并做适当优化及修改,详情查看链...
阿里千问Qwen3-TTS声音克隆语音合成软件【低配电脑版】
阿里千问Qwen3-TTS是一款热门的语音合成及声音克隆软件,我基于当前最新版制作了免安装一键启动整合包,并增加多人对话语音合成功能。 此版本为低配显卡电脑版,软件使用0.6B模型,模型尺寸略小,对电脑显卡配置要求也更小,但是质量不会差太多...













