LTX2.3+comfyui分段提示词图片转视频工作流，AI视频带货生成器-诺瓦小站

再和大家分享一个基于 ComfyUI 的 AI 分段提示词图生视频工作流，本工作流主要基于模型LTX2.3和PromptRelay实现。可使用PromptRelay分时段控制生成不同视频画面或合成语音内容。

📌 工作流简介

本工作流是一套基于 Lightricks LTX-2.3 音视频大模型构建的 ComfyUI 专业级图生视频流水线，核心能力是将一张静态参考图片，结合按时间段分段编写的提示词，生成一段连贯、可控的视频内容。

工作流内置了 NAG 引导增强、多 LoRA 叠加、两阶段采样+潜空间超分放大三大核心技术模块，并通过可视化时间轴节点（PromptRelayEncodeTimeline）实现提示词随时间变化的精细控制，特别适合需要镜头语言丰富、内容节奏清晰的短视频创作场景。

✨ 核心功能特点

1. 分段时间轴提示词控制

工作流的最大亮点是内置了 Prompt Relay Encode (Timeline) 节点，支持将视频按时间段切分，每段独立编写提示词。

每段可设置不同的镜头语言（中景、特写、推镜等）
每段可设置不同的人物动作、说话内容、画面重点
段与段之间自动平滑过渡，时序连贯性由模型保证
配色区分各段，可视化直观

2. 多 LoRA 叠加增强

工作流同时加载了多个专用 LoRA，各司其职：

LoRA	用途
ltx-2.3-22b-distilled-lora	蒸馏加速，减少采样步数
Ltx2.3-Licon-VBVR-I2V	图生视频，保持参考图特征
Singularity OmniCine	运镜风格控制，画面电影感
ltx2.3-ic-subtitles-remove	去除视频中的字幕叠加

3. NAG 引导增强

LTX2_NAG 节点（Normalized Attention Guidance）是 LTX-2.3 的专属引导技术，在 CFG=1 的蒸馏模型上提供额外的语义引导能力，弥补低 CFG 下提示词跟随能力弱的问题。

默认参数：

nag_scale = 11（引导强度）
nag_alpha = 0.25（混合比例）
nag_tau = 2.5（温度系数）

4. 两阶段采样流水线

第一阶段：正常分辨率生成，快速出图

采样步数：5步（蒸馏模型）
输出实时预览，每 24 帧刷新一次

第二阶段（默认关闭，可按需开启）：潜空间超分放大

使用 ltx-2.3-spatial-upscaler-x2-1.1 将分辨率×2放大
仅用 3~4 步精修 Sigmas，避免过度重绘
保留第一阶段的动态和结构，只增强细节

5. 音视频同步输出

工作流内置了完整的音频处理管道：

LTXVAudioVAELoader 加载音频 VAE
LTXVEmptyLatentAudio 生成音频潜空间
LTXVConcatAVLatent 合并音视频潜空间
LTXVAudioVAEDecode 解码音频
VHS_VideoCombine 最终合并为带音频的 MP4 文件

6. 智能尺寸自适应

LayerUtility: ImageScaleByAspectRatio V2 节点自动将输入图片：

按原始比例缩放
最长边对齐到用户设定值（默认 1280px）
强制对齐到 32 的倍数（LTX 模型要求）
自动输出宽高值给下游节点使用

🗂️ 所需模型文件清单

使用前请确保以下文件已下载并放置到对应目录：

ComfyUI/models/
├── checkpoints/
│   └── ltx-2.3-22b-dev-fp8.safetensors          # 主模型（必须）
├── loras/
│   ├── ltx-2.3-22b-distilled-lora-384-1.1.safetensors  # 蒸馏LoRA（必须）
│   ├── Ltx2.3-Licon-VBVR-I2V-240K-R32.safetensors      # 图生视频LoRA（必须）
│   ├── Singularity LTX-2.3 OmniCine Preview v0.1.safetensors  # 运镜LoRA
│   └── ltx2.3-ic-subtitles-remove-general.safetensors  # 字幕去除LoRA
├── text_encoders/
│   └── gemma_3_12B_it.safetensors               # 文本编码器（必须）
├── vae/
│   └── taeltx2_3.safetensors                    # Tiny VAE（预览用）
└── latent_upscale_models/
    └── ltx-2.3-spatial-upscaler-x2-1.1.safetensors  # 超分模型（第二阶段用）

所需自定义节点包：

ComfyUI-LTXVideo（Lightricks 官方）
comfyui-kjnodes（KJ Nodes，含 SageAttention、NAG 等）
ComfyUI-PromptRelay（kijai，时间轴提示词节点）
comfyui-videohelpersuite（VHS，视频输入输出）
comfyui_layerstyle（LayerStyle，图像缩放节点）
comfyui-easy-use（Easy Use，辅助节点）

🚀 使用方法

第一步：准备参考图

在 LoadImage（画布左侧）节点上传一张参考图片。

推荐使用竖版图片（9:16），适合短视频平台
图片中人物的姿势、服装、背景会成为视频的初始帧
图片清晰度越高，生成视频质量越好

第二步：调整用户控制参数

找到画布左侧的用户控制区（黄色分组），只需修改 3 个数值：

时长（秒）  →  建议从 4~5 秒开始测试
帧率        →  保持 24（无需修改）
最长边尺寸  →  建议从 768 开始，满意后再改 1024/1280

第三步：编写提示词

找到 PromptRelayEncodeTimeline 节点（最大的那个节点），修改以下内容：

全局提示词（global_prompt）：描述整体画面风格、场景、画质要求，适用于所有帧。

时间轴各段提示词：在节点的可视化时间轴上点击各色块，为每段单独编写提示词。描述该段的：

景别（特写/中景/全景）
人物动作
镜头运动（推/拉/横移）
说话或互动内容

负面提示词（CLIPTextEncode 节点）：描述不想出现的内容，默认已包含字幕、水印、抖动、变形等常见负面词，一般无需修改。

第四步：运行工作流

点击 Queue Prompt 开始生成。

第一阶段生成完成后会自动预览视频
对结果满意后，可选中第二阶段节点按 Q 键取消 Bypass，开启超分放大
最终视频保存在 ComfyUI/output/ 目录下

⚙️ 参数调优建议

生成质量 vs 速度平衡

场景	最长边	时长	预期时间（RTX 3080 16G）
快速测试	768	4秒	约 1 分钟
正常使用	1024	6秒	约 3 分钟
高质量输出	1280	8~10秒	约 8 分钟

LoRA 强度调节

当多个 LoRA 叠加时，总强度过高会导致画面失真或风格混乱，建议：

字幕去除 LoRA：0.5~0.7（勿超过 0.8）
运镜 OmniCine：0.5~0.7（勿超过 0.8）
图生视频 Licon：0.4~0.6
蒸馏 LoRA：0.4~0.5

图片注入强度（strength）

LTXVImgToVideoInplace 节点的 strength 参数控制参考图对视频的影响程度：

值越高 → 视频越贴近参考图，但动态幅度受限
值越低 → 动态更自由，但可能偏离参考图风格
推荐范围：0.55~0.75

⚠️ 注意事项

先更新英伟达显卡驱动到最新版
建议RTX30系列起，8G显存以上
只支持windows 10和11

常见问题

生成的视频人物面部变形 → 降低 OmniCine LoRA 强度至 0.5 以下，或在负面提示词中加入 face warp, face melt

视频段落之间过渡突兀 → 将 PromptRelayEncodeTimeline 的 epsilon 参数从 0.001 调高到 0.05~0.1

显存不足报错 → 先将最长边降至 768，时长缩短至 4 秒；或关闭第二阶段放大

字幕没有被去除 → 字幕去除 LoRA 强度调高至 0.8，并在全局提示词中加入 no subtitles, clean image

运动幅度太小，像幻灯片 → 降低 strength 到 0.55，适当提高 nag_scale 到 12~15

第二阶段放大后细节过度锐化 → 将 LTXVImgToVideoInplace（第二阶段）的 strength 从 0.7 降至 0.4~0.5

🎯 适用场景

电商直播内容生成

最契合本工作流的设计初衷。可为直播预热、商品展示、短视频素材批量生成分段展示视频，降低真人出镜的拍摄成本。

产品展示视频

将产品图片转化为动态展示视频，配合多段提示词控制镜头从全景到特写的自然过渡，适合电商详情页、广告素材制作。

虚拟主播/数字人原型验证

在正式制作前，用静态形象图快速生成动态视频样片，验证动态效果和风格方向是否符合预期。

社交媒体短视频创作

为竖屏短视频平台（抖音、小红书、视频号）批量生成风格统一的内容素材，支持 9:16 竖版输出。

影视分镜预演

用概念图快速生成动态分镜样片，辅助导演或制作团队在正式拍摄前验证镜头语言和场景设计。

企业宣传与品牌内容

将品牌视觉素材转化为动态展示视频，适合发布会、路演、官网主视觉等场景。

工作流整合包下载链接：

https://pan.quark.cn/s/fc0960db52a6

模型下载链接：

https://pan.quark.cn/s/186b6dd01260

工作流里节点提示缺少哪个模型就到网盘里下载哪个模型即可

AI软件用不了？2元爽玩4090：立即体验>>

热门大语言模型API免费体验：立即获取>>

软件催更及1对1人工答疑支持： https://nuowa.net/1806