AI软件下载
有趣网站推荐及实用软件下载

LTX2.3+comfyui分段提示词图片转视频工作流,AI视频带货生成器

再和大家分享一个基于 ComfyUI 的 AI 分段提示词图生视频工作流,本工作流主要基于模型LTX2.3和PromptRelay实现。可使用PromptRelay分时段控制生成不同视频画面或合成语音内容。


📌 工作流简介

本工作流是一套基于 Lightricks LTX-2.3 音视频大模型构建的 ComfyUI 专业级图生视频流水线,核心能力是将一张静态参考图片,结合按时间段分段编写的提示词,生成一段连贯、可控的视频内容。

工作流内置了 NAG 引导增强多 LoRA 叠加两阶段采样+潜空间超分放大三大核心技术模块,并通过可视化时间轴节点(PromptRelayEncodeTimeline)实现提示词随时间变化的精细控制,特别适合需要镜头语言丰富、内容节奏清晰的短视频创作场景。


✨ 核心功能特点

1. 分段时间轴提示词控制

工作流的最大亮点是内置了 Prompt Relay Encode (Timeline) 节点,支持将视频按时间段切分,每段独立编写提示词。

  • 每段可设置不同的镜头语言(中景、特写、推镜等)
  • 每段可设置不同的人物动作、说话内容、画面重点
  • 段与段之间自动平滑过渡,时序连贯性由模型保证
  • 配色区分各段,可视化直观

2. 多 LoRA 叠加增强

工作流同时加载了多个专用 LoRA,各司其职:

LoRA用途
ltx-2.3-22b-distilled-lora蒸馏加速,减少采样步数
Ltx2.3-Licon-VBVR-I2V图生视频,保持参考图特征
Singularity OmniCine运镜风格控制,画面电影感
ltx2.3-ic-subtitles-remove去除视频中的字幕叠加

3. NAG 引导增强

LTX2_NAG 节点(Normalized Attention Guidance)是 LTX-2.3 的专属引导技术,在 CFG=1 的蒸馏模型上提供额外的语义引导能力,弥补低 CFG 下提示词跟随能力弱的问题。

默认参数:

  • nag_scale = 11(引导强度)
  • nag_alpha = 0.25(混合比例)
  • nag_tau = 2.5(温度系数)

4. 两阶段采样流水线

第一阶段:正常分辨率生成,快速出图

  • 采样步数:5步(蒸馏模型)
  • 输出实时预览,每 24 帧刷新一次

第二阶段(默认关闭,可按需开启):潜空间超分放大

  • 使用 ltx-2.3-spatial-upscaler-x2-1.1 将分辨率×2放大
  • 仅用 3~4 步精修 Sigmas,避免过度重绘
  • 保留第一阶段的动态和结构,只增强细节

5. 音视频同步输出

工作流内置了完整的音频处理管道:

  • LTXVAudioVAELoader 加载音频 VAE
  • LTXVEmptyLatentAudio 生成音频潜空间
  • LTXVConcatAVLatent 合并音视频潜空间
  • LTXVAudioVAEDecode 解码音频
  • VHS_VideoCombine 最终合并为带音频的 MP4 文件

6. 智能尺寸自适应

LayerUtility: ImageScaleByAspectRatio V2 节点自动将输入图片:

  • 按原始比例缩放
  • 最长边对齐到用户设定值(默认 1280px)
  • 强制对齐到 32 的倍数(LTX 模型要求)
  • 自动输出宽高值给下游节点使用

🗂️ 所需模型文件清单

使用前请确保以下文件已下载并放置到对应目录:

ComfyUI/models/
├── checkpoints/
│   └── ltx-2.3-22b-dev-fp8.safetensors          # 主模型(必须)
├── loras/
│   ├── ltx-2.3-22b-distilled-lora-384-1.1.safetensors  # 蒸馏LoRA(必须)
│   ├── Ltx2.3-Licon-VBVR-I2V-240K-R32.safetensors      # 图生视频LoRA(必须)
│   ├── Singularity LTX-2.3 OmniCine Preview v0.1.safetensors  # 运镜LoRA
│   └── ltx2.3-ic-subtitles-remove-general.safetensors  # 字幕去除LoRA
├── text_encoders/
│   └── gemma_3_12B_it.safetensors               # 文本编码器(必须)
├── vae/
│   └── taeltx2_3.safetensors                    # Tiny VAE(预览用)
└── latent_upscale_models/
    └── ltx-2.3-spatial-upscaler-x2-1.1.safetensors  # 超分模型(第二阶段用)

所需自定义节点包:

  • ComfyUI-LTXVideo(Lightricks 官方)
  • comfyui-kjnodes(KJ Nodes,含 SageAttention、NAG 等)
  • ComfyUI-PromptRelay(kijai,时间轴提示词节点)
  • comfyui-videohelpersuite(VHS,视频输入输出)
  • comfyui_layerstyle(LayerStyle,图像缩放节点)
  • comfyui-easy-use(Easy Use,辅助节点)

🚀 使用方法

第一步:准备参考图

LoadImage(画布左侧)节点上传一张参考图片。

  • 推荐使用竖版图片(9:16),适合短视频平台
  • 图片中人物的姿势、服装、背景会成为视频的初始帧
  • 图片清晰度越高,生成视频质量越好

第二步:调整用户控制参数

找到画布左侧的用户控制区(黄色分组),只需修改 3 个数值:

时长(秒)  →  建议从 4~5 秒开始测试
帧率        →  保持 24(无需修改)
最长边尺寸  →  建议从 768 开始,满意后再改 1024/1280

第三步:编写提示词

找到 PromptRelayEncodeTimeline 节点(最大的那个节点),修改以下内容:

全局提示词(global_prompt):描述整体画面风格、场景、画质要求,适用于所有帧。

时间轴各段提示词:在节点的可视化时间轴上点击各色块,为每段单独编写提示词。描述该段的:

  • 景别(特写/中景/全景)
  • 人物动作
  • 镜头运动(推/拉/横移)
  • 说话或互动内容

负面提示词(CLIPTextEncode 节点):描述不想出现的内容,默认已包含字幕、水印、抖动、变形等常见负面词,一般无需修改。

第四步:运行工作流

点击 Queue Prompt 开始生成。

  • 第一阶段生成完成后会自动预览视频
  • 对结果满意后,可选中第二阶段节点按 Q 键取消 Bypass,开启超分放大
  • 最终视频保存在 ComfyUI/output/ 目录下

⚙️ 参数调优建议

生成质量 vs 速度平衡

场景最长边时长预期时间(RTX 3080 16G)
快速测试7684秒约 1 分钟
正常使用10246秒约 3 分钟
高质量输出12808~10秒约 8 分钟

LoRA 强度调节

当多个 LoRA 叠加时,总强度过高会导致画面失真或风格混乱,建议:

  • 字幕去除 LoRA:0.5~0.7(勿超过 0.8)
  • 运镜 OmniCine:0.5~0.7(勿超过 0.8)
  • 图生视频 Licon:0.4~0.6
  • 蒸馏 LoRA:0.4~0.5

图片注入强度(strength)

LTXVImgToVideoInplace 节点的 strength 参数控制参考图对视频的影响程度:

  • 值越高 → 视频越贴近参考图,但动态幅度受限
  • 值越低 → 动态更自由,但可能偏离参考图风格
  • 推荐范围:0.55~0.75

⚠️ 注意事项

  • 先更新英伟达显卡驱动到最新版
  • 建议RTX30系列起,8G显存以上
  • 只支持windows 10和11

常见问题

生成的视频人物面部变形 → 降低 OmniCine LoRA 强度至 0.5 以下,或在负面提示词中加入 face warp, face melt

视频段落之间过渡突兀 → 将 PromptRelayEncodeTimeline 的 epsilon 参数从 0.001 调高到 0.05~0.1

显存不足报错 → 先将最长边降至 768,时长缩短至 4 秒;或关闭第二阶段放大

字幕没有被去除 → 字幕去除 LoRA 强度调高至 0.8,并在全局提示词中加入 no subtitles, clean image

运动幅度太小,像幻灯片 → 降低 strength 到 0.55,适当提高 nag_scale 到 12~15

第二阶段放大后细节过度锐化 → 将 LTXVImgToVideoInplace(第二阶段)的 strength 从 0.7 降至 0.4~0.5


🎯 适用场景

电商直播内容生成

最契合本工作流的设计初衷。可为直播预热、商品展示、短视频素材批量生成分段展示视频,降低真人出镜的拍摄成本。

产品展示视频

将产品图片转化为动态展示视频,配合多段提示词控制镜头从全景到特写的自然过渡,适合电商详情页、广告素材制作。

虚拟主播/数字人原型验证

在正式制作前,用静态形象图快速生成动态视频样片,验证动态效果和风格方向是否符合预期。

社交媒体短视频创作

为竖屏短视频平台(抖音、小红书、视频号)批量生成风格统一的内容素材,支持 9:16 竖版输出。

影视分镜预演

用概念图快速生成动态分镜样片,辅助导演或制作团队在正式拍摄前验证镜头语言和场景设计。

企业宣传与品牌内容

将品牌视觉素材转化为动态展示视频,适合发布会、路演、官网主视觉等场景。


工作流整合包下载链接:

https://pan.quark.cn/s/fc0960db52a6

模型下载链接:

https://pan.quark.cn/s/186b6dd01260

工作流里节点提示缺少哪个模型就到网盘里下载哪个模型即可


AI软件用不了?2元爽玩4090: 立即体验>>

热门大语言模型API免费体验: 立即获取>>

软件催更及1对1人工答疑支持: https://nuowa.net/1806
赞(0) 打赏
软件无法使用?点击查看常见问题说明>>

最近更新

windows电脑C盘垃圾查找清理软件

电脑用了好几年了,尽管我安装软件从来不主动装到C盘,偶尔也会清理垃圾,但是用的久了,容量也是在慢慢减少。我C盘303G,现在就剩了24G了,已经会影响到系统性能和虚拟内存调度了,已经不能不管了。C盘不装软件的话大多都是缓存,文件太多了,有时...

Mineru PDF转markdown软件局域网版

对于有的电脑配置比较低或是win7系统等电脑无法使用Mineru情况,可以使用局域网内可运行软件的电脑运行Mineru,然后其它电脑或手机等终端输入IP地址,打开运行软件的IP地址来使用Mineru。 具体用法: 下载局域网版压缩包到本地电...

Studio One Pro 7免费开心版下载-诺瓦小站

Studio One Pro 7免费开心版下载

Studio One 7是一款专业数字音频工作站(DAW)软件,它是音乐制作、混音、母带处理与现场演出一体化的旗舰软件。 ✨ 核心功能 1. AI 智能音轨分离(Stem Separation) AI 驱动的音轨分离功能允许用户将混缩后的音...

觉得文章对你有帮助就打赏一下作者

非常感谢你的打赏,我将有更多的动力继续提供优质内容,让我们一起创建更加美好的世界!

支付宝扫一扫

微信扫一扫