再和大家分享一个基于 ComfyUI 的 AI 分段提示词图生视频工作流,本工作流主要基于模型LTX2.3和PromptRelay实现。可使用PromptRelay分时段控制生成不同视频画面或合成语音内容。
📌 工作流简介
本工作流是一套基于 Lightricks LTX-2.3 音视频大模型构建的 ComfyUI 专业级图生视频流水线,核心能力是将一张静态参考图片,结合按时间段分段编写的提示词,生成一段连贯、可控的视频内容。
工作流内置了 NAG 引导增强、多 LoRA 叠加、两阶段采样+潜空间超分放大三大核心技术模块,并通过可视化时间轴节点(PromptRelayEncodeTimeline)实现提示词随时间变化的精细控制,特别适合需要镜头语言丰富、内容节奏清晰的短视频创作场景。
✨ 核心功能特点
1. 分段时间轴提示词控制
工作流的最大亮点是内置了 Prompt Relay Encode (Timeline) 节点,支持将视频按时间段切分,每段独立编写提示词。
- 每段可设置不同的镜头语言(中景、特写、推镜等)
- 每段可设置不同的人物动作、说话内容、画面重点
- 段与段之间自动平滑过渡,时序连贯性由模型保证
- 配色区分各段,可视化直观
2. 多 LoRA 叠加增强
工作流同时加载了多个专用 LoRA,各司其职:
| LoRA | 用途 |
|---|---|
| ltx-2.3-22b-distilled-lora | 蒸馏加速,减少采样步数 |
| Ltx2.3-Licon-VBVR-I2V | 图生视频,保持参考图特征 |
| Singularity OmniCine | 运镜风格控制,画面电影感 |
| ltx2.3-ic-subtitles-remove | 去除视频中的字幕叠加 |
3. NAG 引导增强
LTX2_NAG 节点(Normalized Attention Guidance)是 LTX-2.3 的专属引导技术,在 CFG=1 的蒸馏模型上提供额外的语义引导能力,弥补低 CFG 下提示词跟随能力弱的问题。
默认参数:
- nag_scale = 11(引导强度)
- nag_alpha = 0.25(混合比例)
- nag_tau = 2.5(温度系数)
4. 两阶段采样流水线
第一阶段:正常分辨率生成,快速出图
- 采样步数:5步(蒸馏模型)
- 输出实时预览,每 24 帧刷新一次
第二阶段(默认关闭,可按需开启):潜空间超分放大
- 使用
ltx-2.3-spatial-upscaler-x2-1.1将分辨率×2放大 - 仅用 3~4 步精修 Sigmas,避免过度重绘
- 保留第一阶段的动态和结构,只增强细节
5. 音视频同步输出
工作流内置了完整的音频处理管道:
LTXVAudioVAELoader加载音频 VAELTXVEmptyLatentAudio生成音频潜空间LTXVConcatAVLatent合并音视频潜空间LTXVAudioVAEDecode解码音频VHS_VideoCombine最终合并为带音频的 MP4 文件
6. 智能尺寸自适应
LayerUtility: ImageScaleByAspectRatio V2 节点自动将输入图片:
- 按原始比例缩放
- 最长边对齐到用户设定值(默认 1280px)
- 强制对齐到 32 的倍数(LTX 模型要求)
- 自动输出宽高值给下游节点使用
🗂️ 所需模型文件清单
使用前请确保以下文件已下载并放置到对应目录:
ComfyUI/models/
├── checkpoints/
│ └── ltx-2.3-22b-dev-fp8.safetensors # 主模型(必须)
├── loras/
│ ├── ltx-2.3-22b-distilled-lora-384-1.1.safetensors # 蒸馏LoRA(必须)
│ ├── Ltx2.3-Licon-VBVR-I2V-240K-R32.safetensors # 图生视频LoRA(必须)
│ ├── Singularity LTX-2.3 OmniCine Preview v0.1.safetensors # 运镜LoRA
│ └── ltx2.3-ic-subtitles-remove-general.safetensors # 字幕去除LoRA
├── text_encoders/
│ └── gemma_3_12B_it.safetensors # 文本编码器(必须)
├── vae/
│ └── taeltx2_3.safetensors # Tiny VAE(预览用)
└── latent_upscale_models/
└── ltx-2.3-spatial-upscaler-x2-1.1.safetensors # 超分模型(第二阶段用)
所需自定义节点包:
ComfyUI-LTXVideo(Lightricks 官方)comfyui-kjnodes(KJ Nodes,含 SageAttention、NAG 等)ComfyUI-PromptRelay(kijai,时间轴提示词节点)comfyui-videohelpersuite(VHS,视频输入输出)comfyui_layerstyle(LayerStyle,图像缩放节点)comfyui-easy-use(Easy Use,辅助节点)
🚀 使用方法
第一步:准备参考图
在 LoadImage(画布左侧)节点上传一张参考图片。
- 推荐使用竖版图片(9:16),适合短视频平台
- 图片中人物的姿势、服装、背景会成为视频的初始帧
- 图片清晰度越高,生成视频质量越好
第二步:调整用户控制参数
找到画布左侧的用户控制区(黄色分组),只需修改 3 个数值:
时长(秒) → 建议从 4~5 秒开始测试
帧率 → 保持 24(无需修改)
最长边尺寸 → 建议从 768 开始,满意后再改 1024/1280
第三步:编写提示词
找到 PromptRelayEncodeTimeline 节点(最大的那个节点),修改以下内容:
全局提示词(global_prompt):描述整体画面风格、场景、画质要求,适用于所有帧。
时间轴各段提示词:在节点的可视化时间轴上点击各色块,为每段单独编写提示词。描述该段的:
- 景别(特写/中景/全景)
- 人物动作
- 镜头运动(推/拉/横移)
- 说话或互动内容
负面提示词(CLIPTextEncode 节点):描述不想出现的内容,默认已包含字幕、水印、抖动、变形等常见负面词,一般无需修改。
第四步:运行工作流
点击 Queue Prompt 开始生成。
- 第一阶段生成完成后会自动预览视频
- 对结果满意后,可选中第二阶段节点按
Q键取消 Bypass,开启超分放大 - 最终视频保存在
ComfyUI/output/目录下
⚙️ 参数调优建议
生成质量 vs 速度平衡
| 场景 | 最长边 | 时长 | 预期时间(RTX 3080 16G) |
|---|---|---|---|
| 快速测试 | 768 | 4秒 | 约 1 分钟 |
| 正常使用 | 1024 | 6秒 | 约 3 分钟 |
| 高质量输出 | 1280 | 8~10秒 | 约 8 分钟 |
LoRA 强度调节
当多个 LoRA 叠加时,总强度过高会导致画面失真或风格混乱,建议:
- 字幕去除 LoRA:0.5~0.7(勿超过 0.8)
- 运镜 OmniCine:0.5~0.7(勿超过 0.8)
- 图生视频 Licon:0.4~0.6
- 蒸馏 LoRA:0.4~0.5
图片注入强度(strength)
LTXVImgToVideoInplace 节点的 strength 参数控制参考图对视频的影响程度:
- 值越高 → 视频越贴近参考图,但动态幅度受限
- 值越低 → 动态更自由,但可能偏离参考图风格
- 推荐范围:0.55~0.75
⚠️ 注意事项
- 先更新英伟达显卡驱动到最新版
- 建议RTX30系列起,8G显存以上
- 只支持windows 10和11
常见问题
生成的视频人物面部变形 → 降低 OmniCine LoRA 强度至 0.5 以下,或在负面提示词中加入 face warp, face melt
视频段落之间过渡突兀 → 将 PromptRelayEncodeTimeline 的 epsilon 参数从 0.001 调高到 0.05~0.1
显存不足报错 → 先将最长边降至 768,时长缩短至 4 秒;或关闭第二阶段放大
字幕没有被去除 → 字幕去除 LoRA 强度调高至 0.8,并在全局提示词中加入 no subtitles, clean image
运动幅度太小,像幻灯片 → 降低 strength 到 0.55,适当提高 nag_scale 到 12~15
第二阶段放大后细节过度锐化 → 将 LTXVImgToVideoInplace(第二阶段)的 strength 从 0.7 降至 0.4~0.5
🎯 适用场景
电商直播内容生成
最契合本工作流的设计初衷。可为直播预热、商品展示、短视频素材批量生成分段展示视频,降低真人出镜的拍摄成本。
产品展示视频
将产品图片转化为动态展示视频,配合多段提示词控制镜头从全景到特写的自然过渡,适合电商详情页、广告素材制作。
虚拟主播/数字人原型验证
在正式制作前,用静态形象图快速生成动态视频样片,验证动态效果和风格方向是否符合预期。
社交媒体短视频创作
为竖屏短视频平台(抖音、小红书、视频号)批量生成风格统一的内容素材,支持 9:16 竖版输出。
影视分镜预演
用概念图快速生成动态分镜样片,辅助导演或制作团队在正式拍摄前验证镜头语言和场景设计。
企业宣传与品牌内容
将品牌视觉素材转化为动态展示视频,适合发布会、路演、官网主视觉等场景。
工作流整合包下载链接:
https://pan.quark.cn/s/fc0960db52a6
模型下载链接:
https://pan.quark.cn/s/186b6dd01260
工作流里节点提示缺少哪个模型就到网盘里下载哪个模型即可
相关推荐
最近更新

蛙蛙写作-能替你"打工"的AI写作平台,附邀请码:UZekHC
我不是一个容易被工具说服的人。用过 ChatGPT、试过各种”AI写作神器”,大多数要么写出来全是机翻腔,要么根本不懂网文的爆款逻辑。 直到我开始用蛙蛙写作,才发现原来一个工具真的可以懂你想写什么。 🐸 蛙蛙写作是什...

PDFMathTranslate + MinerU 批量PDF全文双语翻译转Markdown工具
本工具是一款基于 PDFMathTranslate 与 MinerU 整合的桌面端 PDF 翻译工具,通过简洁的 Web 界面实现一键式 PDF 全文双语翻译,并可选择将翻译结果导出为 Markdown 格式,方便导入知识库或进行二次编辑。...

Claude居然自称“本人”
今天在和Claude聊网文写作的时候,Claude回复中居然自称本人,这让我有点震惊。 我经常会和AI聊工具功能对比等话题,ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的,好像都是本模型,本工具等等,反正从来没...

图像无损放大神器:Topaz Gigapixel AI软件下载及使用指南
在数字内容创作成风头的今天,我们经常会遇到低分辨率素材模糊、AI 生成图片尺寸太小、或者老照片充满噪点的情况。传统的图像放大方式(如双三次插值)只是单纯地拉伸像素,容易让画面变得模糊、虚化。 如果你正在寻找一种能“凭空”补齐细节、让低画质瞬...

AI视频提示词反推工具,参考视频即梦提示词一键生成
本工具是一款面向 AI 视频生成创作者的本地离线辅助软件。用户导入任意视频文件,工具会自动完成场景检测、关键帧提取、多模态模型分析、提示词拼装等全流程,最终输出一份可直接复制粘贴到即梦 AI 等视频生成平台的完整提示词。 适用场景 功能特点...
免费在线HTML转markdown工具
经常看一些在线文档,想复制给AI参考的话不方便直接复制,转换成markdown再给AI阅读会更简单明了,也方便自己查阅,这里给大家推荐两个在线的免费HTML转markdown网站。 1、https://d1tools.com/tools/c...

闲鱼自动回复机器人XianyuAutoAgent下载,24小时在线智能客服机器人系统
XianyuAutoAgent是一款面向闲鱼平台的智能化自动回复机器人,利用大语言模型自动识别买家意图并生成专业回复,实现 7×24 小时智能客服。 主要功能 1. 智能自动回复 2. 可视化 Web UI 3. 人工接管模式 4. 安全防...

AI漫剧制作即梦seedance2.0教程及提示词2026年5月最新版分享
AI视频依旧持续火爆,各种类型的AI视频层出不穷,视频效果也是越来越好,甚至快接近影视级,目前最主要的AI视频生成工具还是即梦,即梦 Seedance 2.0生成视频一秒钟都到2块多钱了😂,不过也没办法,还是得用,目前还没能有替代即梦see...

AI实时语音聊天对话系统,外语口语陪练/虚拟好友实时语音交流
AI 实时语音对话系统 是一款集语音识别(ASR)、大语言模型(LLM)对话、语音合成(TTS)于一体的实时语音交互软件。用户通过麦克风说话,系统自动识别语音内容并转为文字,交由 AI 角色进行智能回复,最终将回复内容合成为语音实时播放,实...

ComfyUI 三参考图生图工作流,虚拟试衣、换脸、图片内容整合
本工作流核心能力是将三张不同角度、内容的参考图,通过 AI 理解融合,生成一张新的图像,新图像内容根据描述词指令生成。工作流集成了阿里巴巴的 Qwen2.5-VL 多模态大模型(图像编辑版本)与 SeedVR2 超分辨率放大模型,实现了「理...














