再和大家分享一个基于 ComfyUI 的 AI 分段提示词图生视频工作流,本工作流主要基于模型LTX2.3和PromptRelay实现。可使用PromptRelay分时段控制生成不同视频画面或合成语音内容。
📌 工作流简介
本工作流是一套基于 Lightricks LTX-2.3 音视频大模型构建的 ComfyUI 专业级图生视频流水线,核心能力是将一张静态参考图片,结合按时间段分段编写的提示词,生成一段连贯、可控的视频内容。
工作流内置了 NAG 引导增强、多 LoRA 叠加、两阶段采样+潜空间超分放大三大核心技术模块,并通过可视化时间轴节点(PromptRelayEncodeTimeline)实现提示词随时间变化的精细控制,特别适合需要镜头语言丰富、内容节奏清晰的短视频创作场景。
✨ 核心功能特点
1. 分段时间轴提示词控制
工作流的最大亮点是内置了 Prompt Relay Encode (Timeline) 节点,支持将视频按时间段切分,每段独立编写提示词。
- 每段可设置不同的镜头语言(中景、特写、推镜等)
- 每段可设置不同的人物动作、说话内容、画面重点
- 段与段之间自动平滑过渡,时序连贯性由模型保证
- 配色区分各段,可视化直观
2. 多 LoRA 叠加增强
工作流同时加载了多个专用 LoRA,各司其职:
| LoRA | 用途 |
|---|---|
| ltx-2.3-22b-distilled-lora | 蒸馏加速,减少采样步数 |
| Ltx2.3-Licon-VBVR-I2V | 图生视频,保持参考图特征 |
| Singularity OmniCine | 运镜风格控制,画面电影感 |
| ltx2.3-ic-subtitles-remove | 去除视频中的字幕叠加 |
3. NAG 引导增强
LTX2_NAG 节点(Normalized Attention Guidance)是 LTX-2.3 的专属引导技术,在 CFG=1 的蒸馏模型上提供额外的语义引导能力,弥补低 CFG 下提示词跟随能力弱的问题。
默认参数:
- nag_scale = 11(引导强度)
- nag_alpha = 0.25(混合比例)
- nag_tau = 2.5(温度系数)
4. 两阶段采样流水线
第一阶段:正常分辨率生成,快速出图
- 采样步数:5步(蒸馏模型)
- 输出实时预览,每 24 帧刷新一次
第二阶段(默认关闭,可按需开启):潜空间超分放大
- 使用
ltx-2.3-spatial-upscaler-x2-1.1将分辨率×2放大 - 仅用 3~4 步精修 Sigmas,避免过度重绘
- 保留第一阶段的动态和结构,只增强细节
5. 音视频同步输出
工作流内置了完整的音频处理管道:
LTXVAudioVAELoader加载音频 VAELTXVEmptyLatentAudio生成音频潜空间LTXVConcatAVLatent合并音视频潜空间LTXVAudioVAEDecode解码音频VHS_VideoCombine最终合并为带音频的 MP4 文件
6. 智能尺寸自适应
LayerUtility: ImageScaleByAspectRatio V2 节点自动将输入图片:
- 按原始比例缩放
- 最长边对齐到用户设定值(默认 1280px)
- 强制对齐到 32 的倍数(LTX 模型要求)
- 自动输出宽高值给下游节点使用
🗂️ 所需模型文件清单
使用前请确保以下文件已下载并放置到对应目录:
ComfyUI/models/
├── checkpoints/
│ └── ltx-2.3-22b-dev-fp8.safetensors # 主模型(必须)
├── loras/
│ ├── ltx-2.3-22b-distilled-lora-384-1.1.safetensors # 蒸馏LoRA(必须)
│ ├── Ltx2.3-Licon-VBVR-I2V-240K-R32.safetensors # 图生视频LoRA(必须)
│ ├── Singularity LTX-2.3 OmniCine Preview v0.1.safetensors # 运镜LoRA
│ └── ltx2.3-ic-subtitles-remove-general.safetensors # 字幕去除LoRA
├── text_encoders/
│ └── gemma_3_12B_it.safetensors # 文本编码器(必须)
├── vae/
│ └── taeltx2_3.safetensors # Tiny VAE(预览用)
└── latent_upscale_models/
└── ltx-2.3-spatial-upscaler-x2-1.1.safetensors # 超分模型(第二阶段用)
所需自定义节点包:
ComfyUI-LTXVideo(Lightricks 官方)comfyui-kjnodes(KJ Nodes,含 SageAttention、NAG 等)ComfyUI-PromptRelay(kijai,时间轴提示词节点)comfyui-videohelpersuite(VHS,视频输入输出)comfyui_layerstyle(LayerStyle,图像缩放节点)comfyui-easy-use(Easy Use,辅助节点)
🚀 使用方法
第一步:准备参考图
在 LoadImage(画布左侧)节点上传一张参考图片。
- 推荐使用竖版图片(9:16),适合短视频平台
- 图片中人物的姿势、服装、背景会成为视频的初始帧
- 图片清晰度越高,生成视频质量越好
第二步:调整用户控制参数
找到画布左侧的用户控制区(黄色分组),只需修改 3 个数值:
时长(秒) → 建议从 4~5 秒开始测试
帧率 → 保持 24(无需修改)
最长边尺寸 → 建议从 768 开始,满意后再改 1024/1280
第三步:编写提示词
找到 PromptRelayEncodeTimeline 节点(最大的那个节点),修改以下内容:
全局提示词(global_prompt):描述整体画面风格、场景、画质要求,适用于所有帧。
时间轴各段提示词:在节点的可视化时间轴上点击各色块,为每段单独编写提示词。描述该段的:
- 景别(特写/中景/全景)
- 人物动作
- 镜头运动(推/拉/横移)
- 说话或互动内容
负面提示词(CLIPTextEncode 节点):描述不想出现的内容,默认已包含字幕、水印、抖动、变形等常见负面词,一般无需修改。
第四步:运行工作流
点击 Queue Prompt 开始生成。
- 第一阶段生成完成后会自动预览视频
- 对结果满意后,可选中第二阶段节点按
Q键取消 Bypass,开启超分放大 - 最终视频保存在
ComfyUI/output/目录下
⚙️ 参数调优建议
生成质量 vs 速度平衡
| 场景 | 最长边 | 时长 | 预期时间(RTX 3080 16G) |
|---|---|---|---|
| 快速测试 | 768 | 4秒 | 约 1 分钟 |
| 正常使用 | 1024 | 6秒 | 约 3 分钟 |
| 高质量输出 | 1280 | 8~10秒 | 约 8 分钟 |
LoRA 强度调节
当多个 LoRA 叠加时,总强度过高会导致画面失真或风格混乱,建议:
- 字幕去除 LoRA:0.5~0.7(勿超过 0.8)
- 运镜 OmniCine:0.5~0.7(勿超过 0.8)
- 图生视频 Licon:0.4~0.6
- 蒸馏 LoRA:0.4~0.5
图片注入强度(strength)
LTXVImgToVideoInplace 节点的 strength 参数控制参考图对视频的影响程度:
- 值越高 → 视频越贴近参考图,但动态幅度受限
- 值越低 → 动态更自由,但可能偏离参考图风格
- 推荐范围:0.55~0.75
⚠️ 注意事项
- 先更新英伟达显卡驱动到最新版
- 建议RTX30系列起,8G显存以上
- 只支持windows 10和11
常见问题
生成的视频人物面部变形 → 降低 OmniCine LoRA 强度至 0.5 以下,或在负面提示词中加入 face warp, face melt
视频段落之间过渡突兀 → 将 PromptRelayEncodeTimeline 的 epsilon 参数从 0.001 调高到 0.05~0.1
显存不足报错 → 先将最长边降至 768,时长缩短至 4 秒;或关闭第二阶段放大
字幕没有被去除 → 字幕去除 LoRA 强度调高至 0.8,并在全局提示词中加入 no subtitles, clean image
运动幅度太小,像幻灯片 → 降低 strength 到 0.55,适当提高 nag_scale 到 12~15
第二阶段放大后细节过度锐化 → 将 LTXVImgToVideoInplace(第二阶段)的 strength 从 0.7 降至 0.4~0.5
🎯 适用场景
电商直播内容生成
最契合本工作流的设计初衷。可为直播预热、商品展示、短视频素材批量生成分段展示视频,降低真人出镜的拍摄成本。
产品展示视频
将产品图片转化为动态展示视频,配合多段提示词控制镜头从全景到特写的自然过渡,适合电商详情页、广告素材制作。
虚拟主播/数字人原型验证
在正式制作前,用静态形象图快速生成动态视频样片,验证动态效果和风格方向是否符合预期。
社交媒体短视频创作
为竖屏短视频平台(抖音、小红书、视频号)批量生成风格统一的内容素材,支持 9:16 竖版输出。
影视分镜预演
用概念图快速生成动态分镜样片,辅助导演或制作团队在正式拍摄前验证镜头语言和场景设计。
企业宣传与品牌内容
将品牌视觉素材转化为动态展示视频,适合发布会、路演、官网主视觉等场景。
工作流整合包下载链接:
https://pan.quark.cn/s/fc0960db52a6
模型下载链接:
https://pan.quark.cn/s/186b6dd01260
工作流里节点提示缺少哪个模型就到网盘里下载哪个模型即可
相关推荐
最近更新

AutoVidDub支持分角色配音的全自动视频翻译配音加字幕工具
支持分角色配音的全自动流水线,一键将外语视频转为带母语配音和双语字幕的目标语言视频。 一、软件简介 AutoVidDub 是一套运行在本地 GPU 上的全自动视频翻译配音工具。你只需提供一个视频文件,它就能自动完成以下全部工序: 二、核心功...

极速轻便声音克隆语音合成软件MOSS-TTS-Nano整合包,CPU可流畅运行
一、项目概述 MOSS-TTS-Nano 是由 MOSI.AI 与 OpenMOSS 团队 联合开发的开源多语言小模型语音合成系统。模型参数量仅 0.1B,专为实时语音生成场景设计,无需 GPU 即可在 CPU 上直接运行,适合本地演示、W...

最强分说话人语音识别工具,支持批量音视频识别转字幕,字幕翻译内容总结
本软件是一款基于 Qwen3-ASR-1.7B 大模型的本地音视频语音识别工具,配备说话人分离功能,可在个人电脑上实现: 整个流程通过简洁的 Gradio Web 界面 操作,点击按钮即可完成识别与导出。 主要功能特点 1. 单文件识别与批...

最强PR中文视频自动语音识别生成字幕插件,语音识别准确率高支持多国语言
上次和大家分享了PR非常好用的自动剪辑口播视频静音片段插件,如果想要自动生成视频字幕的话,用PR自带的语音识别转字幕工具,效果非常差,语音识别准确率非常低,识别的文本差太多手动修改起来极其麻烦,反而更加浪费时间了。为了提高工作效率,降低人工...

祝贺凡人修仙传2026年新年番开播同时在线人数超64万
今天6月13日凡人修仙传新年番开播,同时在线人数破64万(非最高在线人数,只是我看到的在线人数),作为凡人5年老粉,必须发个帖祝贺一下。 我比较喜欢看动漫,各种类型看了很多,具体不清楚多少,像斗罗斗破之类看了一大半终究是没能看下去,还是雾山...

Premiere Pro静音片段自动剪辑插件——Silence Remover使用教程及下载
对于做口播、Vlog、播客剪辑的朋友来说,最耗时的工作之一就是手动找出视频中的”哑巴”片段——说话间隙、停顿、思考时的”嗯啊”——并逐一删除。今天给大家介绍一款来自 Phantom Edito...

蛙蛙写作-能替你"打工"的AI写作平台,附邀请码:UZekHC
我不是一个容易被工具说服的人。用过 ChatGPT、试过各种”AI写作神器”,大多数要么写出来全是机翻腔,要么根本不懂网文的爆款逻辑。 直到我开始用蛙蛙写作,才发现原来一个工具真的可以懂你想写什么。 🐸 蛙蛙写作是什...

PDFMathTranslate + MinerU 批量PDF全文双语翻译转Markdown工具
本工具是一款基于 PDFMathTranslate 与 MinerU 整合的桌面端 PDF 翻译工具,通过简洁的 Web 界面实现一键式 PDF 全文双语翻译,并可选择将翻译结果导出为 Markdown 格式,方便导入知识库或进行二次编辑。...

Claude居然自称“本人”
今天在和Claude聊网文写作的时候,Claude回复中居然自称本人,这让我有点震惊。 我经常会和AI聊工具功能对比等话题,ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的,好像都是本模型,本工具等等,反正从来没...

图像无损放大神器:Topaz Gigapixel AI软件下载及使用指南
在数字内容创作成风头的今天,我们经常会遇到低分辨率素材模糊、AI 生成图片尺寸太小、或者老照片充满噪点的情况。传统的图像放大方式(如双三次插值)只是单纯地拉伸像素,容易让画面变得模糊、虚化。 如果你正在寻找一种能“凭空”补齐细节、让低画质瞬...













