LTX-2 是由 Lightricks 开发的首个基于 DiT(扩散变换器)架构的音视频基础模型,能够在一个统一模型中同时生成高质量的视频与同步音频。与以往需要分别处理视频和音频的方案不同,LTX-2 将两者深度融合,实现真正的音画同步生成。
模型文件说明
本应用首次使用某功能时会按需自动下载对应模型,请确保网络畅通或提前将网盘内模型文件下载到项目文件夹内。模型保存在项目根目录的 checkpoints/ 文件夹,Gemma 文本编码器保存在 gemma/ 文件夹。
| 模型文件 | 用途 | 大小(约) |
|---|---|---|
ltx-2.3-22b-dev.safetensors | 开发版主模型,画质最佳 | ~44 GB |
ltx-2.3-22b-distilled-1.1.safetensors | 蒸馏版主模型,速度最快 | ~44 GB |
ltx-2.3-spatial-upscaler-x2-1.1.safetensors | 2× 空间上采样器 | ~1 GB |
ltx-2.3-22b-distilled-lora-384-1.1.safetensors | 蒸馏 LoRA(辅助两阶段生成) | ~7GB |
gemma-3-12b-it-qat-q4_0-unquantized(完整目录) | 文本编码器 | ~22.7 GB |

LTX2.3整合包软件功能介绍
八大功能详解
1. 两阶段高清生成(推荐)
适用场景:追求最佳画质的正式出片。
工作原理:先用开发版主模型生成低分辨率草图,再通过 2× 空间上采样器将分辨率翻倍,兼顾内容质量与细节清晰度。
所需模型:ltx-2.3-22b-dev + spatial-upscaler-x2 + distilled-lora + Gemma
使用步骤:
- 切换到「两阶段高清生成」Tab
- 在「提示词与基本参数」中填写提示词,设置尺寸和帧数
- 调整「蒸馏 LoRA 强度」(默认 1.0,范围 0~2,过高可能过度锐化)
- 点击「开始生成」
注意事项:
- 生成时间较长,适合最终出片而非快速预览
- 建议推理步数设置为 20~40
2. 蒸馏模型快速生成
适用场景:对速度要求极高的场景,或显存有限的环境。
工作原理:使用经过知识蒸馏的模型,仅需 8 步固定 sigma 推理即可生成视频,配合空间上采样器输出。
所需模型:ltx-2.3-22b-distilled + spatial-upscaler-x2 + Gemma
使用步骤:
- 切换到「蒸馏模型快速生成」Tab
- 填写提示词,设置参数
- 点击「开始生成」
注意事项:
- 推理步数固定为 8 步,修改「推理步数」参数对此模式无效
- 速度最快,但画质和细节丰富度略低于两阶段高清
- 此模式不使用蒸馏 LoRA,无需设置「蒸馏 LoRA 强度」
3. 图像视频转换
适用场景:基于参考图像或参考视频,生成风格一致、动作受控的新视频(IC-LoRA)。
所需模型:ltx-2.3-22b-distilled + spatial-upscaler-x2 + Gemma
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 参考视频文件 | 上传一个或多个参考视频,作为条件引导生成 |
| 参考视频强度 | 每个参考视频的影响强度(0~1+),逗号分隔,如 0.8,0.6 |
| 跳过第二阶段上采样 | 勾选后跳过高分辨率阶段,速度更快但分辨率不翻倍 |
| 注意力强度 | 控制参考视频的注意力影响程度(0.0~1.0),越大越贴近参考内容 |
| 遮罩视频(可选) | 上传遮罩视频,白色区域受参考条件影响,黑色区域自由生成 |
使用步骤:
- 上传参考视频(支持多个)
- 设置每个视频的强度,如
1.0或0.8,0.6 - 在「图像条件」Accordion 中上传参考图像(可选)
- 填写描述目标视频内容的提示词
- 点击「开始生成」
注意事项:
- 参考视频数量与强度值数量需对应;若值少于文件数,最后一个值自动补全
- 遮罩视频尺寸会自动缩放为生成尺寸的一半
4. 关键帧插值
适用场景:给定若干关键帧图像,生成它们之间平滑过渡的视频片段。
所需模型:ltx-2.3-22b-dev + spatial-upscaler-x2 + distilled-lora + Gemma
使用步骤:
- 切换到「关键帧插值」Tab
- 展开下方「图像条件(可选)」Accordion
- 上传多张关键帧图像
- 在「帧索引」中填写每张图对应的帧号,如
0,16,32(帧号从 0 开始,间隔表示插值帧数) - 在「强度」中填写各关键帧的影响强度,如
1.0,1.0,1.0 - 填写描述整体动作/场景的提示词
- 确保「帧数」≥ 最大帧索引 + 1
- 点击「开始生成」
注意事项:
- 关键帧数量、帧索引数量、强度值数量需一致
- 第一帧索引通常设为
0,最后一帧索引设为num_frames - 1 - 蒸馏 LoRA 强度影响插值的平滑程度,推荐保持默认值 1.0
5. 音频驱动视频生成
适用场景:以音乐或语音为驱动,生成与音频节奏同步的视频内容。
所需模型:ltx-2.3-22b-dev + spatial-upscaler-x2 + distilled-lora + Gemma
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 音频文件 | 上传 WAV、MP3 等格式的音频文件 |
| 音频开始时间(秒) | 从音频的第几秒开始使用(默认 0) |
| 最大时长(秒) | 使用多长的音频片段(0 表示自动,与视频帧数匹配) |
使用步骤:
- 切换到「音频驱动视频生成」Tab
- 上传音频文件
- 设置开始时间和最大时长(通常保持默认)
- 填写提示词,描述视频的视觉内容
- 设置「帧数」和「帧率」,让视频时长与音频时长匹配
- 点击「开始生成」
注意事项:
- 音频文件为必填项,不上传会报错
- 视频时长 = 帧数 ÷ 帧率,建议与使用的音频时长保持一致
- 可在「图像条件」中上传参考图像来影响视觉风格
6. 视频片段重生成
适用场景:对已有视频中某段不满意的片段进行局部重新生成,其余部分保持不变。
所需模型:ltx-2.3-22b-distilled + Gemma
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 源视频文件 | 上传需要局部修改的原始视频 |
| 开始时间(秒) | 要重生成的片段起点 |
| 结束时间(秒) | 要重生成的片段终点 |
| 重生成视频轨 | 勾选后重新生成该时间段的视频画面 |
| 重生成音频轨 | 勾选后重新生成该时间段的音频 |
| 使用蒸馏模型 | 勾选使用快速蒸馏模型,取消勾选则使用全量推理(需手动设置引导参数) |
使用步骤:
- 切换到「视频片段重生成」Tab
- 上传源视频
- 设置开始和结束时间(精确到秒)
- 选择是否重生成视频轨和/或音频轨
- 填写提示词(描述重生成片段的目标内容)
- 点击「开始生成」
注意事项:
- 「源视频文件」为必填项,不上传会报错
- 时间范围外的部分保持原样不变
- 使用蒸馏模型时,引导参数将自动使用预设值,手动修改无效
7. HDR 视频生成
适用场景:专业影视后期制作,需要高动态范围(HDR)素材,用于专业调色、色调映射和合成。
所需模型:ltx-2.3-22b-distilled + spatial-upscaler-x2 + HDR IC-LoRA
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 参考视频文件 | 上传 SDR 参考视频,作为 HDR 转换的基础 |
| 参考视频强度 | 各参考视频的条件强度(逗号分隔) |
| 空间分块大小 | 控制上采样时的分块尺寸,默认 1280,影响显存占用 |
| 仅输出 EXR | 勾选后只保存 EXR 序列,不生成 MP4 预览 |
| EXR 半精度 | 使用 float16 保存 EXR,文件更小但精度略降 |
| 高质量模式 | 启用更精细的 HDR 处理流程(速度更慢) |
使用步骤:
- 切换到「HDR视频生成」Tab
- 上传参考 SDR 视频
- 点击「开始生成」
输出说明:
- 输出为 EXR 帧序列(LogC3 编码的线性光照数据),保存在
output/hdr_XXXXXX_exr/目录 - 默认同时生成一个 MP4 预览文件(可勾选「仅输出 EXR」跳过)
- EXR 文件需在 DaVinci Resolve、Nuke 等专业软件中进行色调映射后才能正常显示
注意事项:
- 空间分块大小越大显存占用越高,OOM 时可适当减小
通用参数说明
提示词与基本参数
| 参数 | 默认值 | 说明 |
|---|---|---|
| 提示词 | 空 | 描述视频内容,建议详细描述动作、场景、镜头、光影(参见下方提示词写作技巧) |
| 反向提示词 | 空 | 描述不希望出现的内容,如 blurry, low quality |
| 随机种子 | -1 | -1 为随机;固定值可复现相同结果 |
| 高度 / 宽度(px) | 512 / 768 | 生成分辨率 |
| 帧数 | 33 | 生成的总帧数,视频时长 = 帧数 ÷ 帧率 |
| 帧率(fps) | 24 | 输出视频帧率 |
| 推理步数 | 8 | 扩散去噪步数,越多质量越好但速度越慢(蒸馏模式固定 8 步) |
| 最大批次大小 | 1 | 并行处理的分块数,增大可加速但需要更多显存 |
| 自动增强提示词 | 否 | 开启后用 Gemma 自动扩写提示词,适合短提示词 |
| 蒸馏 LoRA 强度 | 1.0 | 两阶段/关键帧/音频驱动模式专用,影响第二阶段细节锐化程度 |
图像条件(可选)
上传参考图像,为生成视频提供视觉锚点。
| 参数 | 说明 |
|---|---|
| 条件图像文件 | 上传一张或多张图像(关键帧插值模式必须在此上传) |
| 帧索引 | 每张图像对应视频中的哪一帧(从 0 开始),逗号分隔 |
| 强度 | 每张图像对生成内容的影响程度,逗号分隔 |
| CRF | 图像压缩质量(值越小质量越高,通常保持默认 33) |
运行参数
| 参数 | 说明 |
|---|---|
| 显存卸载模式 | none:全部放显存;cpu:部分卸载到内存;disk:卸载到硬盘(最省显存但最慢) |
| 量化模式 | none:全精度;fp8-cast:动态 FP8 量化(40/50系列可开启);fp8-scaled-mm:Hopper GPU 专用 |
| Torch 编译加速 | 首次启用时编译耗时约几分钟,之后每次生成明显加速 |
| 附加 LoRA | 每行一条,格式:/path/to/lora.safetensors,0.8 |
引导参数(高级)
控制扩散过程的引导强度,一般无需修改。
| 参数 | 建议范围 | 说明 |
|---|---|---|
| cfg_scale | 2~7 | 分类器引导强度,越大越贴合提示词但可能过饱和 |
| stg_scale | 0~2 | 跳步引导强度 |
| rescale_scale | 0.5~0.9 | 引导缩放补偿,防止过度饱和 |
| modality_scale | 1~5 | 多模态(音视频)对齐强度 |
| skip_step | 0 | 跳过的初始步数 |
| stg_blocks | 28 | 应用跳步引导的 Transformer 块索引 |
提示词写作技巧
LTX-2 使用 Gemma 进行深度语义理解,支持详细的自然语言描述。保持描述精确具体,像电影分镜表一样思考。建议控制在 200 词以内。
输出与设置保存
输出文件
生成的视频保存在项目根目录的 output/ 文件夹,文件名格式为:
output/{功能名称}_{日期时间}.mp4
HDR 模式额外生成:
output/hdr_{日期时间}_exr/frame_00000.exr
output/hdr_{日期时间}_exr/frame_00001.exr
...
设置保存
- 手动保存:点击「保存设置」按钮
- 自动保存:每次点击「开始生成」时自动保存当前所有参数
- 设置文件保存路径:
{项目根目录}/settings.json - 下次打开应用时,所有参数会自动从
settings.json恢复
常见问题
Q:首次运行需要多少存储空间?
A:完整下载所有模型约需 100 GB 以上空间(dev 模型 ~44 GB、distilled 模型 ~44 GB、Gemma ~22.7 GB、上采样器等)。如果只使用特定功能,只下载对应模型。
项目文件夹目录结构为:
--LTX2.3
--checkpoints
--ltx-2.3-22b-distilled-1.1.safetensors
--以及其它.safetensors模型文件
--gemma
--hf
--output
--..Q:最低显存要求是多少?
A:显存较低时可启用「量化模式」(fp8-cast,RTX30或更低系列不要开启)+ 「显存卸载模式」(cpu 或 disk)组合使用。英伟达显卡显存越低速度越慢,如果不想长时间等待,建议显存大于12GB。
Q:生成结果和提示词不符?
A:
- 增大
cfg_scale(如从 3 调到 5~7) - 提示词更具体,描述更详细
- 开启「自动增强提示词」
- 增加「推理步数」
Q:视频中出现闪烁或不连贯?
A:适当增大 stg_scale 或降低 cfg_scale,也可以尝试不同的随机种子。
LTX2.3音视频生成软件下载链接
https://pan.quark.cn/s/41e4da892a11
相关推荐
最近更新

Claude居然自称“本人”
今天在和Claude聊网文写作的时候,Claude回复中居然自称本人,这让我有点震惊。 我经常会和AI聊工具功能对比等话题,ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的,好像都是本模型,本工具等等,反正从来没...

图像无损放大神器:Topaz Gigapixel AI软件下载及使用指南
在数字内容创作成风头的今天,我们经常会遇到低分辨率素材模糊、AI 生成图片尺寸太小、或者老照片充满噪点的情况。传统的图像放大方式(如双三次插值)只是单纯地拉伸像素,容易让画面变得模糊、虚化。 如果你正在寻找一种能“凭空”补齐细节、让低画质瞬...

AI视频提示词反推工具,参考视频即梦提示词一键生成
本工具是一款面向 AI 视频生成创作者的本地离线辅助软件。用户导入任意视频文件,工具会自动完成场景检测、关键帧提取、多模态模型分析、提示词拼装等全流程,最终输出一份可直接复制粘贴到即梦 AI 等视频生成平台的完整提示词。 适用场景 功能特点...
免费在线HTML转markdown工具
经常看一些在线文档,想复制给AI参考的话不方便直接复制,转换成markdown再给AI阅读会更简单明了,也方便自己查阅,这里给大家推荐两个在线的免费HTML转markdown网站。 1、https://d1tools.com/tools/c...

闲鱼自动回复机器人XianyuAutoAgent下载,24小时在线智能客服机器人系统
XianyuAutoAgent是一款面向闲鱼平台的智能化自动回复机器人,利用大语言模型自动识别买家意图并生成专业回复,实现 7×24 小时智能客服。 主要功能 1. 智能自动回复 2. 可视化 Web UI 3. 人工接管模式 4. 安全防...

AI漫剧制作即梦seedance2.0教程及提示词2026年5月最新版分享
AI视频依旧持续火爆,各种类型的AI视频层出不穷,视频效果也是越来越好,甚至快接近影视级,目前最主要的AI视频生成工具还是即梦,即梦 Seedance 2.0生成视频一秒钟都到2块多钱了😂,不过也没办法,还是得用,目前还没能有替代即梦see...

AI实时语音聊天对话系统,外语口语陪练/虚拟好友实时语音交流
AI 实时语音对话系统 是一款集语音识别(ASR)、大语言模型(LLM)对话、语音合成(TTS)于一体的实时语音交互软件。用户通过麦克风说话,系统自动识别语音内容并转为文字,交由 AI 角色进行智能回复,最终将回复内容合成为语音实时播放,实...

ComfyUI 三参考图生图工作流,虚拟试衣、换脸、图片内容整合
本工作流核心能力是将三张不同角度、内容的参考图,通过 AI 理解融合,生成一张新的图像,新图像内容根据描述词指令生成。工作流集成了阿里巴巴的 Qwen2.5-VL 多模态大模型(图像编辑版本)与 SeedVR2 超分辨率放大模型,实现了「理...
comfyui CUDA128+torch 2.8.0+python3.12最新纯净版一键启动整合包
comfyui官方发布的最新版便携包是基于torch 2.11+CU130 +Python 3.13版本制作的,Python版本和torch版本都太新了,windows电脑上安装某些节点的时候会有冲突报错,有时候就算能安装上也会比较麻烦,感...
LTX2.3+comfyui音频驱动视频生成工作流
这是一个基于 ComfyUI 的 LTX 2.3 音视频同步生成工作流,核心功能是上传一段音频 + 参考图片(可多张图),自动生成与音频内容对应的视频,适合制作人物说话、唱歌等口型同步视频。工作流使用8位量化版ltx2.3模型,显存需求降低...
















