LTX-2 是由 Lightricks 开发的首个基于 DiT(扩散变换器)架构的音视频基础模型,能够在一个统一模型中同时生成高质量的视频与同步音频。与以往需要分别处理视频和音频的方案不同,LTX-2 将两者深度融合,实现真正的音画同步生成。
模型文件说明
本应用首次使用某功能时会按需自动下载对应模型,请确保网络畅通或提前将网盘内模型文件下载到项目文件夹内。模型保存在项目根目录的 checkpoints/ 文件夹,Gemma 文本编码器保存在 gemma/ 文件夹。
| 模型文件 | 用途 | 大小(约) |
|---|---|---|
ltx-2.3-22b-dev.safetensors | 开发版主模型,画质最佳 | ~44 GB |
ltx-2.3-22b-distilled-1.1.safetensors | 蒸馏版主模型,速度最快 | ~44 GB |
ltx-2.3-spatial-upscaler-x2-1.1.safetensors | 2× 空间上采样器 | ~1 GB |
ltx-2.3-22b-distilled-lora-384-1.1.safetensors | 蒸馏 LoRA(辅助两阶段生成) | ~7GB |
gemma-3-12b-it-qat-q4_0-unquantized(完整目录) | 文本编码器 | ~22.7 GB |

LTX2.3整合包软件功能介绍
八大功能详解
1. 两阶段高清生成(推荐)
适用场景:追求最佳画质的正式出片。
工作原理:先用开发版主模型生成低分辨率草图,再通过 2× 空间上采样器将分辨率翻倍,兼顾内容质量与细节清晰度。
所需模型:ltx-2.3-22b-dev + spatial-upscaler-x2 + distilled-lora + Gemma
使用步骤:
- 切换到「两阶段高清生成」Tab
- 在「提示词与基本参数」中填写提示词,设置尺寸和帧数
- 调整「蒸馏 LoRA 强度」(默认 1.0,范围 0~2,过高可能过度锐化)
- 点击「开始生成」
注意事项:
- 生成时间较长,适合最终出片而非快速预览
- 建议推理步数设置为 20~40
2. 蒸馏模型快速生成
适用场景:对速度要求极高的场景,或显存有限的环境。
工作原理:使用经过知识蒸馏的模型,仅需 8 步固定 sigma 推理即可生成视频,配合空间上采样器输出。
所需模型:ltx-2.3-22b-distilled + spatial-upscaler-x2 + Gemma
使用步骤:
- 切换到「蒸馏模型快速生成」Tab
- 填写提示词,设置参数
- 点击「开始生成」
注意事项:
- 推理步数固定为 8 步,修改「推理步数」参数对此模式无效
- 速度最快,但画质和细节丰富度略低于两阶段高清
- 此模式不使用蒸馏 LoRA,无需设置「蒸馏 LoRA 强度」
3. 图像视频转换
适用场景:基于参考图像或参考视频,生成风格一致、动作受控的新视频(IC-LoRA)。
所需模型:ltx-2.3-22b-distilled + spatial-upscaler-x2 + Gemma
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 参考视频文件 | 上传一个或多个参考视频,作为条件引导生成 |
| 参考视频强度 | 每个参考视频的影响强度(0~1+),逗号分隔,如 0.8,0.6 |
| 跳过第二阶段上采样 | 勾选后跳过高分辨率阶段,速度更快但分辨率不翻倍 |
| 注意力强度 | 控制参考视频的注意力影响程度(0.0~1.0),越大越贴近参考内容 |
| 遮罩视频(可选) | 上传遮罩视频,白色区域受参考条件影响,黑色区域自由生成 |
使用步骤:
- 上传参考视频(支持多个)
- 设置每个视频的强度,如
1.0或0.8,0.6 - 在「图像条件」Accordion 中上传参考图像(可选)
- 填写描述目标视频内容的提示词
- 点击「开始生成」
注意事项:
- 参考视频数量与强度值数量需对应;若值少于文件数,最后一个值自动补全
- 遮罩视频尺寸会自动缩放为生成尺寸的一半
4. 关键帧插值
适用场景:给定若干关键帧图像,生成它们之间平滑过渡的视频片段。
所需模型:ltx-2.3-22b-dev + spatial-upscaler-x2 + distilled-lora + Gemma
使用步骤:
- 切换到「关键帧插值」Tab
- 展开下方「图像条件(可选)」Accordion
- 上传多张关键帧图像
- 在「帧索引」中填写每张图对应的帧号,如
0,16,32(帧号从 0 开始,间隔表示插值帧数) - 在「强度」中填写各关键帧的影响强度,如
1.0,1.0,1.0 - 填写描述整体动作/场景的提示词
- 确保「帧数」≥ 最大帧索引 + 1
- 点击「开始生成」
注意事项:
- 关键帧数量、帧索引数量、强度值数量需一致
- 第一帧索引通常设为
0,最后一帧索引设为num_frames - 1 - 蒸馏 LoRA 强度影响插值的平滑程度,推荐保持默认值 1.0
5. 音频驱动视频生成
适用场景:以音乐或语音为驱动,生成与音频节奏同步的视频内容。
所需模型:ltx-2.3-22b-dev + spatial-upscaler-x2 + distilled-lora + Gemma
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 音频文件 | 上传 WAV、MP3 等格式的音频文件 |
| 音频开始时间(秒) | 从音频的第几秒开始使用(默认 0) |
| 最大时长(秒) | 使用多长的音频片段(0 表示自动,与视频帧数匹配) |
使用步骤:
- 切换到「音频驱动视频生成」Tab
- 上传音频文件
- 设置开始时间和最大时长(通常保持默认)
- 填写提示词,描述视频的视觉内容
- 设置「帧数」和「帧率」,让视频时长与音频时长匹配
- 点击「开始生成」
注意事项:
- 音频文件为必填项,不上传会报错
- 视频时长 = 帧数 ÷ 帧率,建议与使用的音频时长保持一致
- 可在「图像条件」中上传参考图像来影响视觉风格
6. 视频片段重生成
适用场景:对已有视频中某段不满意的片段进行局部重新生成,其余部分保持不变。
所需模型:ltx-2.3-22b-distilled + Gemma
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 源视频文件 | 上传需要局部修改的原始视频 |
| 开始时间(秒) | 要重生成的片段起点 |
| 结束时间(秒) | 要重生成的片段终点 |
| 重生成视频轨 | 勾选后重新生成该时间段的视频画面 |
| 重生成音频轨 | 勾选后重新生成该时间段的音频 |
| 使用蒸馏模型 | 勾选使用快速蒸馏模型,取消勾选则使用全量推理(需手动设置引导参数) |
使用步骤:
- 切换到「视频片段重生成」Tab
- 上传源视频
- 设置开始和结束时间(精确到秒)
- 选择是否重生成视频轨和/或音频轨
- 填写提示词(描述重生成片段的目标内容)
- 点击「开始生成」
注意事项:
- 「源视频文件」为必填项,不上传会报错
- 时间范围外的部分保持原样不变
- 使用蒸馏模型时,引导参数将自动使用预设值,手动修改无效
7. HDR 视频生成
适用场景:专业影视后期制作,需要高动态范围(HDR)素材,用于专业调色、色调映射和合成。
所需模型:ltx-2.3-22b-distilled + spatial-upscaler-x2 + HDR IC-LoRA
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 参考视频文件 | 上传 SDR 参考视频,作为 HDR 转换的基础 |
| 参考视频强度 | 各参考视频的条件强度(逗号分隔) |
| 空间分块大小 | 控制上采样时的分块尺寸,默认 1280,影响显存占用 |
| 仅输出 EXR | 勾选后只保存 EXR 序列,不生成 MP4 预览 |
| EXR 半精度 | 使用 float16 保存 EXR,文件更小但精度略降 |
| 高质量模式 | 启用更精细的 HDR 处理流程(速度更慢) |
使用步骤:
- 切换到「HDR视频生成」Tab
- 上传参考 SDR 视频
- 点击「开始生成」
输出说明:
- 输出为 EXR 帧序列(LogC3 编码的线性光照数据),保存在
output/hdr_XXXXXX_exr/目录 - 默认同时生成一个 MP4 预览文件(可勾选「仅输出 EXR」跳过)
- EXR 文件需在 DaVinci Resolve、Nuke 等专业软件中进行色调映射后才能正常显示
注意事项:
- 空间分块大小越大显存占用越高,OOM 时可适当减小
通用参数说明
提示词与基本参数
| 参数 | 默认值 | 说明 |
|---|---|---|
| 提示词 | 空 | 描述视频内容,建议详细描述动作、场景、镜头、光影(参见下方提示词写作技巧) |
| 反向提示词 | 空 | 描述不希望出现的内容,如 blurry, low quality |
| 随机种子 | -1 | -1 为随机;固定值可复现相同结果 |
| 高度 / 宽度(px) | 512 / 768 | 生成分辨率 |
| 帧数 | 33 | 生成的总帧数,视频时长 = 帧数 ÷ 帧率 |
| 帧率(fps) | 24 | 输出视频帧率 |
| 推理步数 | 8 | 扩散去噪步数,越多质量越好但速度越慢(蒸馏模式固定 8 步) |
| 最大批次大小 | 1 | 并行处理的分块数,增大可加速但需要更多显存 |
| 自动增强提示词 | 否 | 开启后用 Gemma 自动扩写提示词,适合短提示词 |
| 蒸馏 LoRA 强度 | 1.0 | 两阶段/关键帧/音频驱动模式专用,影响第二阶段细节锐化程度 |
图像条件(可选)
上传参考图像,为生成视频提供视觉锚点。
| 参数 | 说明 |
|---|---|
| 条件图像文件 | 上传一张或多张图像(关键帧插值模式必须在此上传) |
| 帧索引 | 每张图像对应视频中的哪一帧(从 0 开始),逗号分隔 |
| 强度 | 每张图像对生成内容的影响程度,逗号分隔 |
| CRF | 图像压缩质量(值越小质量越高,通常保持默认 33) |
运行参数
| 参数 | 说明 |
|---|---|
| 显存卸载模式 | none:全部放显存;cpu:部分卸载到内存;disk:卸载到硬盘(最省显存但最慢) |
| 量化模式 | none:全精度;fp8-cast:动态 FP8 量化(40/50系列可开启);fp8-scaled-mm:Hopper GPU 专用 |
| Torch 编译加速 | 首次启用时编译耗时约几分钟,之后每次生成明显加速 |
| 附加 LoRA | 每行一条,格式:/path/to/lora.safetensors,0.8 |
引导参数(高级)
控制扩散过程的引导强度,一般无需修改。
| 参数 | 建议范围 | 说明 |
|---|---|---|
| cfg_scale | 2~7 | 分类器引导强度,越大越贴合提示词但可能过饱和 |
| stg_scale | 0~2 | 跳步引导强度 |
| rescale_scale | 0.5~0.9 | 引导缩放补偿,防止过度饱和 |
| modality_scale | 1~5 | 多模态(音视频)对齐强度 |
| skip_step | 0 | 跳过的初始步数 |
| stg_blocks | 28 | 应用跳步引导的 Transformer 块索引 |
提示词写作技巧
LTX-2 使用 Gemma 进行深度语义理解,支持详细的自然语言描述。保持描述精确具体,像电影分镜表一样思考。建议控制在 200 词以内。
输出与设置保存
输出文件
生成的视频保存在项目根目录的 output/ 文件夹,文件名格式为:
output/{功能名称}_{日期时间}.mp4
HDR 模式额外生成:
output/hdr_{日期时间}_exr/frame_00000.exr
output/hdr_{日期时间}_exr/frame_00001.exr
...
设置保存
- 手动保存:点击「保存设置」按钮
- 自动保存:每次点击「开始生成」时自动保存当前所有参数
- 设置文件保存路径:
{项目根目录}/settings.json - 下次打开应用时,所有参数会自动从
settings.json恢复
常见问题
Q:首次运行需要多少存储空间?
A:完整下载所有模型约需 100 GB 以上空间(dev 模型 ~44 GB、distilled 模型 ~44 GB、Gemma ~22.7 GB、上采样器等)。如果只使用特定功能,只下载对应模型。
项目文件夹目录结构为:
--LTX2.3
--checkpoints
--ltx-2.3-22b-distilled-1.1.safetensors
--以及其它.safetensors模型文件
--gemma
--hf
--output
--..Q:最低显存要求是多少?
A:显存较低时可启用「量化模式」(fp8-cast,RTX30或更低系列不要开启)+ 「显存卸载模式」(cpu 或 disk)组合使用。英伟达显卡显存越低速度越慢,如果不想长时间等待,建议显存大于12GB。
Q:生成结果和提示词不符?
A:
- 增大
cfg_scale(如从 3 调到 5~7) - 提示词更具体,描述更详细
- 开启「自动增强提示词」
- 增加「推理步数」
Q:视频中出现闪烁或不连贯?
A:适当增大 stg_scale 或降低 cfg_scale,也可以尝试不同的随机种子。
LTX2.3音视频生成软件下载链接
https://pan.quark.cn/s/41e4da892a11
相关推荐
AI视频变现项目,完整详细教程20250628期
BiliNote:自动生成B站油管视频笔记,AI视频内容总结工具
优云智算HappyHorse AI 视频生成API KEY WebUI
FlashVSR低分辨率模糊视频高清放大工具整合包v1.1下载,免安装一键启动
人物动作迁移及视频人物替换软件Wan2.2-Animate-14B整合包下载,动作模仿视频换主体工具在线一键启动
无限长度的数字人对话视频生成软件InfiniteTalk整合包,图像转视频、视频配音对口型工具
Wan2.2-S2V-14B:音频驱动图片转视频生成本地整合包及在线一键启动
2D照片转3D视频软件stable-virtual-camera免安装一键启动整合包下载
最近更新

OmniSVG:统一的可缩放矢量图形生成软件
OmniSVG 是一个基于视觉-语言模型(VLM)的端到端多模态 SVG(可缩放矢量图形)生成框架,由 OpenVGLab 团队开发。该项目能够从文本描述或参考图像生成高质量的 SVG 矢量图形,覆盖从简单图标...

AI实时变声器Voice Changer2.1.4 CUDA版下载,高质量RVC变声软件
Voice Changer是一款实时 AI 变声工具,允许你通过多种 AI 声音模型(如 RVC 和 Beatrice)实时转换声音。转换延迟更低,是目前社区中最受欢迎的开源实时变声方案之一。 核心特点 1. 实时性 voice-chang...

Studio One Pro 7免费开心版下载
Studio One 7是一款专业数字音频工作站(DAW)软件,它是音乐制作、混音、母带处理与现场演出一体化的旗舰软件。 ✨ 核心功能 1. AI 智能音轨分离(Stem Separation) AI 驱动的音轨分离功能允许用户将混缩后的音...
PDF转Markdown软件MinerU 3.1.11整合包(高性能版)
MinerU是一款非常热门的PDF、图片、DOCX、PPTX、XLSX转markdown格式软件,转换效果属于同类软件中比较优秀的一个。当前最新版为3.1.11版本,我基于最新版源码制作了免安装一键启动整合包,并做适当优化及修改,详情查看链...
阿里千问Qwen3-TTS声音克隆语音合成软件【低配电脑版】
阿里千问Qwen3-TTS是一款热门的语音合成及声音克隆软件,我基于当前最新版制作了免安装一键启动整合包,并增加多人对话语音合成功能。 此版本为低配显卡电脑版,软件使用0.6B模型,模型尺寸略小,对电脑显卡配置要求也更小,但是质量不会差太多...

腾讯混元三维世界重建系统WorldMirror 2.0通用3D三维资产重建工具下载
WorldMirror 2.0 是由腾讯混元(Hunyuan)团队开发的下一代通用三维世界重建系统,底层基于 HY-World-2.0 模型。它能够从一组普通照片或一段视频中,自动恢复出场景的三维结构,并生成多种形式的三维资产,包括: 我基...

阿里Qwen3-TTS高质量声音克隆语音合成系统,AI视频配音多人对话生成工具
Qwen3-TTS 是由阿里 Qwen 团队开发的新一代语音合成系统,基于自研的 Qwen3-TTS-Tokenizer-12Hz 编解码器和离散多码本 LM 架构,实现了端到端的全信息语音建模。它突破了传统级联架构的信息瓶颈,支持音色克隆...

PasteMD:一键将 Markdown 和网页 AI 对话文本内容粘贴到 Word、WPS 和 Excel
PasteMD:一键将 Markdown 和网页 AI 对话(ChatGPT/DeepSeek等)完美粘贴到 Word、WPS 和 Excel 的效率工具。 在写论文或报告时,从 ChatGPT / DeepSeek 等 AI 网站中复制出...

BiliNote:自动生成B站油管视频笔记,AI视频内容总结工具
在信息爆炸的时代,视频已经成为最重要的知识载体之一。但相比文字,视频的“可检索性”和“复用效率”始终较低。如何快速从长视频中提取重点、形成结构化知识,成为很多学习者和创作者的痛点。 而 BiliNote 正是为解决这一问题而诞生的一款开源 ...

优云智算HappyHorse AI 视频生成API KEY WebUI
大家可能平常刷视频的时候已经发现了,进入2026年AI短剧极其火爆,不管是短视频平台还是拼多多等购物平台,短剧视频里经常能刷到AI漫剧。前几年短剧公司拍真人短剧赚的盆满钵满,进入2026年短剧公司被AI打的毫无还手之力。借助AI的快速发展,...















