LTX-2 是由 Lightricks 开发的首个基于 DiT(扩散变换器)架构的音视频基础模型,能够在一个统一模型中同时生成高质量的视频与同步音频。与以往需要分别处理视频和音频的方案不同,LTX-2 将两者深度融合,实现真正的音画同步生成。
模型文件说明
本应用首次使用某功能时会按需自动下载对应模型,请确保网络畅通或提前将网盘内模型文件下载到项目文件夹内。模型保存在项目根目录的 checkpoints/ 文件夹,Gemma 文本编码器保存在 gemma/ 文件夹。
| 模型文件 | 用途 | 大小(约) |
|---|---|---|
ltx-2.3-22b-dev.safetensors | 开发版主模型,画质最佳 | ~44 GB |
ltx-2.3-22b-distilled-1.1.safetensors | 蒸馏版主模型,速度最快 | ~44 GB |
ltx-2.3-spatial-upscaler-x2-1.1.safetensors | 2× 空间上采样器 | ~1 GB |
ltx-2.3-22b-distilled-lora-384-1.1.safetensors | 蒸馏 LoRA(辅助两阶段生成) | ~7GB |
gemma-3-12b-it-qat-q4_0-unquantized(完整目录) | 文本编码器 | ~22.7 GB |

LTX2.3整合包软件功能介绍
八大功能详解
1. 两阶段高清生成(推荐)
适用场景:追求最佳画质的正式出片。
工作原理:先用开发版主模型生成低分辨率草图,再通过 2× 空间上采样器将分辨率翻倍,兼顾内容质量与细节清晰度。
所需模型:ltx-2.3-22b-dev + spatial-upscaler-x2 + distilled-lora + Gemma
使用步骤:
- 切换到「两阶段高清生成」Tab
- 在「提示词与基本参数」中填写提示词,设置尺寸和帧数
- 调整「蒸馏 LoRA 强度」(默认 1.0,范围 0~2,过高可能过度锐化)
- 点击「开始生成」
注意事项:
- 生成时间较长,适合最终出片而非快速预览
- 建议推理步数设置为 20~40
- 输出尺寸为设置尺寸的两倍(如设置 512×768,实际输出约 1024×1536)
2. 单阶段快速生成
适用场景:快速验证提示词效果、参数调试。
工作原理:单阶段直接生成,不经过上采样,速度比两阶段快约一倍。
所需模型:ltx-2.3-22b-dev + Gemma
使用步骤:
- 切换到「单阶段快速生成」Tab
- 填写提示词,设置参数
- 点击「开始生成」
注意事项:
- 输出分辨率即为设置的原始尺寸,不会上采样
- 推理步数建议 10~20,快速出结果
3. 蒸馏模型快速生成
适用场景:对速度要求极高的场景,或显存有限的环境。
工作原理:使用经过知识蒸馏的模型,仅需 8 步固定 sigma 推理即可生成视频,配合空间上采样器输出。
所需模型:ltx-2.3-22b-distilled + spatial-upscaler-x2 + Gemma
使用步骤:
- 切换到「蒸馏模型快速生成」Tab
- 填写提示词,设置参数
- 点击「开始生成」
注意事项:
- 推理步数固定为 8 步,修改「推理步数」参数对此模式无效
- 速度最快,但画质和细节丰富度略低于两阶段高清
- 此模式不使用蒸馏 LoRA,无需设置「蒸馏 LoRA 强度」
4. 图像视频转换
适用场景:基于参考图像或参考视频,生成风格一致、动作受控的新视频(IC-LoRA)。
所需模型:ltx-2.3-22b-distilled + spatial-upscaler-x2 + Gemma
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 参考视频文件 | 上传一个或多个参考视频,作为条件引导生成 |
| 参考视频强度 | 每个参考视频的影响强度(0~1+),逗号分隔,如 0.8,0.6 |
| 跳过第二阶段上采样 | 勾选后跳过高分辨率阶段,速度更快但分辨率不翻倍 |
| 注意力强度 | 控制参考视频的注意力影响程度(0.0~1.0),越大越贴近参考内容 |
| 遮罩视频(可选) | 上传遮罩视频,白色区域受参考条件影响,黑色区域自由生成 |
使用步骤:
- 上传参考视频(支持多个)
- 设置每个视频的强度,如
1.0或0.8,0.6 - 在「图像条件」Accordion 中上传参考图像(可选)
- 填写描述目标视频内容的提示词
- 点击「开始生成」
注意事项:
- 参考视频数量与强度值数量需对应;若值少于文件数,最后一个值自动补全
- 遮罩视频尺寸会自动缩放为生成尺寸的一半
5. 关键帧插值
适用场景:给定若干关键帧图像,生成它们之间平滑过渡的视频片段。
所需模型:ltx-2.3-22b-dev + spatial-upscaler-x2 + distilled-lora + Gemma
使用步骤:
- 切换到「关键帧插值」Tab
- 展开下方「图像条件(可选)」Accordion
- 上传多张关键帧图像
- 在「帧索引」中填写每张图对应的帧号,如
0,16,32(帧号从 0 开始,间隔表示插值帧数) - 在「强度」中填写各关键帧的影响强度,如
1.0,1.0,1.0 - 填写描述整体动作/场景的提示词
- 确保「帧数」≥ 最大帧索引 + 1
- 点击「开始生成」
注意事项:
- 关键帧数量、帧索引数量、强度值数量需一致
- 第一帧索引通常设为
0,最后一帧索引设为num_frames - 1 - 蒸馏 LoRA 强度影响插值的平滑程度,推荐保持默认值 1.0
6. 音频驱动视频生成
适用场景:以音乐或语音为驱动,生成与音频节奏同步的视频内容。
所需模型:ltx-2.3-22b-dev + spatial-upscaler-x2 + distilled-lora + Gemma
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 音频文件 | 上传 WAV、MP3 等格式的音频文件 |
| 音频开始时间(秒) | 从音频的第几秒开始使用(默认 0) |
| 最大时长(秒) | 使用多长的音频片段(0 表示自动,与视频帧数匹配) |
使用步骤:
- 切换到「音频驱动视频生成」Tab
- 上传音频文件
- 设置开始时间和最大时长(通常保持默认)
- 填写提示词,描述视频的视觉内容
- 设置「帧数」和「帧率」,让视频时长与音频时长匹配
- 点击「开始生成」
注意事项:
- 音频文件为必填项,不上传会报错
- 视频时长 = 帧数 ÷ 帧率,建议与使用的音频时长保持一致
- 可在「图像条件」中上传参考图像来影响视觉风格
7. 视频片段重生成
适用场景:对已有视频中某段不满意的片段进行局部重新生成,其余部分保持不变。
所需模型:ltx-2.3-22b-distilled + Gemma
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 源视频文件 | 上传需要局部修改的原始视频 |
| 开始时间(秒) | 要重生成的片段起点 |
| 结束时间(秒) | 要重生成的片段终点 |
| 重生成视频轨 | 勾选后重新生成该时间段的视频画面 |
| 重生成音频轨 | 勾选后重新生成该时间段的音频 |
| 使用蒸馏模型 | 勾选使用快速蒸馏模型,取消勾选则使用全量推理(需手动设置引导参数) |
使用步骤:
- 切换到「视频片段重生成」Tab
- 上传源视频
- 设置开始和结束时间(精确到秒)
- 选择是否重生成视频轨和/或音频轨
- 填写提示词(描述重生成片段的目标内容)
- 点击「开始生成」
注意事项:
- 「源视频文件」为必填项,不上传会报错
- 时间范围外的部分保持原样不变
- 使用蒸馏模型时,引导参数将自动使用预设值,手动修改无效
8. HDR 视频生成
适用场景:专业影视后期制作,需要高动态范围(HDR)素材,用于专业调色、色调映射和合成。
所需模型:ltx-2.3-22b-distilled + spatial-upscaler-x2 + HDR IC-LoRA
Tab 内专属参数:
| 参数 | 说明 |
|---|---|
| 参考视频文件 | 上传 SDR 参考视频,作为 HDR 转换的基础 |
| 参考视频强度 | 各参考视频的条件强度(逗号分隔) |
| 空间分块大小 | 控制上采样时的分块尺寸,默认 1280,影响显存占用 |
| 仅输出 EXR | 勾选后只保存 EXR 序列,不生成 MP4 预览 |
| EXR 半精度 | 使用 float16 保存 EXR,文件更小但精度略降 |
| 高质量模式 | 启用更精细的 HDR 处理流程(速度更慢) |
使用步骤:
- 切换到「HDR视频生成」Tab
- 上传参考 SDR 视频
- 点击「开始生成」
输出说明:
- 输出为 EXR 帧序列(LogC3 编码的线性光照数据),保存在
output/hdr_XXXXXX_exr/目录 - 默认同时生成一个 MP4 预览文件(可勾选「仅输出 EXR」跳过)
- EXR 文件需在 DaVinci Resolve、Nuke 等专业软件中进行色调映射后才能正常显示
注意事项:
- 空间分块大小越大显存占用越高,OOM 时可适当减小
通用参数说明
提示词与基本参数
| 参数 | 默认值 | 说明 |
|---|---|---|
| 提示词 | 空 | 描述视频内容,建议详细描述动作、场景、镜头、光影(参见下方提示词写作技巧) |
| 反向提示词 | 空 | 描述不希望出现的内容,如 blurry, low quality |
| 随机种子 | -1 | -1 为随机;固定值可复现相同结果 |
| 高度 / 宽度(px) | 512 / 768 | 生成分辨率,两阶段模式实际输出为此尺寸的 2× |
| 帧数 | 33 | 生成的总帧数,视频时长 = 帧数 ÷ 帧率 |
| 帧率(fps) | 24 | 输出视频帧率 |
| 推理步数 | 8 | 扩散去噪步数,越多质量越好但速度越慢(蒸馏模式固定 8 步) |
| 最大批次大小 | 1 | 并行处理的分块数,增大可加速但需要更多显存 |
| 自动增强提示词 | 否 | 开启后用 Gemma 自动扩写提示词,适合短提示词 |
| 蒸馏 LoRA 强度 | 1.0 | 两阶段/关键帧/音频驱动模式专用,影响第二阶段细节锐化程度 |
图像条件(可选)
上传参考图像,为生成视频提供视觉锚点。
| 参数 | 说明 |
|---|---|
| 条件图像文件 | 上传一张或多张图像(关键帧插值模式必须在此上传) |
| 帧索引 | 每张图像对应视频中的哪一帧(从 0 开始),逗号分隔 |
| 强度 | 每张图像对生成内容的影响程度,逗号分隔 |
| CRF | 图像压缩质量(值越小质量越高,通常保持默认 33) |
运行参数
| 参数 | 说明 |
|---|---|
| 显存卸载模式 | none:全部放显存;cpu:部分卸载到内存;disk:卸载到硬盘(最省显存但最慢) |
| 量化模式 | none:全精度;fp8-cast:动态 FP8 量化(省显存,速度稍快);fp8-scaled-mm:Hopper GPU 专用 |
| Torch 编译加速 | 首次启用时编译耗时约几分钟,之后每次生成明显加速 |
| 附加 LoRA | 每行一条,格式:/path/to/lora.safetensors,0.8 |
引导参数(高级)
控制扩散过程的引导强度,一般无需修改。
| 参数 | 建议范围 | 说明 |
|---|---|---|
| cfg_scale | 2~7 | 分类器引导强度,越大越贴合提示词但可能过饱和 |
| stg_scale | 0~2 | 跳步引导强度 |
| rescale_scale | 0.5~0.9 | 引导缩放补偿,防止过度饱和 |
| modality_scale | 1~5 | 多模态(音视频)对齐强度 |
| skip_step | 0 | 跳过的初始步数 |
| stg_blocks | 28 | 应用跳步引导的 Transformer 块索引 |
提示词写作技巧
LTX-2 使用 Gemma 进行深度语义理解,支持详细的自然语言描述。保持描述精确具体,像电影分镜表一样思考。建议控制在 200 词以内。
输出与设置保存
输出文件
生成的视频保存在项目根目录的 output/ 文件夹,文件名格式为:
output/{功能名称}_{日期时间}.mp4
HDR 模式额外生成:
output/hdr_{日期时间}_exr/frame_00000.exr
output/hdr_{日期时间}_exr/frame_00001.exr
...
设置保存
- 手动保存:点击「保存设置」按钮
- 自动保存:每次点击「开始生成」时自动保存当前所有参数
- 设置文件保存路径:
{项目根目录}/settings.json - 下次打开应用时,所有参数会自动从
settings.json恢复
常见问题
Q:首次运行需要多少存储空间?
A:完整下载所有模型约需 100 GB 以上空间(dev 模型 ~44 GB、distilled 模型 ~44 GB、Gemma ~22.7 GB、上采样器等)。如果只使用特定功能,只下载对应模型。
Q:最低显存要求是多少?
A:显存较低时可启用「量化模式」(fp8-cast)+ 「显存卸载模式」(cpu 或 disk)组合使用。英伟达显卡显存越低速度越慢,如果不想长时间等待,建议显存大于12GB。
Q:生成结果和提示词不符?
A:
- 增大
cfg_scale(如从 3 调到 5~7) - 提示词更具体,描述更详细
- 开启「自动增强提示词」
- 增加「推理步数」
Q:视频中出现闪烁或不连贯?
A:适当增大 stg_scale 或降低 cfg_scale,也可以尝试不同的随机种子。
Q:两阶段高清模式输出尺寸是多少?
A:输出尺寸约为设置尺寸的 2 倍。例如设置 512×768,实际输出约 1024×1536。
LTX2.3音视频生成软件下载链接
https://pan.quark.cn/s/41e4da892a11
上传中…
相关推荐
AI视频变现项目,完整详细教程20250628期
FlashVSR低分辨率模糊视频高清放大工具整合包v1.1下载,免安装一键启动
人物动作迁移及视频人物替换软件Wan2.2-Animate-14B整合包下载,动作模仿视频换主体工具在线一键启动
无限长度的数字人对话视频生成软件InfiniteTalk整合包,图像转视频、视频配音对口型工具
Wan2.2-S2V-14B:音频驱动图片转视频生成本地整合包及在线一键启动
2D照片转3D视频软件stable-virtual-camera免安装一键启动整合包下载
免费AI视频生成软件FramePack整合包下载,本地离线AI图片转视频工具
免费图片视频摄像头换脸软件VisoMaster整合包下载,面部表情实时调节预览
最近更新

LTX-2.3 视频生成免安装部署整合包软件下载
LTX-2 是由 Lightricks 开发的首个基于 DiT(扩散变换器)架构的音视频基础模型,能够在一个统一模型中同时生成高质量的视频与同步音频。与以往需要分别处理视频和音频的方案不同,LTX-2 将两者深度融合,实现真正的音画同步生成...
windows电脑剪贴板内容管理工具Ditto下载,快速粘贴预设文字内容回复话术
和大家分享一个windows电脑剪贴板内容管理神器Ditto,软件可以快速将预设文字内容填充到指定位置。 由于每天都要写大量文字,有时候还是重复内容,频繁到其它地方复制粘贴的话比较耗时间,所以找到了这款软件,首先佩服一下软件作者,这个软件维...
PDF转word软件FreeP2W免安装版下载
这软件还是很早的时候一个用户让做的,发现没分享过,现在分享一下。 软件主要功能就是把PDF文档转换为word文档 软件使用很简单,把需要处理的pdf文档复制到input文件夹内,双击启动软件.exe,等待处理完成即可。 注意事项 软件只支持...

多人对话有声书制作软件VoxCPM Windows版整合包,高质量声音克隆语音合成工具
前几天调试了刚出的omnivoice,本次再分享一个语音合成(TTS)领域的开源天花板——VoxCPM。我基于原版功能增加了多人对话语音合成功能,因为之前分享的时候有用户有多人对话语音合成需求,这次顺便增加了这个功能。 一、 什么是 Vox...

图片/PDF转HTML/Markdown/JSON软件Chandra—— Windows 版一键启动包,免安装部署,可离线
日常工作和学习中,我们经常需要把 PDF 文档或复杂的图片(包含表格、公式、排版)转换成可编辑的文本。传统的 OCR 软件往往对复杂排版和表格无能为力,Chandra 2对于多语言文档处理表现更加优秀。 今天向大家推荐一款基于多模态大模型的...

【免安装/解压即用】支持600+语言的神级TTS!OmniVoice 零样本语音克隆一键整合包发布
今天为大家带来一款基于近期爆火的开源语音大模型项目 OmniVoice 制作的免安装、纯离线、一键启动整合包!小白也能在自己的电脑上轻松体验当前地表最强的零样本语音克隆技术! 🎯 一、 什么是 OmniVoice?它有多强? OmniVoi...

FunASR语音识别转文字软件区分说话人版
FunASR是一款优秀的基础语音识别框架,配合阿里通义团队开发的其它语音识别模型,能够实现非常好语音转文字效果,尤其在中文语音识别方面,鉴于有些用户需要对语音识别内容区分说话人,我重新做了一版区分说话人的版本。软件支持多语言识别,但是还是尽...

windows系统电脑通过WSL2安装OpenClwa实现开机自动启动详细教程
windows系统原生环境下运行openclaw多少还是会遇到点问题,虽然windows原生环境支持使用,但是WSL2仍是官方最推荐的方式。下面是windows系统电脑安装WSL2及OpenClaw详细教程。 安装 WSL2 以管理员身份打...

openclaw AI助手windows电脑安装部署及微信聊天配置详细教程
openclaw是目前最火爆的开源应用,没有之一,它功能强大远超同类应用。以前AI只是你问它答,OpenClaw可以说是有了手,可以帮你做事,做很多事,如果利用的好,绝对是个利器。下面分享一下windows系统电脑本地安装部署教程,有时候可...

Apple苹果3D 高斯(3DGS)模型ply文件生成器,图片转3D模型软件下载
ml-sharp是Apple苹果团队开发的一款3D高斯(3DGS)生成器,可将图片生成3D效果的ply文件。我基于当前最新版本制作了免安装一键启动整合包。 ml-sharp官方介绍 我们提出了 SHARP,这是一种从单张图像进行照片级逼真视...













