Wan2.2-S2V-14B是阿里通义团队开源的一个视频生成模型,可以通过音频驱动将图片合成为一段人物讲话视频,人物讲话内容就是音频素材内容。同时支持cosyvoice声音克隆的文字转语音合成。

Wan2.2-S2V-14B官方介绍
Wan2.2-S2V-14B模型专为音频驱动的电影视频生成而设计
当前最先进的(SOTA)音频驱动角色动画方法在主要涉及语音和歌唱的场景中表现出色。然而,在更复杂的电影和电视制作中,它们往往无法满足对细腻的角色互动、逼真的身体动作和动态摄像工作的需求。为了解决实现电影级角色动画这一长期挑战,我们提出了一种基于Wan的音频驱动模型,我们称之为Wan-S2V。与现有方法相比,我们的模型在电影情境下显著增强了表现力和保真度。我们进行了广泛的实验,将我们的方法与前沿模型如Hunyuan-Avatar和Omnihuman进行了基准测试。实验结果一致表明,我们的方法显著优于这些现有的解决方案。此外,我们通过其在长视频生成和精确视频唇同步编辑中的应用探索了该方法的多功能性。
Wan2.2是Wan2.1视频模型的重大升级。在Wan2.2中,我们专注于引入以下创新:
- 👍 有效的MoE架构:Wan2.2将混合专家(MoE)架构引入视频扩散模型。通过用专门的强大专家模型分离跨时间步的去噪过程,这扩大了整体模型容量,同时保持相同的计算成本。
- 👍 电影级美学:Wan2.2整合了精心策划的美学数据,包括详细的照明、构图、对比度、色调等标签。这使得可以更精确和可控地生成电影风格,有助于创建具有可定制美学偏好的视频。
- 👍 复杂运动生成:与Wan2.1相比,Wan2.2在更大的数据集上训练,图像增加了+65.6%,视频增加了+83.2%。这种扩展显著提高了模型在多个维度上的泛化能力,如运动、语义和美学,在所有开源和闭源模型中达到顶级性能。
- 👍 高效的高清混合TI2V:Wan2.2开源了一个使用我们先进的Wan2.2-VAE构建的5B模型,实现了16×16×4的压缩比。该模型支持720P分辨率24fps的文字到视频和图像到视频生成,并且可以在像4090这样的消费级显卡上运行。它是目前可用的最快的720P@24fps模型之一,能够同时服务于工业界和学术界。
S2V-14B支持480P & 720P视频生成
Wan2.2-S2V-14B整合包使用说明
我基于当前最新版本制作了免安装一键启动整合包,并制作了一个方便操作的WebUI界面。
首先将网盘内的软件压缩包下载到本地电脑上并解压。
先运行下载模型,模型总共约45.7G
模型下载完成后再运行启动软件.bat,启动成功后会自动打开WebUI界面
操作界面功能比较直观,没什么复杂的。
操作步骤:
先上传一张图片,再上传一段音频素材,音频时长最好不要太长,可能最好不要超过15秒,未测试长音频。
分辨率支持:720 1280,1280 720,480 832,832 480,704 1280,1280 704,1024 704,704 1024
分辨率越大对显卡显存要求越高,视频生成时间也越长,建议分辨率480*832,高分辨率太耗时,已超出可接受时间了
推理帧数可保持默认,值太低的话可能会导致画面异常
其它参数保持默认即可
如果不想上传音频素材文件的话,可以使用cosyvoice声音克隆功能生成一段新音频
在【语音合成】中,勾选启用使用cosyvoice语音合成,上传音色样本文件,音色样本最好3-10秒干净音频,输入音色样本文本内容,输入待合成语音的文本内容。就可以生成一段新的音频用于视频合成。
也可以使用【姿势驱动】控制人物动作。
如果显卡显存低出现爆显存的话,可以勾选【模型卸载】,【转换模型精度】,【T5模型在CPU上运行】
视频教程及效果演示:https://nuowa.net/2201
注意事项
软件运行时内存使用峰值超55G
英伟达显卡显存16G以上,建议48G起,
支持英伟达50系列显卡
只支持windows10或11
使用前请先更新英伟达显卡驱动
Wan2.2-S2V-14B整合包下载链接
Wan2.2-S2V-14B在线一键启动
Wan2.2-S2V-14B本地电脑部署教程
相关推荐
优云智算HappyHorse AI 视频生成API KEY WebUI
人物动作迁移及视频人物替换软件Wan2.2-Animate-14B整合包下载,动作模仿视频换主体工具在线一键启动
超强AI数字人EchoMimicV2一张半身照片即可生成一段主播解说视频,整合包下载
免费AI视频全自动生成软件,AI一键批量制作短视频工具MoneyPrinterTurbo整合包下载
BiliNote:自动生成B站油管视频笔记,AI视频内容总结工具
LTX-2.3 视频生成免安装部署整合包软件下载
FlashVSR低分辨率模糊视频高清放大工具整合包v1.1下载,免安装一键启动
无限长度的数字人对话视频生成软件InfiniteTalk整合包,图像转视频、视频配音对口型工具
最近更新

最强分说话人语音识别工具,支持批量音视频识别转字幕,字幕翻译内容总结
本软件是一款基于 Qwen3-ASR-1.7B 大模型的本地音视频语音识别工具,配备说话人分离功能,可在个人电脑上实现: 整个流程通过简洁的 Gradio Web 界面 操作,点击按钮即可完成识别与导出。 主要功能特点 1. 单文件识别与批...

最强PR中文视频自动语音识别生成字幕插件,语音识别准确率高支持多国语言
上次和大家分享了PR非常好用的自动剪辑口播视频静音片段插件,如果想要自动生成视频字幕的话,用PR自带的语音识别转字幕工具,效果非常差,语音识别准确率非常低,识别的文本差太多手动修改起来极其麻烦,反而更加浪费时间了。为了提高工作效率,降低人工...

祝贺凡人修仙传2026年新年番开播同时在线人数超64万
今天6月13日凡人修仙传新年番开播,同时在线人数破64万(非最高在线人数,只是我看到的在线人数),作为凡人5年老粉,必须发个帖祝贺一下。 我比较喜欢看动漫,各种类型看了很多,具体不清楚多少,像斗罗斗破之类看了一大半终究是没能看下去,还是雾山...

Premiere Pro静音片段自动剪辑插件——Silence Remover使用教程及下载
对于做口播、Vlog、播客剪辑的朋友来说,最耗时的工作之一就是手动找出视频中的”哑巴”片段——说话间隙、停顿、思考时的”嗯啊”——并逐一删除。今天给大家介绍一款来自 Phantom Edito...

蛙蛙写作-能替你"打工"的AI写作平台,附邀请码:UZekHC
我不是一个容易被工具说服的人。用过 ChatGPT、试过各种”AI写作神器”,大多数要么写出来全是机翻腔,要么根本不懂网文的爆款逻辑。 直到我开始用蛙蛙写作,才发现原来一个工具真的可以懂你想写什么。 🐸 蛙蛙写作是什...

PDFMathTranslate + MinerU 批量PDF全文双语翻译转Markdown工具
本工具是一款基于 PDFMathTranslate 与 MinerU 整合的桌面端 PDF 翻译工具,通过简洁的 Web 界面实现一键式 PDF 全文双语翻译,并可选择将翻译结果导出为 Markdown 格式,方便导入知识库或进行二次编辑。...

Claude居然自称“本人”
今天在和Claude聊网文写作的时候,Claude回复中居然自称本人,这让我有点震惊。 我经常会和AI聊工具功能对比等话题,ChatGPT、Gemini、Claude这些以前我记得从来没有自称过本人的,好像都是本模型,本工具等等,反正从来没...

图像无损放大神器:Topaz Gigapixel AI软件下载及使用指南
在数字内容创作成风头的今天,我们经常会遇到低分辨率素材模糊、AI 生成图片尺寸太小、或者老照片充满噪点的情况。传统的图像放大方式(如双三次插值)只是单纯地拉伸像素,容易让画面变得模糊、虚化。 如果你正在寻找一种能“凭空”补齐细节、让低画质瞬...

AI视频提示词反推工具,参考视频即梦提示词一键生成
本工具是一款面向 AI 视频生成创作者的本地离线辅助软件。用户导入任意视频文件,工具会自动完成场景检测、关键帧提取、多模态模型分析、提示词拼装等全流程,最终输出一份可直接复制粘贴到即梦 AI 等视频生成平台的完整提示词。 适用场景 功能特点...
免费在线HTML转markdown工具
经常看一些在线文档,想复制给AI参考的话不方便直接复制,转换成markdown再给AI阅读会更简单明了,也方便自己查阅,这里给大家推荐两个在线的免费HTML转markdown网站。 1、https://d1tools.com/tools/c...
















