Wan2.2-S2V-14B是阿里通义团队开源的一个视频生成模型,可以通过音频驱动将图片合成为一段人物讲话视频,人物讲话内容就是音频素材内容。同时支持cosyvoice声音克隆的文字转语音合成。

Wan2.2-S2V-14B官方介绍
Wan2.2-S2V-14B模型专为音频驱动的电影视频生成而设计
当前最先进的(SOTA)音频驱动角色动画方法在主要涉及语音和歌唱的场景中表现出色。然而,在更复杂的电影和电视制作中,它们往往无法满足对细腻的角色互动、逼真的身体动作和动态摄像工作的需求。为了解决实现电影级角色动画这一长期挑战,我们提出了一种基于Wan的音频驱动模型,我们称之为Wan-S2V。与现有方法相比,我们的模型在电影情境下显著增强了表现力和保真度。我们进行了广泛的实验,将我们的方法与前沿模型如Hunyuan-Avatar和Omnihuman进行了基准测试。实验结果一致表明,我们的方法显著优于这些现有的解决方案。此外,我们通过其在长视频生成和精确视频唇同步编辑中的应用探索了该方法的多功能性。
Wan2.2是Wan2.1视频模型的重大升级。在Wan2.2中,我们专注于引入以下创新:
- 👍 有效的MoE架构:Wan2.2将混合专家(MoE)架构引入视频扩散模型。通过用专门的强大专家模型分离跨时间步的去噪过程,这扩大了整体模型容量,同时保持相同的计算成本。
- 👍 电影级美学:Wan2.2整合了精心策划的美学数据,包括详细的照明、构图、对比度、色调等标签。这使得可以更精确和可控地生成电影风格,有助于创建具有可定制美学偏好的视频。
- 👍 复杂运动生成:与Wan2.1相比,Wan2.2在更大的数据集上训练,图像增加了+65.6%,视频增加了+83.2%。这种扩展显著提高了模型在多个维度上的泛化能力,如运动、语义和美学,在所有开源和闭源模型中达到顶级性能。
- 👍 高效的高清混合TI2V:Wan2.2开源了一个使用我们先进的Wan2.2-VAE构建的5B模型,实现了16×16×4的压缩比。该模型支持720P分辨率24fps的文字到视频和图像到视频生成,并且可以在像4090这样的消费级显卡上运行。它是目前可用的最快的720P@24fps模型之一,能够同时服务于工业界和学术界。
S2V-14B支持480P & 720P视频生成
Wan2.2-S2V-14B整合包使用说明
我基于当前最新版本制作了免安装一键启动整合包,并制作了一个方便操作的WebUI界面。
首先将网盘内的软件压缩包下载到本地电脑上并解压。
先运行下载模型,模型总共约45.7G
模型下载完成后再运行启动软件.bat,启动成功后会自动打开WebUI界面
操作界面功能比较直观,没什么复杂的。
操作步骤:
先上传一张图片,再上传一段音频素材,音频时长最好不要太长,可能最好不要超过15秒,未测试长音频。
分辨率支持:720 1280,1280 720,480 832,832 480,704 1280,1280 704,1024 704,704 1024
其它参数保持默认即可
如果不想上传音频素材文件的话,可以使用cosyvoice声音克隆功能生成一段新音频
在【语音合成】中,勾选启用使用cosyvoice语音合成,上传音色样本文件,音色样本最好3-10秒干净音频,输入音色样本文本内容,输入待合成语音的文本内容。就可以生成一段新的音频用于视频合成。
也可以使用【姿势驱动】控制人物动作。
如果显卡显存低出现爆显存的话,可以勾选【模型卸载】,【转换模型精度】,【T5模型在CPU上运行】
注意事项
软件运行时内存使用峰值超55G
英伟达显卡显存16G以上,建议48G,
支持英伟达50系列显卡
只支持windows10或11
使用前请先更新英伟达显卡驱动
Wan2.2-S2V-14B整合包下载链接
https://pan.quark.cn/s/726d316b19f6
Wan2.2-S2V-14B在线一键启动
Wan2.2-S2V-14B本地电脑部署教程
相关推荐
超强AI数字人EchoMimicV2一张半身照片即可生成一段主播解说视频,整合包下载
免费AI视频全自动生成软件,AI一键批量制作短视频工具MoneyPrinterTurbo整合包下载
2D照片转3D视频软件stable-virtual-camera免安装一键启动整合包下载
免费AI视频生成软件FramePack整合包下载,本地离线AI图片转视频工具
免费图片视频摄像头换脸软件VisoMaster整合包下载,面部表情实时调节预览
免费图片视频人像模糊老旧照片变高清软件CodeFormer整合包下载
视频人物抠像软件MatAnyone整合包下载,AI视频抠图工具
音频驱动口型超逼真数字人视频制作软件Sonic整合包下载
最近更新

Wan2.2-S2V-14B:音频驱动图片转视频生成本地整合包及在线一键启动
Wan2.2-S2V-14B是阿里通义团队开源的一个视频生成模型,可以通过音频驱动将图片合成为一段人物讲话视频,人物讲话内容就是音频素材内容。同时支持cosyvoice声音克隆的文字转语音合成。 Wan2.2-S2V-14B官方介绍 Wan...

pixi包管理器简易教程系列:pypi方法安装pytorch
pytorch可以从conda-forge安装,也可以从Pypi安装,看到目前官方页面上安装命令里已经不提供conda的安装命令了,只有pip命令,所以这里用pypi方式安装。 打开项目文件夹内的pixi.toml文件,添加下面命令要求 执...

pixi包管理器简易教程系列:入门之创建项目及激活虚拟环境
pixi是新一代包管理和环境管理工具,安装python依赖包非常快,用了几次感觉还不错,记录一下个人学习使用pixi的一些经验。 Linux系统安装pixi方法 或是 wget -qO- https://pixi.sh/install.sh...

comfyui视频人物换主体工作流及模型下载
本次分享一个好玩的视频人物换主体工作流,本工作流可以使用一张图片中的主体替换视频中的人物主体。比如抖音上很多热门的猴子炒饭,奥特曼炒饭,猴子vlog等等,都可以使用人物主体替换把原来视频中的人物替换成指定的人物。 comfyui工作流节点使...

github.com镜像加速网站,解决无法访问下载速度慢的问题
github.com是全球最大的开源社区,上面有着大量的优秀的开源应用。特别是当前AI极速发展,各种AI应用层出不穷,极大的方便了我们生活办公。但是由于网络原因,有时候github.com从国内可能无法访问,要么就访问速度极慢,不能方便快捷...

comfyui工作流软件官方原版windows版一键启动整合包下载
comfyui是目前非常热门的一个应用,它使python应用可以图形化以节点的方式直接拖拽使用,使用起来非常方便,而且可以与其他python应用节点配合使用,大大丰富了comfyui的功能,而且网上大量平台可以下载到各种的comfyui工作...

视频人物动作迁移wan2.1 VACE comfyUI工作流及模型下载,一键人物动作复刻
本次分享一个非常好玩的视频人物动作迁移comfyui工作流,可以通过文生视频或图片转视频将视频素材中的人物动作复制到新生成的视频人物中,视频生成模型主要使用了wan2.1 VACE模型。 comfyui工作流节点使用说明 首先打开网盘链接将...

凡人修仙传动画韩立高清图片壁纸素材AI绘画图集
恭迎韩天尊! 祝贺韩天尊顺利结婴! 热门国漫凡人修仙传动画已经更新了5年了,最新一集,主人公韩立顺利结婴,成为一名元婴修士。我属于是比较喜欢看动漫的,看过的动漫估计没过百也得大几十了,热门国漫大多都看过。凡人修仙传算是最喜欢的动漫之一,韩立...

凡人修仙传动画紫灵高清图片壁纸素材AI绘画图集,AI国漫女神系列
凡人修仙传动画乱星海第一美女紫灵是大家非常喜欢的一个角色,动画人物造型精美,是众多女性角色中最受欢迎之一,热度极高。很多人喜欢收集紫灵的图片,但是视频里截图的话可能截不到喜欢的图,下面分享一些紫灵的AI绘画图片素材,图片都是SD生成的,都是...

凡人修仙传动画宋玉高清图片壁纸素材AI绘画图集,AI国漫女神系列
凡人修仙传动画里宋玉是大家比较喜欢的一个角色,动画人物造型精美,当前热度极高。虽然凡人修仙传原著里只是韩老魔的弟子,但是很多短视频创作者非常能整活,已经把宋玉纳入韩老魔后宫了。很多人喜欢收集宋玉的图片,但是视频里截图的话可能截不到喜欢的图,...