本次和大家分享一个字节跳动开发的强大的音频驱动口型数字人视频制作软件LatentSync,我以前也分享过不少类似软件了,比如:EchoMimic、VideoReTalking、hallo。字节的推出的这个效果稍微更好一点,我制作了最新版的一键启动整合包。
————————————————
2025-03-19更新V1.5版本
2025-06-13更新v1.6版本

LatentSync官方说明
LatentSync:嘴唇同步的音频条件潜在扩散模型。我们提出了LatentSync,这是一种基于音频条件潜在扩散模型的端到端唇形同步框架,没有任何中间运动表示,与之前基于像素空间扩散或两阶段生成的基于扩散的唇形同步方法不同。我们的框架可以利用Stable Diffusion的强大功能来直接模拟复杂的视听相关性。此外,我们发现基于扩散的唇形同步方法由于不同帧间扩散过程的不一致性而表现出较差的时间一致性。我们提出了时间再现对齐(TREPA)来提高时间一致性,同时保持唇形同步的准确性。TREPA使用由大规模自监督视频模型提取的时间表示来将生成的帧与地面真实帧对齐。
LatentSync使用Whisper将融合频谱图转换为音频嵌入,然后通过交叉注意力层将其集成到U-Net中。参考帧和掩码帧与噪声延迟按信道连接,作为U-Net的输入。在训练过程中,我们使用一步法从预测的噪声中得到估计的干净延迟,然后对其进行解码以获得估计的干净帧。TREPA、LPIPS和SyncNet损耗被添加到像素空间中。
V1.5版本更新说明:
(1)通过添加时间层提高了时间一致性,(2)提高了中文视频的性能,(3)通过一系列优化将stage2训练的VRAM要求降低到20 GB。
V1.6版本更新说明:
它在 512×512 分辨率的视频上训练所得,可以缓解模糊问题。
LatentSync整合包使用说明
首先将软件压缩包下载到本地电脑并解压,双击【启动软件.exe】,稍等一会加载模型,完成后会自动打开webUI界面。
操作界面比较简单,左上部分上传视频素材,左下部分上传驱动音频,然后点击按钮Process Video即可开始合成视频。所需时间由电脑配置决定,建议英伟达显卡显存4G以上用户使用。
合成完成后右侧可播放视频或下载视频,在软件项目文件夹内的temp文件夹内也可以找到合成视频。
注意事项
使用前先更新英伟达显卡驱动到最新版
如果视频素材和音频素材时长不一致,最终合成视频时长由最短的那个决定。
音频素材末尾最好增加0.5到1秒的静音片段,以防最终视频结尾不完整。
整合包只支持Windows 10或11系统
软件运行路径中不要有非英文字符和空格
支持英伟达50系列显卡
1.0版本电脑英伟达显存不低于6G
1.5版本电脑英伟达显存不低于8G
1.6版本电脑英伟达显存不低于12G
数字人视频制作软件LatentSync最新整合包下载链接
https://pan.quark.cn/s/5455cfb8e06d
https://pan.xunlei.com/s/VOScA02YRVdw9PE4vdY3_zaNA1?pwd=s5mg#
数字人对口型软件LatentSync本地电脑安装部署教程
相关推荐
无限长度的数字人对话视频生成软件InfiniteTalk整合包,图像转视频、视频配音对口型工具
音频驱动口型超逼真数字人视频制作软件Sonic整合包下载
字节跳动唇形同步数字人视频制作软件LatentSync整合包使用说明视频教程
图片数字人视频制作软件LivePortrait整合包下载,图片转视频动物人物表情转移工具
超强AI数字人EchoMimicV2一张半身照片即可生成一段主播解说视频,整合包下载
音频驱动口型数字人视频制作软件VideoReTalking整合包,音频视频人物对口型
音频驱动数字人视频制作EchoMimic整合包,免费让照片图片开口说话的软件
音频驱动口型生成视频软件video-retalking整合包免费下载,基于音频的唇形同步工具
最近更新

人物动作迁移及视频人物替换软件Wan2.2-Animate-14B整合包下载,动作模仿视频换主体工具在线一键启动
本次和大家分享一个非常强大的动作模仿及视频人物替换工具Wan2.2-Animate-14B,Wan-Animate接受一个视频和一个角色图像作为输入,并生成一个动作模仿或人物替换的视频,视频自然流畅,效果强大。 Wan2.2-Animate...

无限长度的数字人对话视频生成软件InfiniteTalk整合包,图像转视频、视频配音对口型工具
InfiniteTalk是一款发布不久的数字人视频制作软件,软件可以通过音频驱动将一张图片合成为一段视频,或是将视频与音频整合成一段新视频,实现音频唇形同步,是一个非常强大的对口型工具。 InfiniteTalk官方介绍 我们提出了一种新颖...

UV包管理器用法基础教程
UV是一个用 Rust 编写的高性能工具,旨在替代 Python 传统的包管理工具链,速度比 pip 和 Conda 快数十甚至上百倍。 安装 uv 你可以通过一条命令安装 uv: 安装后,...

一句话编辑图片工具OmniGen2整合包下载,输入文本快速P图
和大家分享一个高效强大的一句话P图软件OmniGen2,这个软件可以通过输入一段描述词然后直接对图片内容进行修改,就像PS修图一样,但是操作起来更简单方便。我基于当前最新版本制作了windows版免安装一键启动整合包。 OmniGen2官方...

Wan2.2-S2V-14B:音频驱动图片转视频生成本地整合包及在线一键启动
Wan2.2-S2V-14B是阿里通义团队开源的一个视频生成模型,可以通过音频驱动将图片合成为一段人物讲话视频,人物讲话内容就是音频素材内容。同时支持cosyvoice声音克隆的文字转语音合成。 Wan2.2-S2V-14B官方介绍 Wan...

pixi包管理器简易教程系列:pypi方法安装pytorch
pytorch可以从conda-forge安装,也可以从Pypi安装,看到目前官方页面上安装命令里已经不提供conda的安装命令了,只有pip命令,所以这里用pypi方式安装。 打开项目文件夹内的pixi.toml文件,添加下面命令要求 执...

pixi包管理器简易教程系列:入门之创建项目及激活虚拟环境
pixi是新一代包管理和环境管理工具,安装python依赖包非常快,用了几次感觉还不错,记录一下个人学习使用pixi的一些经验。 Linux系统安装pixi方法 或是 wget -qO- https://pixi.sh/install.sh...

comfyui视频人物换主体工作流及模型下载
本次分享一个好玩的视频人物换主体工作流,本工作流可以使用一张图片中的主体替换视频中的人物主体。比如抖音上很多热门的猴子炒饭,奥特曼炒饭,猴子vlog等等,都可以使用人物主体替换把原来视频中的人物替换成指定的人物。 comfyui工作流节点使...

github.com镜像加速网站,解决无法访问下载速度慢的问题
github.com是全球最大的开源社区,上面有着大量的优秀的开源应用。特别是当前AI极速发展,各种AI应用层出不穷,极大的方便了我们生活办公。但是由于网络原因,有时候github.com从国内可能无法访问,要么就访问速度极慢,不能方便快捷...

comfyui工作流软件官方原版windows版一键启动整合包下载
comfyui是目前非常热门的一个应用,它使python应用可以图形化以节点的方式直接拖拽使用,使用起来非常方便,而且可以与其他python应用节点配合使用,大大丰富了comfyui的功能,而且网上大量平台可以下载到各种的comfyui工作...