扩散模型近年来在图像和视频生成领域取得了显著进展,推动了人像动画生成的研究与应用。这项技术通过将参考图像动画化,广泛应用于娱乐、游戏、元宇宙等领域,为虚拟角色提供逼真动作、提升创作效率,并为创作者带来更多创意工具。然而,现有方法在复杂动作场景下仍面临诸多挑战,如身份一致性差,导致面部特征失真;依赖第三方工具进行后处理,降低视频整体质量;以及时序建模对空间特征分布的扰动,使ID一致性与视频保真度难以平衡。
为解决这些问题,来自复旦大学、微软、虎牙、CMU的研究团队提出了StableAnimator框架,实现高保真且身份一致的人像视频生成,相关代码现已开源。
扩散模型近年来在图像和视频生成方面取得了显著成功,极大地激发了图像动画领域的研究。尤其是人像图像动画利用生成模型根据一系列姿态序列动画化参考图像,从而合成可控的人体动画视频,这在娱乐内容创作和虚拟现实体验等应用中具有广泛前景,具体应用场景包括:(1)娱乐与影视:帮助动画师轻松制作高质量虚拟角色动画,显著提升工作效率。(2)游戏与元宇宙:为游戏角色和虚拟形象提供逼真的动作生成,让玩家体验更沉浸。(3)个性化内容创作:为短视频创作者、数字艺术家提供新的创意工具,实现精准的动态形象设计。
人像动画生成的核心在于:在参考图像的基础上,根据输入的动作序列生成动态视频,同时保持人物的身份信息(尤其是面部特征)。然而,现有方法在复杂动作变化场景下,常出现以下问题:
(1)身份(ID)一致性差,面部区域容易因动作变化出现失真。
(2)视频质量下降,最新的人像图像动画生成模型(MimicMotion和ControlneXt)依赖于第三方换脸工具(FaceFusion)对生成的视频进行后处理,导致视频整体质量下降。
(3)空间与时序建模冲突,即使当前有很多针对ID一致性的图片生成模型,但是将这些来自图像生成的模型直接插入到视频生成模型中容易导致空间与时序建模冲突,根本原因是现有视频扩散模型在加入时间建模层后,空间特征的分布发生变化,而这些ID一致性的图片生成模型依赖于稳定的空间特征分布,时序建模导致的空间特征分布扰动会影响图片生成模型的性能急剧下降,从而造成ID保留与视频保真度之间的冲突。
为了解决上述问题,来自复旦、微软、虎牙、CMU的研究团队提出StableAnimator框架,以实现高质量和高保真的ID一致性人类视频生成,目前代码已开源,包括推理代码和训练代码。
论文标题:
StableAnimator: High-Quality Identity-Preserving Human Image Animation
论文地址:
https://arxiv.org/abs/2411.17697
项目代码:
https://github.com/Francis-Rings/StableAnimator
项目主页:
https://francis-rings.github.io/StableAnimator/
项目Demo:
https://www.bilibili.com/video/BV1X5zyYUEuD
一、方法简介
如下图所示,StableAnimator 基于先前工作的常用骨干模型 Stable Video Diffusion (SVD) 构建。用户输入的参考图像通过扩散模型经过三条路径处理:(1)通过冻结的 VAE 编码器转换为潜变量特征,潜变量特征被复制以匹配视频帧数,并与主要潜变量进行拼接。(2)通过 CLIP 图像编码器编码以获得图像嵌入,这些嵌入分别输入到去噪 U-Net 的每个交叉注意力块和StableAnimator的面部编码器中,用于调控生成的外观。(3)输入到 ArcFace以获得面部嵌入,ArcFace是一种人脸特征提取模型,这些嵌入随后通过StableAnimator的面部编码器进一步优化以实现更高的对齐度。优化后的面部嵌入随后被输入到去噪 U-Net 中。PoseNet 类似于AnimateAnyone中的结构,负责提取姿态序列的特征,这些特征随后被添加到噪声潜变量特征中。
在推理阶段,StableAnimator将原始输入视频帧替换为随机噪声,同时保持其他输入不变。StableAnimator引入了一种新颖的基于 Hamilton-Jacobi-Bellman(HJB)方程的面部优化方法,用于提升身份一致性并彻底摆脱对第三方后处理工具的依赖。该方法将 HJB 方程的求解过程整合到去噪过程中,HJB 方程的最优解会更新U-Net中的潜变量特征,迫使它在去噪过程中往能实现更高的ID一致性的方向进行分布移动。
StableAnimator具有三个核心技术点:
(1)全局内容感知面部编码器(Global Content-aware Face Encoder):引入一种新型的面部编码器,使面部嵌入特征与图像整体布局进行深度交互,面部特征通过多层交叉注意力模块,与参考图像的全局上下文特征对齐,有效减少与身份无关的背景噪声,提升面部建模质量。
(2)分布感知的身份适配器(Distribution-aware ID Adapter):针对扩散模型时序层对空间特征分布的扰动,提出一种分布对齐策略。通过计算面部特征和图像特征的均值与方差,确保两者在每个去噪步骤中逐步对齐,从而避免特征失真,适配器的设计允许面部特征与时序层的无缝结合,同时不损失视频的整体保真度。
(3)基于Hamilton-Jacobi-Bellman (HJB) 方程的面部优化:该优化过程只在模型推理阶段触发,并且不会训练更新U-Net的任何模块,StableAnimator将HJB优化方程引入扩散模型的推理过程中,以增强面部质量,HJB方程通过动态系统中的最优变量选择原则,将面部特征优化与去噪过程并行进行,优化后的变量能够约束去噪路径,引导模型生成与参考图像一致的身份特征,显著减少细节失真。二、生成结果示例
请点击访问项目主页(https://francis-rings.github.io/StableAnimator/)获取以上示例的高清原视频。三、实验对比分析
3.1 与SOTA方法的定性对比实验
Disco、MagicAnimate、AnimateAnyone和Champ在面部/身体变形以及服装变化方面存在明显问题,而Unianimate准确地修改了参考图像的动作,MimicMotion和ControlNeXt有效保留了服装细节。然而,所有对比的模型均难以保持参考图像的身份一致性。相比之下,我们的StableAnimator能够基于给定的姿势序列精确地动画化图像,同时保持参考身份信息的完整性,突显了我们模型在身份保持和生成精确、生动动画方面的优势。
3.2 与SOTA方法的定量对比实验
StableAnimator与当前的SOTA人像图像动画模型在TikTok数据集和Unseen100数据集进行定量对比,其中Unseen100数据集是作者额外在主流视频网站收集的100个视频,相比于以前的主流数据集TikTok数据集,Unseen100数据集含相对复杂的动作信息以及精细的主体外观。
此外,Unseen100 数据集中的一些视频中,位置和面部表情动态变化,例如摇头动作,使得保持身份一致性更具挑战性。值得注意的是所有模型均在StableAnimator的训练集上训练后再对Unseen100进行评估,以确保公平性。对比实验结果如上表所示,CSIM衡量两个图像的面部嵌入的余弦相似度,可以发现StableAnimator在面部质量(CSIM)和视频保真度(FVD)方面均超过了所有对比模型,同时保持了较高的单帧质量。
具体而言,StableAnimator相比于最领先的对比模型Unianimate,在两个数据集上的CSIM分别提高了36.9%和45.8%,而未牺牲视频保真度和单帧质量。
3.3 与SOTA方法在长视频生成的对比实验
更多的对比实验可以参考原论文。基于上述对比实验结果,StableAnimator相比于以前的SOTA方法可以生成更加高质量逼真的ID一致视频,StableAnimator在娱乐内容创作和虚拟现实体验方面可以给用户带来全新的高保真的人类形象动画体验。