阿里的FantasyTalking,提出了一个新颖的框架,该框架利用预训练的视频扩散Transformer模型来生成具有可控运动动态的高保真、连贯的说话人脸视频↓
研究的核心是一种双阶段视听对齐策略。
在第一阶段,采用片段级训练方案,通过对齐整个场景(包括参考肖像、上下文对象和背景)中的音频驱动动态来建立连贯的全局运动。
在第二阶段,使用唇部追踪掩模在帧级别优化唇部运动,确保与音频信号的精确同步。
为了在不影响运动灵活性的情况下保留一致性,用以面部为中心的交叉注意力模块替换了常用的参考网络,该模块可有效地在整个视频中保持面部一致性。此外,还集成了一个运动强度调制模块,可以精确控制表情和肢体运动强度,从 而实现对肖像运动(而不仅仅是唇部运动)的可控操控。
#ai创造营##科技##deepseek#
论文:arxiv.org/abs/2504.04842
项目:fantasy-amap.github.io/fantasy-talking/ 黄建同学的微博视频
研究的核心是一种双阶段视听对齐策略。
在第一阶段,采用片段级训练方案,通过对齐整个场景(包括参考肖像、上下文对象和背景)中的音频驱动动态来建立连贯的全局运动。
在第二阶段,使用唇部追踪掩模在帧级别优化唇部运动,确保与音频信号的精确同步。
为了在不影响运动灵活性的情况下保留一致性,用以面部为中心的交叉注意力模块替换了常用的参考网络,该模块可有效地在整个视频中保持面部一致性。此外,还集成了一个运动强度调制模块,可以精确控制表情和肢体运动强度,从 而实现对肖像运动(而不仅仅是唇部运动)的可控操控。
#ai创造营##科技##deepseek#
论文:arxiv.org/abs/2504.04842
项目:fantasy-amap.github.io/fantasy-talking/ 黄建同学的微博视频