字节的最新研究——DreamActor-M1：一种全方位、富有表-20250404091546（微信文章未删减版）

字节的最新研究——DreamActor-M1：一种全方位、富有表现力且稳健的人像动画生成框架，采用混合指导策略。

1. 核心亮点：DreamActor-M1基于 DiT 设计，通过混合指导机制实现了精细的全方位可控性、多尺度适应性和长期时间连贯性。无论是肖像还是全身动画，该框架都能根据参考图像，模仿视频中捕获的人类行为，产生高度逼真和表现力强的动画视频。

2. 技术创新：为了克服现有人像动画方法在细粒度控制、多尺度适应和长期时间连贯性方面的不足，DreamActor-M1整合了隐式面部表示、3D头部球体和3D身体骨骼等混合控制信号，以健壮的方式控制面部表情和身体动作，并保持动画的表现力和身份一致性。此外，通过采用逐步训练策略和集成来自连续帧的运动模式与补充视觉参考，该方法在处理复杂动作时，确保了未见区域的长期时间连贯性。

3. 多样性与稳健性：DreamActor-M1适应多种角色和动作风格，支持音频驱动的面部动画生成、多语言唇同步效果，以及仅转移部分动作（如面部表情和头部动作）等功能。此外，通过骨骼长度调整技术，实现了对形状感知动画的适应，增强了动画结果的多样性和稳健性。

4. 相较于当前最先进的方法，DreamActor-M1在细粒度动作生成、身份保持、时间连贯性和高保真度方面均展现出卓越性能。

论文：arxiv.org/abs/2504.01724

#ai创造营##科技##程序员#

黄建同学的微博视频

字节的最新研究——DreamActor-M1：一种全方位、富有表-20250404091546

正文

2025-04-04 09:15
本条微博链接