面部表情姿态全覆盖，Omni-ID：5s 生成高保真个体图片（微信文章未删减版）

正文

团队提出了 Omni-ID，这是一种为生成任务设计的创新人脸表示方法。Omni-ID 能够编码个体在多种表情和姿态下的全面人脸信息。它将多个非结构化的人脸图像整合为固定大小的结构化表示，每个表示条目捕捉特定的全局或局部人脸特征。
通过 few-to-many identity reconstruction （少对多人脸重建）的训练范式，团队使用少量图像输入，重建同一人在多种姿态和表情下的多张目标图像。Omni-ID 的训练框架采用 multi-decoder objectives （多解码器策略），结合了不同解码器的优势，以增强人脸特征。
与传统人脸表示（如 ArcFace和CLIP）的判别式或对比式目标不同，Omni-ID 使用生成式目标进行优化，从而更细腻地捕捉适用于生成任务的人脸特征。在团队开发的 MFHQ 数据集训练后，Omni-ID 在不同下游生成任务中表现出了显著的性能提升。

论文题目：
Omni-ID: Holistic Identity Representation Designed for Generative Tasks
论文链接：
https://arxiv.org/abs/2412.09694v1
项目主页：
https://snap-research.github.io/Omni-ID/

Omni-ID 是一种为生成任务量身定制的新型面部表示方法，它能够将非结构化的图像中的身份特征编码为固定大小的表示，同时捕捉个体多样化的表情和姿态，从而实现高保真的个性化生成。

一、动机

生成能够准确表达个体人脸的图像需要一种能够描绘丰富细节、涵盖多种表情和姿态的人脸表示方法。然而，现有方法存在以下不足：

依赖单张图像的编码，缺乏对个体全面外貌信息的捕捉。
优化目标主要面向判别任务，难以保留定义个体独特人脸的细微差异，尤其是在多种姿态和表情下。

图：不同人脸表示在生成任务中的表现对比

二、方法

团队提出了一种名为 Omni-ID 的新型人脸表示方法，主要特点包括：

Omni-ID 编码器：接收多张图像输入，通过自注意力和跨注意力机制学习全局和局部人脸特征，生成固定大小的编码。
少对多人脸重建：输入少量图像，通过多解码器生成同一人在多种场景、姿态和表情下的图像。
多解码器策略：结合不同解码器的特性，提升表示学习的鲁棒性和增强细节表示。

2.1 少对多人脸重建

Omni-ID 使用 少对多身份重建训练范式，不仅能够重建输入图像，还可以生成同一身份在各种场景、姿态和表情下的多样化图像。这种策略鼓励表示方法捕捉在不同条件下观察到的核心身份特征，同时缓解对单一输入图像特定属性的过拟合问题。

Omni-ID 采用 多解码器训练目标，结合了多种解码器的独特优势，例如提升生成图像的保真度或减少身份泄露问题，同时缓解单一解码器的局限性。这使得输入图像中包含的详细面部信息能够被充分利用，从而生成更鲁棒的编码，在各种生成任务中有效泛化。

图：Omni-ID 的少对多人脸重建训练策略

2.2 Omni-ID 编码器

Omni-ID 编码器使用跨注意力机制提取输入图像的关键信息，并通过自注意力进一步优化编码表示。其生成的编码能够综合多个输入图像的人脸特征。

三、实验

3.1 个性化文本到图像生成（表示方法对比）

Omni-ID 在单张和多张输入图像条件下的人脸保留能力显著优于 CLIP。

图：不同表示方法在个性化文本到图像生成任务中的定性对比

3.2 个性化文本到图像生成（与 SOTA 对比）

Omni-ID 在 FLUX 模型上表现超越了现有的个性化技术（如 PuLID）。

图：使用 FLUX 模型的个性化文本到图像生成任务中与 SOTA 方法的定性对比

3.3 基于SD base model的个性化生成

Omni-ID 也可以用于SD模型，并优于其他方法。

图：基于SD的个性化文本到图像生成任务中的 SOTA 对比

3.4 可控人脸生成

Omni-ID 实现了卓越的人脸保留能力，能够更真实地捕捉细节，同时适应多种姿态和表情。

图：与 SOTA 方法在可控人脸生成任务中的定性对比

四、总结

本文介绍了Omni-ID，一种专为生成任务设计的人脸表示方法，能够捕捉个体在不同表情和姿态下的整体人脸特征。在少到多人脸重建框架下训练，Omni-ID 编码器能够从多样化的输入图像中编码细粒度的人脸特征，展现出卓越的整体人脸特征提取能力。与 ArcFace 和 CLIP 等判别式表示不同，Omni-ID 保留了对于高保真生成任务至关重要的细微人脸信息。未来工作涵盖将Omni-ID扩展至头发与体型，扩大数据和模型规模，以及用于更多样的下游任务。

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文