团队提出了 Omni-ID,这是一种为生成任务设计的创新人脸表示方法。Omni-ID 能够编码个体在多种表情和姿态下的全面人脸信息。它将多个非结构化的人脸图像整合为固定大小的结构化表示,每个表示条目捕捉特定的全局或局部人脸特征。
通过 few-to-many identity reconstruction (少对多人脸重建)的训练范式,团队使用少量图像输入,重建同一人在多种姿态和表情下的多张目标图像。Omni-ID 的训练框架采用 multi-decoder objectives (多解码器策略),结合了不同解码器的优势,以增强人脸特征。
与传统人脸表示(如 ArcFace和CLIP)的判别式或对比式目标不同,Omni-ID 使用生成式目标进行优化,从而更细腻地捕捉适用于生成任务的人脸特征。在团队开发的 MFHQ 数据集 训练后,Omni-ID 在不同下游生成任务中表现出了显著的性能提升。
论文题目:
Omni-ID: Holistic Identity Representation Designed for Generative Tasks
论文链接:
https://arxiv.org/abs/2412.09694v1
项目主页:
https://snap-research.github.io/Omni-ID/
Omni-ID 是一种为生成任务量身定制的新型面部表示方法,它能够将非结构化的图像中的身份特征编码为固定大小的表示,同时捕捉个体多样化的表情和姿态,从而实现高保真的个性化生成。
一、动机
生成能够准确表达个体人脸的图像需要一种能够描绘丰富细节、涵盖多种表情和姿态的人脸表示方法。然而,现有方法存在以下不足:
依赖单张图像的编码,缺乏对个体全面外貌信息的捕捉。
- 优化目标主要面向判别任务,难以保留定义个体独特人脸的细微差异,尤其是在多种姿态和表情下。
图:不同人脸表示在生成任务中的表现对比
二、方法
团队提出了一种名为 Omni-ID 的新型人脸表示方法,主要特点包括:
Omni-ID 编码器:接收多张图像输入,通过自注意力和跨注意力机制学习全局和局部人脸特征,生成固定大小的编码。
少对多人脸重建:输入少量图像,通过多解码器生成同一人在多种场景、姿态和表情下的图像。
多解码器策略:结合不同解码器的特性,提升表示学习的鲁棒性和增强细节表示。
2.1 少对多人脸重建
Omni-ID 使用 少对多身份重建训练范式,不仅能够重建输入图像,还可以生成同一身份在各种场景、姿态和表情下的多样化图像。这种策略鼓励表示方法捕捉在不同条件下观察到的核心身份特征,同时缓解对单一输入图像特定属性的过拟合问题。
Omni-ID 采用 多解码器训练目标,结合了多种解码器的独特优势,例如提升生成图像的保真度或减少身份泄露问题,同时缓解单一解码器的局限性。这使得输入图像中包含的详细面部信息能够被充分利用,从而生成更鲁棒的编码,在各种生成任务中有效泛化。图:Omni-ID 的少对多人脸重建训练策略
2.2 Omni-ID 编码器
Omni-ID 编码器使用跨注意力机制提取输入图像的关键信息,并通过自注意力进一步优化编码表示。其生成的编码能够综合多个输入图像的人脸特征。
三、实验
3.1 个性化文本到图像生成(表示方法对比)
Omni-ID 在单张和多张输入图像条件下的人脸保留能力显著优于 CLIP。图:不同表示方法在个性化文本到图像生成任务中的定性对比
3.2 个性化文本到图像生成(与 SOTA 对比)
Omni-ID 在 FLUX 模型上表现超越了现有的个性化技术(如 PuLID)。
图:使用 FLUX 模型的个性化文本到图像生成任务中与 SOTA 方法的定性对比
3.3 基于SD base model的个性化生成
Omni-ID 也可以用于SD模型,并优于其他方法。图:基于SD的个性化文本到图像生成任务中的 SOTA 对比
3.4 可控人脸生成
Omni-ID 实现了卓越的人脸保留能力,能够更真实地捕捉细节,同时适应多种姿态和表情。图:与 SOTA 方法在可控人脸生成任务中的定性对比四、总结
本文介绍了Omni-ID,一种专为生成任务设计的人脸表示方法,能够捕捉个体在不同表情和姿态下的整体人脸特征。在少到多人脸重建框架下训练,Omni-ID 编码器能够从多样化的输入图像中编码细粒度的人脸特征,展现出卓越的整体人脸特征提取能力。与 ArcFace 和 CLIP 等判别式表示不同,Omni-ID 保留了对于高保真生成任务至关重要的细微人脸信息。未来工作涵盖将Omni-ID扩展至头发与体型,扩大数据和模型规模,以及用于更多样的下游任务。llustration From IconScout By IconScout Store“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: