首页   

开放词汇检测新晋SOTA!地瓜机器人开源DOSOD实时检测算法

PaperWeekly  · 科研  · 昨天

正文


在计算机视觉领域,目标检测是一项关键技术,旨在识别图像或视频中感兴趣物体的位置与类别。传统的闭集检测长期占据主导地位,但近年来,开放词汇检测(Open-Vocabulary Object Detection-OVOD 或者 Open-Set Object Detection-OSOD)崭露头角,为目标检测带来了新的活力与可能性。

与闭集检测相比,开放词汇检测打破了检测类别固定的“枷锁”,它在训练时利用丰富多样的文本 - 区域对(text-region pairs)数据,将文本作为类别标签,大大拓宽了可检测的范围。尤其是在机器人感受周围环境的任务中,能够起到极大的帮助。

目前主流的开放词汇检测算法有 Grounding-DINO 系列和 YOLO-World。在海量的私有数据集的加持下,前者具有非常强大的检测能力,精度遥遥领先,其模型依赖参数量较大的 Transformer 结构,实时性较弱。后者依赖轻量级的 Convolution 结构,能够达到实时推理的效率,精度上依然不错。

DOSOD(Decoupled Open-Set Object Detection)是地瓜机器人最新发布的开放词汇目标检测算法,力求在低算力边缘端实现更高的推理效率,同时带来比 YOLO-World 更具竞争力的精度表现。

在算法上,DOSOD 采用了独特的解耦特征对齐策略,摒弃了传统的图像-文本交互方式,通过基于 MLPs 的特征适配模块对图像与文本的特征进行优化与对齐,进一步提升了模型的推理效率和精度。

实验结果显示,DOSOD 在多个公开数据集(如 LVIS)上的表现超越了 YOLO-World-v2,并在边缘 AI 计算平台上展现了压倒性的效率优势。



论文链接:

https://arxiv.org/abs/2412.14680

代码链接:

https://github.com/D-Robotics-AI-Lab/DOSOD



文章由地瓜机器人应用算法部,中科院自动化所多模态人工智能系统全国重点实验室,苏州大学未来学院,上海科技大学信息科学技术学院联合出品。

DOSOD的基本原理



目前主流的开放词汇检测对齐策略主要分为以下三种:
(a) 教师 - 学生蒸馏方法
  • 描述:利用 VLM(视觉语言模型)的文本编码器生成的文本嵌入来监督图像特征和检测器特征的对齐。也可以通过裁剪图像区域来对齐特征。
  • 总结:通过 VLM 的文本编码器来指导图像和检测器特征的对齐。
(b) 基于交互的对齐策略
  • 描述:文本嵌入与检测器骨干网络提取的图像特征进行交互,以实现对齐。
  • 总结:通过文本嵌入与图像特征的交互来实现特征对齐。
(c) 提出的解耦对齐策略
  • 描述:在不进行交互的情况下对齐特征,通过视觉 - 语言特征适配来实现。
  • 总结:采用解耦方式,不依赖交互来进行特征对齐。

DOSOD(Decoupled Open-Set Object Detection) 属于第三种开放词汇检测对齐策略——解耦对齐策略。该方法的核心思想是通过将文本和图像模态的特征解耦,以实现更高效的对齐过程,从而在保证检测精度的同时大幅提升推理速度。



在此基础上,DOSOD 洞察到了闭集检测开放词汇检测之间的本质联系,提出了全新的结构框架(如上图所示)。具体来说,DOSOD 将传统分类分支最后的卷积操作等价地解构为两个模态的特征对齐操作,从而激发出解耦的特征学习和共同空间对齐的结构。

在该框架中,类别标签文本首先通过一个文本编码器(来自 VLM)生成初步的 Text Embedding,然后经过一个基于 MLPs 的特征适应模块,对 Text Embedding 进行特征优化,为 Joint Space 中的对齐操作做准备。

在图像侧,DOSOD 使用经典的单阶段目标检测器(文中使用了 YOLOv8)来提取图像的多尺度特征图。每个特征点表示图像中的一个区域特征。最后,在 Joint Space 中,通过计算 Text Embedding 与 Region Feature 之间的相似度,从而完成特征对齐。


DOSOD的实验结果

在实验部分,DOSOD 在公开数据集上进行了预训练,并在 LVIS 和 COCO 数据集上进行了 Zero-shot 验证。DOSOD 均拥有优秀的精度表现:

在 LVIS 数据集上,相较于 YOLO-World-v2,DOSOD 精度全面领先,并与 YOLO-World-v1 不分伯仲。


在 COCO 数据集上,DOSOD 整体精度要略低于 YOLO-World,但 YOLO-World-v2 的精度微高于 YOLO-World-v1,也一定程度上说明,COCO 由于词汇丰富程度较低,不太适用于开放词汇检测任务评测。



在推理速度上,通过将 DOSOD 与 YOLO-World 在 NVIDIA RTX 4090 和 D-Robotics RDK X5 上进行全面对比,我们可以看到:

DOSOD 在主流的服务器级别的芯片上,推理效率是显著高于 YOLO-World


在边缘侧的 AI 计算平台上,DOSOD 以碾压式的效率提升,远远超越 YOLO-World


DOSOD的应用效果

DOSOD 开放词汇检测算法有着广泛的应用场景,既能用于常规检测任务里的目标检测,也可以应用在特殊场景下长尾目标类型的检测任务当中。针对某些极端长尾的目标类型,只需收集少量相关数据进行微调,就能显著提高模型的稳定性和检测效果。

DOSOD在常规目标检测上的检测效果

在闭集目标检测任务中,COCO 数据集预先定义了 80 个固定类别。我们可以看到,在经过大数据量的开放词汇数据集预训练后,DOSOD 能够检测出诸多长尾类别,如图2左下角的“heater”,图 4 中的“shoe”和“wheel”,而这些词汇并未包含在 COCO 数据集的 80 个类别之内。

DOSOD 部署在RDK X5上的通用场景感知效果↓↓↓


DOSOD 在特殊场景的长尾类别上的检测效果

以下展示的是扫地机视角下的图像,任务要求是检测出地面上的各类污渍或障碍物,这些类别并不是常规目标检测任务中的标准类别。通过少量数据的微调,DOSOD 成功识别了这些特殊类别,为在该场景中准确检测出多样化的长尾类别发挥了关键作用。

(滑动查看更多)

DOSOD 部署在RDK X5上的扫地机污渍检测Demo效果↓↓↓



DOSOD 作为一款新兴的开放词汇检测算法,凭借创新的解耦特征对齐策略,在提升推理效率的同时,成功地保证了精度,展示出了极强的应用潜力。未来,随着计算资源的提升与算法的不断优化,DOSOD 有望在机器人、自动驾驶、智能家居等领域提供更加高效精准的目标检测解决方案。

作为地瓜机器人前沿算法研究的最新成果,DOSOD 不仅在精度上超越了对标方法,更成功解决了推理效率与低算力设备适应性之间的挑战,为智能机器人技术的普及与发展提供了有力支持。

未来,地瓜机器人将秉承“成为机器人时代的 Wintel”的品牌初心,持续与客户一同深入应用场景,在提供拥有极致性能表现的硬件的同时,为行业客户和开发者提供丰富的具有实用价值的算法,加速机器人技术的落地和广泛应用。


© 2024 精读
删除内容请联系邮箱 2879853325@qq.com