一句话概括:多模态目标检测
1、类似CLIP多模态模型只做到文本图片后融合的对齐,没有图片细粒度的object级别的细粒度语义表征能力
2、MDETR没有统一目标检测和已有的多模态任务grounding
CLIP由于训练集image-text pair比任何已有的anation数据集都包含更丰富的视觉概念,很容易0-shot迁移到下游任务,但是只做文本图片后融合的对齐,由于缺少object级别的细粒度理解,无法应用到到多模态检测任务。
对上面提出目标检测,分割等稠密任务需要text-image细粒度理解问题,现有的grounding任务就是细粒度的text和object的任务,因此这2个任务可以统一:目标检测是上下文无关的grounding任务,grounding是上下文相关语境化的目标检测任务
针对上面提到的目标检测和grounding 2种转换(目标检测是上下文无关的grounding任务,grounding是上下文相关语境化的目标检测任务),本文统一方式是使用目标检测到grounding任务
统一数据内容:输入训练数据的统一,模型的统一, loss统一
统一的数据内容:image+box+prompt
所有目标检测数据所有label的集合作为label(用于图中和每个label计算相似度)
GLIP-T (A) is based on a SoTA detection model, Dynamic Head [10], with our word-region alignment loss replacing the classification loss
GLIP-T (B) is enhanced with language-aware deep fusion but pre-trained only on O365
GLIP-T (C) is pre-trained on 1) O365 and 2) GoldG, 0.8M human-annotated gold grounding data curated by MDETR [23], including Flickr30K, VG Caption [28], and GQA [19]. We have removed COCO images from the dataset. It is designed to verify the effectiveness of gold grounding data
GLIP-T is based on the Swin-Tiny backbone and pretrained on the following data: 1) O365, 2) GoldG as in GLIP-T (C), and 3) Cap4M, 4M image-text pairs collected from the web with boxes generated by GLIP-T (C)
使用self-training;由上面描述,teacher模型是GLIP-T (C)
self-training student模型比teacher性能好的原因是teacher模型根据丰富的语言上下文(比如语法结构)可以作为引导让teacher进行有根据的猜测;而student模型可以将这些猜测的结果作为监督信号进行学习
grounding数据包含丰富的语义:转box数据的优势,teacher模型将image_text对中根据语义生成语句的box, 因此引入了语义丰富的训练数据用于student模型,用来训练语义丰富的模型。
和CLIP双encoder结构,差异是增加了深度跨模态前融合(这个对学习到高质量语言对齐的视觉表征很重要)
如上图中间部分为语言感知部分的融合结构,具体来说,使用DyHead作为image encoder, BERT作为 text encoder, 后续接深度融合encoder,深度融合encoder表达为:
L为DyHead中DyHeadModules模块数量,BERTLayer为预训练BERT上新增的BERT Layer层;O0为视觉backbone出来的视觉特征,P0为语言模型backbone出来的token特征,跨模态特征通过X-MHA跨模态多头注意力提取;后面接单模态的融合和更新
后融合重要作用:1、提高语句定位性能 2、使视觉特征具有语言感知能力,因此在推理的时候取决于文本提示(根据文本,有不同的输出结果)
bbox分类logits改成word-region/bbox的对齐得分(word 文本特征和region、bbox视觉特征点乘)
grounding和目标检测分类loss计算区别是,目标检测由box特征经过MLP投射成各类别的logit,grounding由box特征word特征对齐作为各类别的logit(没有使用对比loss),并且由于word tokenize可能一个单词会token成多个特征,因此grounding类别数比目标检测类别数多,然后后面接交叉熵部分目标检测和grounding一致。
目标检测Loss计算:
GLIP Loss计算
上面部分为全监督,下面部分为GLIP