论文链接:CVPR_2017 论文
代码链接:Github链接
提出的数据集:CUHK-SYSY
原始论文题目:End-to-End Deep Learning for Person Search
行人检索问题:在真实场景中,从整个场景图片中搜索特定的没有行人检测边界框的人。在一个卷积神经网络中实现同时处理行人检测和行人重识别,而不是分成行人检测和行人重识别两个子任务进行行人检索。
下图给出了行人重识别和行人搜索任务的区别:
ResNet-50 作为基础 CNN 模型,在模型生成的特征图上构建一个行人 proposal 网络来检测行人。
为了从行人建议网络生成的候选框中找到目标行人,构建 identification 网络提取每个候选框的特征,并与目标行人做对比。
OIM loss 和其他用于检测的 loss 一起被用于多任务学习的模型训练。
数据集来源和划分如下图所示。
数据集中行人 scale 如下图所示
为了验证提出方法的有效性,和探索行人检索任务的影响因素,进行了一系列的实验。
框架基于 Caffe 版本的 Faster R-CNN 实现,经过 ImageNet 预训练的 Resnet50 用于参数初始化。
下图给出了实验使用的不同检测器的召回率。
不同的检测器会对行人搜索任务产生影响,现有的行人重识别数据集可以指导设计行人重识别特征,但加入行人检索数据集中未标注的数据和背景可以带来更大的收益。联合行人检测和行人重识别的行人检索框架比分开处理两个任务效果更好。
不同检测器 和 行人重识别特征标识+距离度量 下的实验结果如下表所示:
OIM loss 收敛得更快,未经过 pretrain 的 softmax loss 训练效果很差。在 test 过程中,经过 pretrain 的 softmax loss 性能也不是很好。
在标准的行人重识别任务中,OIM loss 依旧比 softmax 表现得好。
将特征映射到低维空间对归一化训练网络很重要,实验表明 256-1024 维效果相同,选择 256 维加速特征距离计算。
较小的 OIM loss 的采样尺寸带来逊色的表现,但较快的收敛率
LOMO+XQDA 行人重识别方法下,高的检测召回率不一定导致更高的行人检索性能。应该在行人检索问题中综合考虑行人检测和行人重识别,而不是仅考虑在手动剪裁好的图片中训练行人重识别模型。
随着 Gallery 尺寸的增大,所有的行人重识别方法性能都有所下降。这是由于难样本引起的,可以考虑难例挖掘来提高模型性能。
[论文笔记]CVPR2017_Joint Detection and Identification Feature Learning for Person Search