http://www.liuxiao.org/2019/02/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0%EF%BC%9Anetvlad-cnn-architecture-for-weakly-supervised-place-recognition/
文章目录
NetVLAD1是一个较早的使用 CNN 来进行图像检索或者视频检索的工作,后续在此工作的基础上陆续出了很多例如 NetRVLAD、NetFV、NetDBoW 等等的论文,思想都是大同小异。
VLAD 和 BoW、Fisher Vector 等都是图像检索领域的经典方法,这里仅简介下图像检索和 VLAD 的基本思想。
图像检索(实例搜索)是这样的一个经典问题:
1、我们有一个图像数据库 I_iIi 通过函数可以得到每一个图像的特征 f(I_i)f(Ii);
2、我们有一个待查询图像 qq 通过函数得到它的特征 f(q)f(q);
3、则我们获得的欧氏距离 d(q, I) = \parallel f(q) - f(I)\paralleld(q,I)=∥ f(q)−f(I)∥ 应该满足越相近的图像 d(q, I)d(q,I) 越小。