原文链接
在图像识别和目标分类领域往往存在一些关于图像中虚假相关性的问题,最典型的如将图像中识别的主体(object)和背景(background)之间的相关性考虑成为识别主题类别的一个主要特征。如下图所示,注意力模型将ground
作为一个判断为鸟类的标签,在预测地上的熊的时候就做出了错误的判断。这种在不一样的场景下的图片,反而往往是在特殊紧急时,错误会十分致命。
将问题形式化描述:数据集包含输入图像\(X\),标签\(Y\),标签被通用的混淆因子——背景\(S\)所影响,模型学习了潜在的虚假因果,将\(S\)作为识别\(Y\)的特征。
有一种方式是通过因果干预来减轻混淆偏差。例如收集bird
类别在所有场景下的图像。这样模型就会只关注于object本身。然而在实际应用中这种方式消耗人力比较大。
在实际应用中,不可能找到某个类别在所有场景下的,如