IML-ViT:通过Vision Transformer对图像操纵定位进行基准测试
摘要:高级图像篡改技术对多媒体的可信度提出了越来越大的挑战,因此图像篡改定位(IML)的发展显得尤为重要。那么,什么是一个好的IML模型呢?答案在于如何捕捉伪造痕迹。利用伪造痕迹需要模型提取篡改和真实区域之间的非语义差异,从而必须对这两个区域进行明确的比较。使用自注意力机制,显然Transformer应该是更好的捕捉痕迹的候选模型。然而,由于数据集有限,目前还没有纯基于ViT的IML方法可以作为基准,而CNN在整个任务中占据主导地位。然而,CNN的长距离建模和非语义建模能力较弱。为了弥补这一差距,基于痕迹对图像分辨率敏感、在多尺度特征下有放大效果,以及在篡改边界上存在大量痕迹的事实,我们将前面的问题的答案形式化为构建具有高分辨率能力、多尺度特征提取能力和篡改边缘监督的ViT模型。我们将这个简单但有效的ViT范例称为IML-ViT,它在成为IML的新基准方面具有重要潜力。我们在五个基准数据集上进行了广泛的实验,验证了我们的模型优于最先进的图像篡改定位方法。代码和模型可以在url{https://github.com/SunnyHaze/IML-ViT}找到。
作者:Xiaochen Ma, Bo Du, Zhuohang Jiang, Ahmed Y. Al Hammadi, Jizhe Zhou
论文ID:2307.14863
分类:Computer Vision and Pattern Recognition
分类简称:cs.CV
提交时间:2023-09-01