IML-ViT：通过Vision Transformer对图像操纵定位进行基准测试-arXiv论文预印本中文版

IML-ViT：通过Vision Transformer对图像操纵定位进行基准测试

摘要：高级图像篡改技术对多媒体的可信度提出了越来越大的挑战，因此图像篡改定位（IML）的发展显得尤为重要。那么，什么是一个好的IML模型呢？答案在于如何捕捉伪造痕迹。利用伪造痕迹需要模型提取篡改和真实区域之间的非语义差异，从而必须对这两个区域进行明确的比较。使用自注意力机制，显然Transformer应该是更好的捕捉痕迹的候选模型。然而，由于数据集有限，目前还没有纯基于ViT的IML方法可以作为基准，而CNN在整个任务中占据主导地位。然而，CNN的长距离建模和非语义建模能力较弱。为了弥补这一差距，基于痕迹对图像分辨率敏感、在多尺度特征下有放大效果，以及在篡改边界上存在大量痕迹的事实，我们将前面的问题的答案形式化为构建具有高分辨率能力、多尺度特征提取能力和篡改边缘监督的ViT模型。我们将这个简单但有效的ViT范例称为IML-ViT，它在成为IML的新基准方面具有重要潜力。我们在五个基准数据集上进行了广泛的实验，验证了我们的模型优于最先进的图像篡改定位方法。代码和模型可以在url{https://github.com/SunnyHaze/IML-ViT}找到。

作者：Xiaochen Ma, Bo Du, Zhuohang Jiang, Ahmed Y. Al Hammadi, Jizhe Zhou

论文ID：2307.14863

分类：Computer Vision and Pattern Recognition

分类简称：cs.CV

提交时间：2023-09-01

PDF 下载： 英文版中文版pdf翻译中