DarkDiff:TOR暗网页面相似性的可解释性
摘要:利用大规模数据分析时,近似重复数据常常是一个问题。例如,对于两封几乎相同的网络钓鱼邮件来说,敬语(先生对太太)的差异并不重要,但是它是属于A银行还是B银行则很重要。近似重复检测的最新技术是一个黑盒方法(MinHash),因此我们只知道邮件是近似重复的,但不知道具体原因。我们提出了DarkDiff,它可以高效地检测近似重复,并提供导致近似重复的原因。我们已经开发了DarkDiff来检测暗网上主页的近似重复。DarkDiff在这些页面上表现良好,因为它们类似于过去的清晰网页。
作者:Pieter Hartel, Eljo Haspels, Mark van Staalduinen, Octavio Texeira
论文ID:2308.12134
分类:Cryptography and Security
分类简称:cs.CR
提交时间:2023-08-24