FastBCSD:用于二进制代码相似性检测的快速高效神经网络
摘要:二进制代码相似性检测(BCSD)具有多种应用,包括但不限于漏洞检测、抄袭检测和恶意软件检测。先前的研究主要集中在使用逆向编译将二进制代码转换为汇编代码字符串,然后使用预训练的具有大参数的深度学习模型来获取二进制代码的特征表示向量。尽管这些模型已经被证明在表示二进制代码方面是有效的,但它们庞大的参数规模导致在训练和推断过程中需要大量的计算资源。在本文中,我们提出了一个轻量级的神经网络,称为FastBCSD,它采用一种动态指令向量编码方法,只使用汇编代码作为输入特征,以实现与预训练模型相当的准确性,同时减少计算资源和时间成本。 在BinaryCorp数据集上,我们的方法在平均MRR分数上与最先进的基于预训练的方法(jTrans)取得了类似的结果,而在BinaryCorp 3M数据集上,我们的方法甚至优于最新技术0.01。值得注意的是,FastBCSD的参数规模要小得多(13.4M)比jTrans(87.88M)小,而在NVIDIA GTX 1080Ti上的延迟时间是jTrans的1/5。
作者:Chensen Huang, Guibo Zhu, Guojing Ge, Taihao Li, Jinqiao Wang
论文ID:2306.14168
分类:Cryptography and Security
分类简称:cs.CR
提交时间:2023-06-27