通过概率执行模型,将二进制程序语义表示为相似性分析的PEM

摘要:二进制相似性分析确定两个二进制可执行文件是否来自同一源程序。现有技术利用静态和动态程序特征,并可以利用先进的深度学习技术。虽然它们已经显示出巨大的潜力,但社区认为,更有效的程序语义表示可以进一步改进相似性分析。在本文中,我们提出了一种表示二进制程序语义的新方法。它基于一种新颖的概率执行引擎,可以有效地对受测二进制文件的输入空间和程序路径空间进行采样。更重要的是,它确保了所收集的样本在不同二进制文件之间的可比较性,解决了输入规范的重大变化。我们对9个实际项目进行了评估,共有35,000个函数,并与6种最先进的技术进行了比较,结果表明,使用常见设置,PEM可以实现96%的精度,优于基线方法10-20%。

作者:Xiangzhe Xu, Zhou Xuan, Shiwei Feng, Siyuan Cheng, Yapeng Ye, Qingkai Shi, Guanhong Tao, Le Yu, Zhuo Zhang, and Xiangyu Zhang

论文ID:2308.15449

分类:Software Engineering

分类简称:cs.SE

提交时间:2023-08-31

PDF 下载: 英文版 中文版pdf翻译中