VulLibGen:通过生成式预训练模型识别易受攻击的第三方库
摘要:通过第三方库中的漏洞可能带来的潜在风险,安全研究人员维护着包含漏洞报告的漏洞数据库(例如 NVD),其中每个报告都记录了漏洞的描述和受漏洞影响的库的名称列表(称为易受攻击的库)。然而,对 NVD 中约 20 万个漏洞报告的最近研究表明,53.3%的报告没有包含易受攻击的库的名称列表,而包含的易受攻击的库的名称列表中有 59.82% 不完整或不正确。 为了解决上述问题,本文提出了第一个名为 VulLibGen 的生成方法,通过利用最近大规模语言模型(LLMs)的巨大进展,为给定的漏洞生成易受攻击的库的名称列表(所有现有库中的)。以达到高准确性。 VulLibGen 仅使用漏洞的描述作为输入,并根据 LLM 的先前知识对所有现有库进行高准确度的识别。 VulLibGen 还包括输入增强技术,以帮助识别训练过程中未出现的零样本易受攻击的库,并包括后处理技术,以帮助解决 VulLibGen 的幻觉。我们使用三种最新的开源数据集(VulLib)上的最新实践方法(LightXML、Chronos 和 VulLibMiner)评估了 VulLibGen。我们的评估结果显示,VulLibGen 可以准确地识别易受攻击的库,平均 F1 分数为 0.626,而最新的实践方法仅达到 0.561。后处理技术使 VulLibGen 在 F1@1 上平均改进了 9.3%。输入增强技术帮助 VulLibGen 在识别零样本库方面的 F1@1 平均改进了 39%。
作者:Tianyu Chen, Lin Li, Liuchuan Zhu, Zongyang Li, Guangtai Liang, Ding Li, Qianxiang Wang, Tao Xie
论文ID:2308.04662
分类:Cryptography and Security
分类简称:cs.CR
提交时间:2023-08-10