论文题目:《Enhancing vulnerability detection by fusing code semantic features with LLM-generated explanations

论文第一作者:田振洲

期刊名称:Information Fusion

论文链接:https://www.sciencedirect.com/science/article/pii/S1566253525005238

论文概述:

背景:现有漏洞检测方法大多依赖代码结构与语法特征,但对于复杂语义逻辑与隐蔽风险模式的建模能力仍然有限。随着大语言模型(LLM)在代码理解方面展现出强大潜力,我们尝试将 LLM 生成的自然语言解释引入漏洞检测任务,以增强模型对代码上下文语义与潜在风险的感知能力。

核心工作:提出了一种融合代码语义与 LLM 文本解释的多模态漏洞检测框架 FuSEVul,主要包括:(1)利用精心设计的 Prompt,引导 LLM 自动生成具有功能感知与风险感知的代码解释;(2)分别采用预训练代码模型与自然语言模型,对源代码与文本解释进行语义编码;(3)设计基于自注意力机制的跨模态融合方法,加强代码特征与文本特征之间的交互关联,从而更精准地捕获漏洞相关信息。

实验结果:在三个公开数据集上的实验表明,FuSEVul AccuracyF1 等指标上均优于现有主流方法;LLM生成的文本解释能够有效增强模型对代码上下文语义的理解;在小样本场景下,FuSEVul依然表现出良好的泛化能力与检测性能。图2展示了模型在不同小样本条件下的性能表现。

1 FuSEVul的整体架构

2 小样本环境下FuSEVul漏洞检测性能