提升源代码漏洞检准率 | 西北大学研发FUNDED系统-西北大学信息科学与技术学院

提升源代码漏洞检准率 | 西北大学研发FUNDED系统

时间：2020-12-24

近日，由西北大学信息学院房鼎益、陈晓江教授领衔的物联网团队与蚂蚁安全实验室、南方科技大学、北京大学和英国利兹大学等机构联合研究，在软件安全领域取得重要研究进展。团队利用图深度神经网络结合开源代码仓库，开发出了具有自主知识产权的源代码漏洞检测系统FUNDED，大幅度提升了源代码漏洞的检准率。

该研究得到了国家自然科学基金、蚂蚁集团科研项目的联合资助，成果正在蚂蚁集团内部进行落地和应用评测，并被该实验室官方推介。

目前，该研究成果论文Combining Graph-based Learning with Automated Data Collection for Code Vulnerability Detection被网络与信息安全领域国际顶级期刊IEEE TIFS全文接收。论文第一作者王焕廷为西北大学信息学院研三学生，通讯作者为物联网团队汤战勇教授。

开发网站、编写程序，或引用互联网上的代码，确定代码是否含有漏洞，这个过程就是源代码漏洞检测，是软件安全保障的基础。

针对源代码漏洞检测，较为通用的做法一是通过寻求经验更丰富的程序员进行人工代码审计，尽早发现漏洞；另一类是利用已有的先验性专家规则进行匹配性漏洞检测，但是由于受到人员水平、漏洞更新速度、规则适应性等诸多条件限制，目前这些方法普遍误报率较高。

研究团队开发的FUNDED系统能从大型代码开源仓库中自动快速获取全世界优秀程序员对软件漏洞的最新贡献。该系统类似”机器人”，可持续、自动地从互联网开源代码库中爬取最新的漏洞相关知识，然后构建基于图网络的高精度漏洞检测模型，从而提升漏洞识别的准确率。

目前，FUNDED系统在实际应用场景下对30种漏洞进行测试，其检测准确率平均在92%以上，最高可达99%，未来随着数据集的扩充，其准确率还将不断提高。

此外，该模型还能够在不同程序语言代码之间进行迁移，简单来讲，模型在已有的程序开发语言A上的漏洞检测能力，能够快速的应用到另一种新的开发语言B上。

在该技术公开前，尽管有深度学习的方法能够在公开数据集上进行漏洞检测识别，但在实际应用场景的高精度漏洞检测并未取得突破。

在国家新工科建设背景下，西北大学信息学院物联网团队围绕网络与系统安全持续开展研究，积极与国内一流企业进行深入合作，在多项国家和企业基金的联合资助下，前期已经在CCF推荐的国际顶级会议CCS、NDSS、MOBICOM上发表了一系列高水平研究成果，受到《泰晤士报》《福布斯》和《参考消息》《中国科学报》《陕西日报》等国内外主流媒体的广泛报道。