-
题名基于多元混合特征的源代码作者性别属性识别
- 1
-
-
作者
刘泓玏
陈娟
付才
韩兰胜
郭晓威
江帅
-
机构
分布式系统安全湖北省重点实验室
湖北省大数据安全工程技术研究中心
华中科技大学网络空间安全学院
-
出处
《计算机科学》
北大核心
2025年第8期51-61,共11页
-
基金
国家重点研发计划(2022YFB3103402)
国家自然科学基金(62072200,62172176,62127808)。
-
文摘
随着互联网的发展,网络安全日益受到关注,打击恶意代码作者是其中重要一环。目前,通过恶意代码编写风格进行作者识别已取得显著成果。但若要深入了解作者真实信息,需对其社会属性进行分析,形成完善的人物画像。性别作为人类社会属性的关键分类指标,是个体真实信息的重要组成部分。其他社会属性也基本会与性别特征关联,对性别的区分成为深入研究其他社会属性特征的必要前提。本研究通过对程序员的源代码编写风格进行深入分析,总结了22种源代码作者性别识别关联特征。基于作者性别识别关联特征利用自适应提升算法(AdaBoost)训练源代码作者性别识别分类器,保证高识别率的同时提高模型鲁棒性。同时与自然语言性别识别算法做比较,突出源代码作者性别识别特征的适用性。从Github上分别收集115004和22700个带有性别标签的Java和C++源代码文件,为学术界提供了第一个带有源代码作者性别标签的研究数据集。所提出的方法在收集到的C++和Java数据集上均表现出不错的性能,分别可以达到98%和94%的准确率。提出的研究结论为从源代码作者风格到其他社会属性的映射做了探索,有助于指导从源代码作者风格到其他社会属性的进一步研究。
-
关键词
软件安全
软件取证
源代码作者归属
源代码作者性别识别
特征表示
-
Keywords
Software security
Software forensics
Source code author attribution
Source code author gender identification
Feature representation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-