-
题名融合多粒度代码特征和孤立森林算法的配置类型识别
- 1
-
-
作者
刘源
刘大伟
张玉秀
吴明磊
-
机构
山东工商学院计算机科学与技术学院
-
出处
《计算机工程与应用》
北大核心
2025年第13期185-199,共15页
-
基金
山东省自然科学基金面上项目(ZR2022MA076)
山东工商学院科研启动基金(014/306526)。
-
文摘
“高内聚、低耦合”设计原则的普及应用,使得代码中通常存在着专门管理配置选项或配置方法的特殊类型,称为配置类型。配置类型有助于研究人员从属性角度和行为角度增进对配置机制的理解,并为配置错误处理技术提供必要的选项集合以及选项数据流信息。然而,配置类型研究尚不充分,其识别仍依赖于人工检索。提出一种融合多粒度代码特征和孤立森林算法的配置类型识别方法。基于10个具有代表性的开源软件,手动构建配置类型数据集,通过实证调研配置类型的分布、分类和识别影响因素,总结得到9个调研结果,用于指导配置类型识别。基于调研结果,选取覆盖代码词汇、结构、语义和语法信息的4个类型级粗粒度特征和3个方法级细粒度特征,并为每个特征设计量化算法。考虑到配置类型存在样本类别分布不平衡问题,将识别问题转化为异常检测问题,利用孤立森林算法推荐配置类型,同时设计启发规则减少误报数量。在5个评估软件上的实验结果表明,该方法能识别出每个软件的配置类型,平均精度均值为0.86,平均时间开销为21min,已初步具备代替人工识别的能力。
-
关键词
软件配置
配置类型识别
实证调研
多粒度代码特征
孤立森林
配置方法
-
Keywords
software configuration
configuration type identification
empirical research
multi-granularity code features
isolation forest
configuration methods
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-