-
题名结合主动学习和半监督学习的软件可追踪性恢复框架
- 1
-
-
作者
董黎明
张贺
孟庆龙
匡宏宇
-
机构
南京大学软件学院
计算机软件新技术国家重点实验室(南京大学)
-
出处
《软件学报》
北大核心
2025年第5期1924-1948,共25页
-
基金
国家自然科学基金(62072227,62202219)
国家重点研发计划(2019YFE0105500)
+2 种基金
江苏省重点研发计划(BE2021002-2)
南京大学计算机软件新技术国家重点实验室创新项目(ZZKT2022A25)
海外开放课题(KFKT2022A09)。
-
文摘
软件可追踪性被认为是软件开发过程可信的一个重要因素,确保对软件开发过程的可见性并进行全面追踪,从而提高软件的可信度和可靠性.近年来,自动化的软件可追踪性恢复方法取得了显著进展,但在企业项目中的应用仍面临挑战.通过调研研究和实验案例分析,发现工业界场景中可追踪性模型表现不佳的3个关键挑战:原始数据低质量、样本稀疏性和不平衡性,并提出一种结合主动学习和半监督学习的软件可追踪性恢复框架STRACE(AL+SSL).该框架通过选择有价值的标注样本和生成高质量的伪标签样本,有效利用未标注的样本,克服数据低质量和稀疏性挑战.实验基于10个样本规模在几万至近百万个issue-commit跟踪对实例的企业项目,进行多组对比实验,结果表明该框架在当前真实企业项目软件可追踪性恢复任务上具有有效性.其中消融实验结果表明STRACE(AL+SSL)中主动学习模块所选择的无标签样本在可追踪性恢复任务中发挥了更为重要的作用.此外,还验证各个模块最佳的样本选择策略组合,包括调整后的半监督类平衡自训练样本选择策略CBST-Adjust和低成本高效率的主动学习子模块互信息SMI_Flqmi样本选择策略.
-
关键词
软件可追踪性
主动学习
半监督学习
-
Keywords
software traceability
active learning
semi-supervised learning
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-