期刊文献+
共找到167篇文章
< 1 2 9 >
每页显示 20 50 100
RFC:a feature selection algorithm for software defect prediction 被引量:2
1
作者 XU Xiaolong CHEN Wen WANG Xinheng 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2021年第2期389-398,共10页
Software defect prediction(SDP)is used to perform the statistical analysis of historical defect data to find out the distribution rule of historical defects,so as to effectively predict defects in the new software.How... Software defect prediction(SDP)is used to perform the statistical analysis of historical defect data to find out the distribution rule of historical defects,so as to effectively predict defects in the new software.However,there are redundant and irrelevant features in the software defect datasets affecting the performance of defect predictors.In order to identify and remove the redundant and irrelevant features in software defect datasets,we propose ReliefF-based clustering(RFC),a clusterbased feature selection algorithm.Then,the correlation between features is calculated based on the symmetric uncertainty.According to the correlation degree,RFC partitions features into k clusters based on the k-medoids algorithm,and finally selects the representative features from each cluster to form the final feature subset.In the experiments,we compare the proposed RFC with classical feature selection algorithms on nine National Aeronautics and Space Administration(NASA)software defect prediction datasets in terms of area under curve(AUC)and Fvalue.The experimental results show that RFC can effectively improve the performance of SDP. 展开更多
关键词 software defect prediction(SDP) feature selection CLUSTER
在线阅读 下载PDF
基于细粒度代码表示和特征融合的即时软件缺陷预测方法 被引量:1
2
作者 朱晓燕 王文格 +1 位作者 王嘉寅 张选平 《计算机科学》 北大核心 2025年第1期242-249,共8页
即时软件缺陷预测指在软件更改初次提交之际预测该更改引入缺陷的倾向。此类预测针对单一程序变更,而非在粗粒度上进行。由于其即时性和可追溯性,该技术已在持续测试等领域得到广泛应用。目前的研究中,提取变更代码表示的方法粒度较粗,... 即时软件缺陷预测指在软件更改初次提交之际预测该更改引入缺陷的倾向。此类预测针对单一程序变更,而非在粗粒度上进行。由于其即时性和可追溯性,该技术已在持续测试等领域得到广泛应用。目前的研究中,提取变更代码表示的方法粒度较粗,仅标出了变更行,而没有进行细粒度的标记。此外,现有的使用提交内容进行缺陷预测的方法,仅仅是把提交消息与变更代码的特征进行简单拼接,缺失了在特征空间上的深度对齐,这使得在提交消息质量参差不齐的情况下,会出现预测结果易受噪声干扰的情形,并且现有方法也未将领域专家设计的人工特征以及变更内容中的语义语法信息综合起来进行预测。为了解决上述问题,提出了一种基于细粒度代码表征和特征融合的即时软件缺陷预测方法。通过引入新的变更嵌入计算方法来在细粒度上表示变更代码。同时,引入特征对齐模块,降低提交消息中噪声对方法性能的影响。此外,使用神经网络从人工设计的特征中学习专业知识,充分利用现有特征进行预测。实验结果表明,相较于现有方法,该方法在3个性能指标上均有显著提升。 展开更多
关键词 即时软件缺陷预测 特征融合 软件工程 深度学习 代码表示
在线阅读 下载PDF
基于IRSA优化轻量级梯度提升机的软件缺陷预测
3
作者 李丛 张晴 +1 位作者 姜枫 朱长水 《计算机工程与设计》 北大核心 2025年第6期1717-1726,共10页
针对轻量级梯度提升机(LightGBM)应用于软件缺陷预测时预测性能欠佳的问题,提出一种基于改进爬行动物搜索(IRSA)优化LightGBM的软件缺陷预测算法(IRSA-LightGBM)。引入faure序列、混沌进化因子、两阶段自适应混合差分变异机制对RSA算法... 针对轻量级梯度提升机(LightGBM)应用于软件缺陷预测时预测性能欠佳的问题,提出一种基于改进爬行动物搜索(IRSA)优化LightGBM的软件缺陷预测算法(IRSA-LightGBM)。引入faure序列、混沌进化因子、两阶段自适应混合差分变异机制对RSA算法进行改进,提高算法寻优能力。在基准函数寻优实验中,IRSA取得更好的寻优效果。使用IRSA对LightGBM主要超参数进行混合优化。使用IRSA-LightGBM算法构建预测模型。软件缺陷预测实验结果表明,所提算法较对比算法具有更好的预测性能。非参数统计检验结果表明,所提算法具有显著性差异。 展开更多
关键词 轻量级梯度提升机 爬行动物搜索 faure序列 混沌进化因子 混合差分变异 软件缺陷预测 非参数统计检验
在线阅读 下载PDF
融合静态分析警告的软件缺陷预测模型及其应用研究
4
作者 吴海涛 马景悦 高建华 《计算机科学与探索》 北大核心 2025年第3期818-834,共17页
静态分析警告作为一种重要的软件质量指标,被广泛用于识别源代码中潜在的违规问题。近期的研究表明,静态分析警告在代码异味检测和即时缺陷预测中有所应用,但有关项目早期缺少提交修改记录的情况没有涉及。针对上述问题,利用三种流行的... 静态分析警告作为一种重要的软件质量指标,被广泛用于识别源代码中潜在的违规问题。近期的研究表明,静态分析警告在代码异味检测和即时缺陷预测中有所应用,但有关项目早期缺少提交修改记录的情况没有涉及。针对上述问题,利用三种流行的静态分析工具的警告信息,在原有的缺陷预测模型中融合静态分析警告这个新的度量,构建一个涵盖软件开发和代码可维护性的缺陷预测模型,并探究静态分析警告与缺陷的潜在关系,融合警告对软件缺陷预测模型性能的影响以及在跨项目场景中的影响。实验结果表明,警告数量往往与缺陷分布密切相关,呈现正相关的关系,即警告这一度量在软件缺陷预测模型中有相当大的潜力,并且在有缺陷数据中报告的警告信息往往与编码规范相关;融合警告之后,缺陷预测模型在各项目上的平均精度提高1.4%~14.7%,平均召回率提高0.2%~2.4%,平均F1提高0.3%~3.0%,平均AUC提高0.2%~1.4%。在跨项目场景中,CODE+SAW_VIF度量提供了最佳性能的缺陷预测模型,融合静态分析警告能够提升模型识别缺陷的性能。 展开更多
关键词 软件缺陷 静态分析工具 静态分析警告 代码度量 跨项目场景预测
在线阅读 下载PDF
基于机器学习的软件缺陷预测研究 被引量:1
5
作者 喻皓 张莹 +2 位作者 李倩 姜立标 尚云鹏 《重庆大学学报》 北大核心 2025年第2期10-21,共12页
在机器学习技术逐渐渗透到各个领域的背景下,软件开发流程中的软件测试非常重要,面对在软件缺陷预测过程中出现的类别不平衡和准确性问题,提出一种基于监督学习的解决方案,采用样本平衡技术,结合合成少数类过采样技术(synthetic minorit... 在机器学习技术逐渐渗透到各个领域的背景下,软件开发流程中的软件测试非常重要,面对在软件缺陷预测过程中出现的类别不平衡和准确性问题,提出一种基于监督学习的解决方案,采用样本平衡技术,结合合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)与编辑最近邻(edited nearest neighbor,ENN)算法,对局部加权学习(local weight learning,LWL)、J48、C4.8、随机森林、贝叶斯网络(Bayes net,BN)、多层前馈神经网络(multilayer feedforward neural network,MFNN)、支持向量机(supported vector machine,SVM)以及朴素贝叶斯(naive Bayes key,NB-K)等多种算法进行测试。这些算法被应用于NASA数据库的3个不同数据集(KK1,KK3,PK2),并对其效果进行详细比较分析。研究结果显示,结合了SMOTE和ENN的随机森林模型在处理类别不平衡问题方面展现出高效且避免过拟合的优势,为解决软件缺陷预测中的类别不平衡提供了一种有效的解决方案。 展开更多
关键词 软件缺陷预测 机器学习 类不平衡 XGBoost 随机森林
在线阅读 下载PDF
时序因素对即时软件缺陷预测性能影响的实证研究
6
作者 张雨 于巧 +2 位作者 祝义 姜淑娟 张淑涛 《计算机工程与应用》 北大核心 2025年第14期362-376,共15页
即时软件缺陷预测是针对开发者提交的代码变更是否存在缺陷进行预测。近年来,由于其细粒度、即时性、易追溯的特点,即时软件缺陷预测成为了缺陷预测领域的研究热点。代码变更提交具有时间特性,然而,现有研究大多忽略了时序因素对即时软... 即时软件缺陷预测是针对开发者提交的代码变更是否存在缺陷进行预测。近年来,由于其细粒度、即时性、易追溯的特点,即时软件缺陷预测成为了缺陷预测领域的研究热点。代码变更提交具有时间特性,然而,现有研究大多忽略了时序因素对即时软件缺陷预测的影响。因此,探究代码变更提交时间对即时软件缺陷预测性能的影响规律具有重要意义。探究了时序因素对项目内和跨项目即时软件缺陷预测性能的影响,采用随机森林、CNN和XGBoost三种模型在9个即时软件缺陷预测数据集上展开了实证研究。研究结果表明:在项目内缺陷预测中,训练集与测试集时间越接近,模型性能越好;与非时序场景相比,时序场景下的跨项目缺陷预测与项目内缺陷预测的性能差距更小。因此,在即时软件缺陷预测研究中应该充分考虑时序因素的影响,在进行训练集的选择时应优先考虑与测试集时间相距较近的数据集。 展开更多
关键词 即时软件缺陷预测(JIT-SDP) 时序因素 跨项目缺陷预测
在线阅读 下载PDF
基于特征提取和Stacking集成学习的软件缺陷预测 被引量:1
7
作者 崔梦天 吴克奇 Mariani M S 《计算机应用与软件》 北大核心 2025年第1期25-29,48,共6页
针对缺陷数据的相关性较高以及单一的分类算法存在泛化性不高的问题,提出一种软件缺陷预测模型KSSDP(KPCA Stacking Software Defect Prediction)。采用核主成分分析(KPCA)对缺陷数据集进行特征提取,使用混合采样SMOTEENN方法解决缺陷... 针对缺陷数据的相关性较高以及单一的分类算法存在泛化性不高的问题,提出一种软件缺陷预测模型KSSDP(KPCA Stacking Software Defect Prediction)。采用核主成分分析(KPCA)对缺陷数据集进行特征提取,使用混合采样SMOTEENN方法解决缺陷数据集的类不平衡问题,使用K-Means算法对缺陷数据集进行聚类以剔除异常值,使用Stacking集成学习构建KSSDP集成预测模型并进行仿真实验,结果表明该模型比基模型、主流集成模型和深度学习模型的性能更好。 展开更多
关键词 核主成分分析 特征提取 KSSDP模型 集成学习 软件缺陷预测
在线阅读 下载PDF
SZZ误标变更对移动APP即时缺陷预测性能和解释的影响
8
作者 李志强 马睿 +3 位作者 张洪宇 荆晓远 任杰 刘金会 《软件学报》 北大核心 2025年第10期4558-4589,共32页
近年来,SZZ作为一种识别引入缺陷的变更算法,被广泛应用于即时软件缺陷预测技术中.先前的研究表明,SZZ算法在对数据进行标注时会存在误标问题,这将影响数据集的质量,进而影响预测模型的性能.因此,研究人员对SZZ算法进行了改进,并提出多... 近年来,SZZ作为一种识别引入缺陷的变更算法,被广泛应用于即时软件缺陷预测技术中.先前的研究表明,SZZ算法在对数据进行标注时会存在误标问题,这将影响数据集的质量,进而影响预测模型的性能.因此,研究人员对SZZ算法进行了改进,并提出多个SZZ变体.然而,目前尚未有文献研究数据标注质量对移动APP即时缺陷预测性能和解释的影响.为探究SZZ错误标注的变更对移动APP即时软件缺陷预测模型的影响,对4种SZZ算法进行广泛而深入的实证研究.首先,选取GitHub库中17个大型移动APP项目,借助PyDriller工具抽取软件度量元.其次,采用B-SZZ(原始SZZ版本)、AG-SZZ、MA-SZZ和RA-SZZ这4种算法标注数据.然后,根据时间序列划分数据,利用随机森林、朴素贝叶斯和逻辑回归分类器分别建立即时缺陷预测模型.最后,使用AUC、MCC、G-mean传统指标和F-measure@20%、IFA工作量感知指标评估模型性能,并使用SKESD和SHAP算法对结果进行统计显著性检验与可解释性分析.通过对比4种SZZ算法的标注性能,研究发现:(1)数据的标注质量符合SZZ变体之间的递进关系;(2)B-SZZ、AG-SZZ和MA-SZZ错误标注的变更会造成AUC、MCC得分不同程度的下降,但不会造成G-mean得分下降;(3)B-SZZ会造成F-measure@20%得分下降,而在代码审查时,B-SZZ、AG-SZZ和MA-SZZ不会导致审查工作量的增加;(4)在模型解释方面,不同SZZ算法会影响预测过程中贡献程度排名前3的度量元,并且la度量元对预测结果有重要影响. 展开更多
关键词 即时软件缺陷预测 移动APP SZZ算法 挖掘软件存储库 可解释性 工作量感知 实证软件工程
在线阅读 下载PDF
融合反事实与多目标优化的可解释关联规则缺陷预测模型
9
作者 于巧 蒋佳漩 +1 位作者 任思宇 祝义 《计算机工程与应用》 北大核心 2025年第22期339-352,共14页
软件缺陷预测是保证软件质量的关键。为了提高软件缺陷预测的性能,研究人员已经设计出多种缺陷预测模型,但大多数模型在提供预测结果时透明度较低,使得开发者难以理解模型内部的逻辑和决策过程,从而导致模型的不可解释性问题。该问题不... 软件缺陷预测是保证软件质量的关键。为了提高软件缺陷预测的性能,研究人员已经设计出多种缺陷预测模型,但大多数模型在提供预测结果时透明度较低,使得开发者难以理解模型内部的逻辑和决策过程,从而导致模型的不可解释性问题。该问题不仅限制了模型的可信度,也阻碍了其在实际发展中的应用。针对该问题,利用多个关联规则组合成一个可解释的多目标优化模型,被称为MoCFR。该模型采用反事实解释方法进行特征选择,通过反事实样本的特征变化率来确定每个特征的重要性分数。在此基础上,该模型运用多目标优化技术构建关联规则分类器,同时优化分类误差、规则平均数量和置信度三个关键指标。在PROMISE数据集上的实验结果表明,MoCFR在分类误差方面优于现有的基于规则的分类模型,与同类多目标优化模型相比,显著减少了规则数量。 展开更多
关键词 软件缺陷预测 关联规则挖掘 多目标优化 特征选择
在线阅读 下载PDF
一种事前可解释的即时软件缺陷预测方法
10
作者 林杨 王炜 《计算机应用与软件》 北大核心 2025年第4期13-20,共8页
为解决即时软件缺陷预测结果难以解释的问题,基于多项式神经网络的改进模型,提出一种事前可解释的即时软件缺陷预测方法,通过将代码度量元与预测结果之间的因果关系形式化输出为K-G多项式的复合函数,使用标准化回归系数来衡量复合函数... 为解决即时软件缺陷预测结果难以解释的问题,基于多项式神经网络的改进模型,提出一种事前可解释的即时软件缺陷预测方法,通过将代码度量元与预测结果之间的因果关系形式化输出为K-G多项式的复合函数,使用标准化回归系数来衡量复合函数中度量元的重要性,分析影响缺陷产生的原因。实验结果表明在平均预测准确率达到0.797的前提下,该方法还具有较好的可解释性。 展开更多
关键词 多项式神经网络 即时软件缺陷预测 事前可解释性 形式化
在线阅读 下载PDF
工业物联网环境下软件缺陷预测技术的发展与应用综述
11
作者 邓涛 邓烨 《计算机科学》 北大核心 2025年第S2期727-737,共11页
在工业物联网(Industrial Internet of Things,IIoT)环境中,海量的软件代码数据的生成迫切需要通过先进的软件缺陷预测(Software Defect Prediction,SDP)技术进行有效分析。这些技术不仅能够迅速定位异常情况,还可以全面调查潜在问题,... 在工业物联网(Industrial Internet of Things,IIoT)环境中,海量的软件代码数据的生成迫切需要通过先进的软件缺陷预测(Software Defect Prediction,SDP)技术进行有效分析。这些技术不仅能够迅速定位异常情况,还可以全面调查潜在问题,因为即使是微小的偏差也可能导致项目代码的崩溃。文中系统综述了2018-2025年间发表的61篇相关文献,突出展示了IIoT中SDP所面临的主要挑战和最新进展。从多个视角深入探讨了SDP的相关技术,包括统计方法、机器学习技术和模型导向的方法等。未来的研究应优先关注复杂异构环境中缺陷模式的动态变化,解决数据稀缺和标注成本高昂的问题,同时平衡实时性与资源限制之间的矛盾。此外,需要增强模型的可解释性和用户的认知理解,以提升系统的可理解性和操作的鲁棒性。还对IIoT中相关的现有数据集进行了系统分析,为该关键领域的进一步研究奠定了坚实基础。 展开更多
关键词 工业物联网 软件缺陷预测 模型导向
在线阅读 下载PDF
结合开发者依赖的图神经网络缺陷预测方法
12
作者 乔羽 徐涛 +2 位作者 张亚 文凤鹏 李强伟 《计算机科学》 北大核心 2025年第6期52-57,共6页
在软件开发过程中,及时识别和处理高风险缺陷模块是至关重要的。传统的软件缺陷预测方法主要基于代码相关的信息,但常常忽略了开发者个人特质对软件质量的影响。针对这一问题,提出了一种新型的结合开发者一致性依赖网络的软件缺陷预测模... 在软件开发过程中,及时识别和处理高风险缺陷模块是至关重要的。传统的软件缺陷预测方法主要基于代码相关的信息,但常常忽略了开发者个人特质对软件质量的影响。针对这一问题,提出了一种新型的结合开发者一致性依赖网络的软件缺陷预测模型DCN4SDP。首先利用开发者信息构建了一个开发者一致性依赖网络,并提取代码相关的度量作为网络的初始度量元,通过使用双向门控图神经网络学习网络结构上的节点特征。实验结果表明,DCN4SDP模型在多个标准数据集上的性能显著优于传统机器学习分类器和其他深度学习方法,AUC值达到了0.91,F1值达到了0.76,均显著高于其他对比模型。这些优势表明将开发者维度融入软件缺陷预测能够有效提升模型的预测能力和应用价值,且为未来的软件缺陷预测研究提供了新的思路和方向。 展开更多
关键词 软件缺陷预测 双向门控图神经网络 开发者信息 深度学习 图神经网络 软件工程
在线阅读 下载PDF
前景黑猩猩优化SVM的跨项目软件缺陷预测
13
作者 陈丽芳 张思鹏 +2 位作者 曹柯欣 韩阳 代琪 《计算机工程与设计》 北大核心 2025年第11期3239-3247,共9页
黑猩猩优化算法存在收敛慢、精度低、易陷入局部最优问题。为此,提出前景反向黑猩猩优化算法(PRChOA)。该算法运用佳点集策略初始化种群,借助前景反向学习更新攻击者等角色位置,对新个体进行位置排序,以此提升全局收敛速度与局部寻优能... 黑猩猩优化算法存在收敛慢、精度低、易陷入局部最优问题。为此,提出前景反向黑猩猩优化算法(PRChOA)。该算法运用佳点集策略初始化种群,借助前景反向学习更新攻击者等角色位置,对新个体进行位置排序,以此提升全局收敛速度与局部寻优能力。在6个基准测试函数中,PRChOA对比多个群智能算法,实验结果表明PRChOA收敛更快、寻优更强。将其用于优化SVM超参数并应用于跨项目软件缺陷预测,实验使用28个公开数据集,实验结果表明F-measure、AUC指标优于其它算法。 展开更多
关键词 黑猩猩优化算法 佳点集 前景理论 反向学习 跨项目软件缺陷预测 支持向量机 超参数优化
在线阅读 下载PDF
静态软件缺陷预测方法研究 被引量:126
14
作者 陈翔 顾庆 +2 位作者 刘望舒 刘树龙 倪超 《软件学报》 EI CSCD 北大核心 2016年第1期1-25,共25页
静态软件缺陷预测是软件工程数据挖掘领域中的一个研究热点.通过分析软件代码或开发过程,设计出与软件缺陷相关的度量元;随后,通过挖掘软件历史仓库来创建缺陷预测数据集,旨在构建出缺陷预测模型,以预测出被测项目内的潜在缺陷程序模块... 静态软件缺陷预测是软件工程数据挖掘领域中的一个研究热点.通过分析软件代码或开发过程,设计出与软件缺陷相关的度量元;随后,通过挖掘软件历史仓库来创建缺陷预测数据集,旨在构建出缺陷预测模型,以预测出被测项目内的潜在缺陷程序模块,最终达到优化测试资源分配和提高软件产品质量的目的.对近些年来国内外学者在该研究领域取得的成果进行了系统的总结.首先,给出了研究框架并识别出了影响缺陷预测性能的3个重要影响因素:度量元的设定、缺陷预测模型的构建方法和缺陷预测数据集的相关问题;接着,依次总结了这3个影响因素的已有研究成果;随后,总结了一类特殊的软件缺陷预测问题(即,基于代码修改的缺陷预测)的已有研究工作;最后,对未来研究可能面临的挑战进行了展望. 展开更多
关键词 软件质量保障 软件缺陷预测 软件度量元 机器学习 数据集预处理
在线阅读 下载PDF
软件缺陷预测技术 被引量:148
15
作者 王青 伍书剑 李明树 《软件学报》 EI CSCD 北大核心 2008年第7期1565-1580,共16页
软件缺陷预测技术从20世纪70年代发展至今,一直是软件工程领域最活跃的内容之一,在分析软件质量、平衡软件成本方面起着重要的作用.研究和讨论了软件缺陷预测技术的起源、发展和当前所面临的挑战,对主流的缺陷预测技术进行了分类讨论和... 软件缺陷预测技术从20世纪70年代发展至今,一直是软件工程领域最活跃的内容之一,在分析软件质量、平衡软件成本方面起着重要的作用.研究和讨论了软件缺陷预测技术的起源、发展和当前所面临的挑战,对主流的缺陷预测技术进行了分类讨论和比较,并对典型的软件缺陷的分布模型给出了案例研究. 展开更多
关键词 软件缺陷 度量 缺陷预测 缺陷模型 分类技术
在线阅读 下载PDF
基于特征迁移和实例迁移的跨项目缺陷预测方法 被引量:16
16
作者 倪超 陈翔 +3 位作者 刘望舒 顾庆 黄启国 李娜 《软件学报》 EI CSCD 北大核心 2019年第5期1308-1329,共22页
在实际软件开发中,需要进行缺陷预测的项目可能是一个新启动项目,或者这个项目的历史训练数据较为稀缺.一种解决方案是利用其他项目(即源项目)已搜集的训练数据来构建模型,并完成对当前项目(即目标项目)的预测.但不同项目的数据集间会... 在实际软件开发中,需要进行缺陷预测的项目可能是一个新启动项目,或者这个项目的历史训练数据较为稀缺.一种解决方案是利用其他项目(即源项目)已搜集的训练数据来构建模型,并完成对当前项目(即目标项目)的预测.但不同项目的数据集间会存在较大的分布差异性.针对该问题,从特征迁移和实例迁移角度出发,提出了一种两阶段跨项目缺陷预测方法 FeCTrA.具体来说,在特征迁移阶段,该方法借助聚类分析选出源项目与目标项目之间具有高分布相似度的特征;在实例迁移阶段,该方法基于TrAdaBoost方法,借助目标项目中的少量已标注实例,从源项目中选出与这些已标注实例分布相近的实例.为了验证FeCTrA方法的有效性,选择Relink数据集和AEEEM数据集作为评测对象,以F1作为评测指标.首先,FeCTrA方法的预测性能要优于仅考虑特征迁移阶段或实例迁移阶段的单阶段方法;其次,与经典的跨项目缺陷预测方法 TCA+、Peters过滤法、Burak过滤法以及DCPDP法相比,FeCTrA方法的预测性能在Relink数据集上可以分别提升23%、7.2%、9.8%和38.2%,在AEEEM数据集上可以分别提升96.5%、108.5%、103.6%和107.9%;最后,分析了FeCTrA方法内的影响因素对预测性能的影响,从而为有效使用FeCTrA方法提供了指南. 展开更多
关键词 软件质量保障 软件缺陷预测 跨项目缺陷预测 迁移学习 特征迁移 实例迁移
在线阅读 下载PDF
跨项目软件缺陷预测方法研究综述 被引量:47
17
作者 陈翔 王莉萍 +4 位作者 顾庆 王赞 倪超 刘望舒 王秋萍 《计算机学报》 EI CSCD 北大核心 2018年第1期254-274,共21页
软件缺陷预测首先通过挖掘与分析软件历史仓库,从中抽取程序模块并进行类型标记.随后通过分析软件代码的内在复杂度或开发过程特征,设计出与软件缺陷存在强相关性的度量元,并对这些程序模块进行度量.最后借助特定的机器学习方法基于上... 软件缺陷预测首先通过挖掘与分析软件历史仓库,从中抽取程序模块并进行类型标记.随后通过分析软件代码的内在复杂度或开发过程特征,设计出与软件缺陷存在强相关性的度量元,并对这些程序模块进行度量.最后借助特定的机器学习方法基于上述数据构建出缺陷预测模型.因此该方法可以在项目开发的早期阶段,通过预先识别出项目内的可疑缺陷模块,达到优化测试资源分配的目的.但在实际软件开发场景中,需要进行缺陷预测的项目可能是一个新启动项目,或这个项目的历史训练数据比较稀缺.一种简单的解决方案是利用其他项目已经搜集的训练数据来构建缺陷预测模型.但不同项目之间因所处的应用领域、采用的开发流程、使用的编程语言、开发人员经验等并不相同,因此对应数据集间会存在较大的分布差异性并造成该方案的实际性能并不理想,因此如何通过有效迁移源项目的相关知识来为目标项目构建预测模型,吸引了国内外研究人员的关注,并将该问题称为跨项目软件缺陷预测问题.论文针对该问题进行了系统综述.根据预测场景的不同,将已有方法分为3类:基于有监督学习的方法、基于无监督学习的方法和基于半监督学习的方法.其中基于有监督学习的方法主要基于候选源项目集的程序模块来构建模型.这类方法根据源项目与目标项目采用的度量元是否相同又可以细分为同构跨项目缺陷预测方法和异构跨项目缺陷预测方法.针对前者,研究人员主要从度量元取值转换、实例选择和权重设置、特征映射和特征选择、集成学习、类不平衡学习等角度展开研究.而后者更具研究挑战性,研究人员主要基于特征映射和典型相关分析等方法展开研究.基于无监督学习的方法直接尝试对目标项目中的程序模块进行预测.这类方法假设在软件缺陷预测问题中,有缺陷模块的度量元取值存在高于无缺陷模块的度量元取值的倾向.因此研究人员主要基于聚类方法展开研究.而基于半监督学习的方法则会综合使用候选源项目集的程序模块和目标项目中的少量已标记模块来构建模型.这类方法通过尝试从目标项目中选出少量模块进行标记,以提高跨项目缺陷预测的性能.研究人员主要借助集成学习和TrAdaBoost方法展开研究.论文依次对每一类方法的已有研究成果进行了系统梳理和点评.随后论文进一步总结了跨项目缺陷预测研究中经常使用的性能评测指标和评测数据集,其统计结果可以辅助研究人员针对该问题进行合理的实验设计.最后总结全文,并分别从数据集搜集、数据集预处理、模型构建和评估、模型应用这4个维度对未来值得关注的研究方向进行了展望. 展开更多
关键词 经验软件工程 软件缺陷预测 跨项目软件缺陷预测 迁移学习 实证研究
在线阅读 下载PDF
数据驱动的软件缺陷预测研究综述 被引量:18
18
作者 李勇 黄志球 +1 位作者 王勇 房丙午 《电子学报》 EI CAS CSCD 北大核心 2017年第4期982-988,共7页
数据驱动的软件缺陷预测是提高软件测试效率、保证软件可靠性的重要途径之一,近几年已成为实证软件工程的研究热点.首先介绍了数据驱动软件缺陷预测的研究背景;然后总结了已有软件缺陷数据属性度量方法的特点,并按照软件开发中缺陷预测... 数据驱动的软件缺陷预测是提高软件测试效率、保证软件可靠性的重要途径之一,近几年已成为实证软件工程的研究热点.首先介绍了数据驱动软件缺陷预测的研究背景;然后总结了已有软件缺陷数据属性度量方法的特点,并按照软件开发中缺陷预测的使用场景,以数据来源为主线从基于版本内数据、跨版本数据和跨项目数据实现缺陷预测三个方面对近10年(2005~2015)已有的研究工作进行分类归纳和比较;最后对该领域未来的研究趋势进行了展望. 展开更多
关键词 软件缺陷预测 数据驱动 软件度量 机器学习
在线阅读 下载PDF
分类不平衡对软件缺陷预测模型性能的影响研究 被引量:31
19
作者 于巧 姜淑娟 +3 位作者 张艳梅 王兴亚 高鹏飞 钱俊彦 《计算机学报》 EI CSCD 北大核心 2018年第4期809-824,共16页
分类不平衡是指不同类别间样本数量分布不均衡的现象.在软件缺陷预测中,传统预测模型的性能可能会因数据集分类不平衡而受到影响.为了探究分类不平衡对软件缺陷预测模型性能的影响程度,该文提出一种分类不平衡影响分析方法.首先,设计一... 分类不平衡是指不同类别间样本数量分布不均衡的现象.在软件缺陷预测中,传统预测模型的性能可能会因数据集分类不平衡而受到影响.为了探究分类不平衡对软件缺陷预测模型性能的影响程度,该文提出一种分类不平衡影响分析方法.首先,设计一种新数据集构造算法,将原不平衡数据集转化为一组不平衡率依次递增的新数据集.然后,选取不同的分类模型作为缺陷预测模型,分别对构造的新数据集进行预测,并采用AUC指标来度量不同预测模型的分类性能.最后,采用变异系数C·V来评价各个预测模型在分类不平衡时的性能稳定程度.在8种典型的预测模型上进行实验验证,结果表明C4.5、RIPPER和SMO这3种预测模型的性能随着不平衡率的增大而下降,而代价敏感学习和集成学习能够有效提高它们在分类不平衡时的性能和性能稳定程度.与上述3种模型相比,逻辑回归、朴素贝叶斯和随机森林等模型的性能更加稳定. 展开更多
关键词 分类不平衡 软件缺陷预测 预测模型 不平衡率 代价敏感学习 集成学习
在线阅读 下载PDF
一种面向软件缺陷预测的可容忍噪声的特征选择框架 被引量:18
20
作者 刘望舒 陈翔 +2 位作者 顾庆 刘树龙 陈道蓄 《计算机学报》 EI CSCD 北大核心 2018年第3期506-520,共15页
软件缺陷预测通过挖掘软件历史仓库,构建缺陷预测模型来预测出被测项目内的潜在缺陷程序模块.但在挖掘过程中,对程序模块进行类型标记或软件度量时均可能产生噪声.虽然研究人员对已有特征选择方法的噪声容忍能力进行了分析,但据我们所知... 软件缺陷预测通过挖掘软件历史仓库,构建缺陷预测模型来预测出被测项目内的潜在缺陷程序模块.但在挖掘过程中,对程序模块进行类型标记或软件度量时均可能产生噪声.虽然研究人员对已有特征选择方法的噪声容忍能力进行了分析,但据我们所知,很少有研究人员在软件缺陷预测研究中,针对性的设计出可容忍噪声的新颖特征选择方法.为了解决此问题,我们提出一种可容忍噪声的特征选择框架FECS.具体来说,首先借助聚类分析,将原始特征集划分到指定数目的簇中,随后设计出3种不同的启发式特征选择策略,依次从每一个簇中选出最为典型的特征.在实证研究中,以Eclipse和NASA等实际项目为评测对象.首先借助一系列数据预处理方法来提升数据集质量,随后同时注入类标噪声和特征噪声来模拟噪声数据集.通过与典型的特征选择方法进行比较,验证了FECS框架的有效性,除此之外,通过深入分析噪声注入率、特征选择比例及噪声类型对缺陷预测性能的影响,为更有效的使用FECS提供了指导. 展开更多
关键词 软件质量保证 软件缺陷预测 特征选择 噪声容忍能力 聚类分析
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部