期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于联合特征分布匹配的跨项目缺陷预测 被引量:2
1
作者 邱少健 陆璐 邹全义 《计算机工程与设计》 北大核心 2024年第1期204-211,共8页
为解决跨项目软件缺陷预测研究中存在的特征不完备和分类边界模糊问题,提出一种基于联合特征的双编码器分布匹配方法(DeDM-JF)。利用卷积神经网络提取代码中与缺陷有关的结构语义特征,将其与人为选取的Handcrafted特征结合,形成联合特征... 为解决跨项目软件缺陷预测研究中存在的特征不完备和分类边界模糊问题,提出一种基于联合特征的双编码器分布匹配方法(DeDM-JF)。利用卷积神经网络提取代码中与缺陷有关的结构语义特征,将其与人为选取的Handcrafted特征结合,形成联合特征;在此基础上,构建包含分布差异匹配层的双自编码器,学习跨项目全局和局部可迁移特征用于训练缺陷预测模型。面向软件缺陷数据仓库中的798对跨项目缺陷预测任务开展实验,与相关的跨项目缺陷预测方法比较,DeDM-JF方法预测的F-measure和MCC指标有明显提升。 展开更多
关键词 软件缺陷预测 跨项目缺陷预测 卷积神经网络 联合特征 自编码器 分布匹配 迁移学习
在线阅读 下载PDF
基于特征迁移和实例迁移的跨项目缺陷预测方法 被引量:16
2
作者 倪超 陈翔 +3 位作者 刘望舒 顾庆 黄启国 李娜 《软件学报》 EI CSCD 北大核心 2019年第5期1308-1329,共22页
在实际软件开发中,需要进行缺陷预测的项目可能是一个新启动项目,或者这个项目的历史训练数据较为稀缺.一种解决方案是利用其他项目(即源项目)已搜集的训练数据来构建模型,并完成对当前项目(即目标项目)的预测.但不同项目的数据集间会... 在实际软件开发中,需要进行缺陷预测的项目可能是一个新启动项目,或者这个项目的历史训练数据较为稀缺.一种解决方案是利用其他项目(即源项目)已搜集的训练数据来构建模型,并完成对当前项目(即目标项目)的预测.但不同项目的数据集间会存在较大的分布差异性.针对该问题,从特征迁移和实例迁移角度出发,提出了一种两阶段跨项目缺陷预测方法 FeCTrA.具体来说,在特征迁移阶段,该方法借助聚类分析选出源项目与目标项目之间具有高分布相似度的特征;在实例迁移阶段,该方法基于TrAdaBoost方法,借助目标项目中的少量已标注实例,从源项目中选出与这些已标注实例分布相近的实例.为了验证FeCTrA方法的有效性,选择Relink数据集和AEEEM数据集作为评测对象,以F1作为评测指标.首先,FeCTrA方法的预测性能要优于仅考虑特征迁移阶段或实例迁移阶段的单阶段方法;其次,与经典的跨项目缺陷预测方法 TCA+、Peters过滤法、Burak过滤法以及DCPDP法相比,FeCTrA方法的预测性能在Relink数据集上可以分别提升23%、7.2%、9.8%和38.2%,在AEEEM数据集上可以分别提升96.5%、108.5%、103.6%和107.9%;最后,分析了FeCTrA方法内的影响因素对预测性能的影响,从而为有效使用FeCTrA方法提供了指南. 展开更多
关键词 软件质量保障 软件缺陷预测 跨项目缺陷预测 迁移学习 特征迁移 实例迁移
在线阅读 下载PDF
一种采用对抗学习的跨项目缺陷预测方法 被引量:6
3
作者 邢颖 钱晓萌 +3 位作者 管宇 章世豪 赵梦赐 林婉婷 《软件学报》 EI CSCD 北大核心 2022年第6期2097-2112,共16页
跨项目缺陷预测(cross-project defect prediction, CPDP)已经成为软件工程数据挖掘领域的一个重要研究方向,它利用其他项目的缺陷代码来建立预测模型,解决了模型构建过程中的数据不足问题.然而源项目和目标项目的代码文件之间存在着数... 跨项目缺陷预测(cross-project defect prediction, CPDP)已经成为软件工程数据挖掘领域的一个重要研究方向,它利用其他项目的缺陷代码来建立预测模型,解决了模型构建过程中的数据不足问题.然而源项目和目标项目的代码文件之间存在着数据分布的差异,导致跨项目预测效果不佳.基于生成式对抗网络(generative adversarial network,GAN)中的对抗学习思想,在鉴别器的作用下,通过改变目标项目特征的分布,使其接近于源项目特征的分布,从而提升跨项目缺陷预测的性能.具体来说,提出的抽象连续生成式对抗网络(abstract continuous generative adversarial network, AC-GAN)方法包括数据处理和模型构建两个阶段:(1)首先将源项目和目标项目的代码转换为抽象语法树(abstract syntax tree,AST)的形式,然后以深度优先方式遍历抽象语法树得出节点序列,再使用连续词袋模型(continuous bag-of-words model,CBOW)生成词向量,依据词向量表将节点序列转化为数值向量;(2)处理后的数值向量被送入基于GAN网络结构的模型进行特征提取和数据迁移,然后使用二分类器来判断目标项目代码文件是否有缺陷. AC-GAN方法在15组源-目标项目对上进行了对比实验,实验结果表明了该方法的有效性. 展开更多
关键词 跨项目缺陷预测 生成式对抗网络 连续词袋模型 抽象语法树
在线阅读 下载PDF
基于分层数据筛选的跨项目缺陷预测方法 被引量:2
4
作者 赵宇 祝义 +1 位作者 于巧 陈小颖 《计算机工程与应用》 CSCD 北大核心 2021年第20期279-286,共8页
跨项目缺陷预测旨在解决传统的项目内缺陷预测的历史数据缺失,新项目初期缺乏训练数据等实际问题。然而,在跨项目缺陷预测中,不同项目之间以及实例之间的数据分布差异降低了其预测性能。针对这一问题,提出了基于分层数据筛选的跨项目缺... 跨项目缺陷预测旨在解决传统的项目内缺陷预测的历史数据缺失,新项目初期缺乏训练数据等实际问题。然而,在跨项目缺陷预测中,不同项目之间以及实例之间的数据分布差异降低了其预测性能。针对这一问题,提出了基于分层数据筛选的跨项目缺陷预测方法。该方法将训练数据的筛选过程分为项目层筛选和实例层筛选,从源数据集中选出与目标项目数据分布最接近的候选项目集,在候选项目集中选出与目标项目中实例相似度较高的训练数据集,最后在训练数据集上训练朴素贝叶斯模型。在PROMISE数据集进行实验对比。结果表明,与项目内缺陷预测比较,提出的分层数据筛选方法优于项目内缺陷预测,并且有效降低了训练数据和目标项目数据之间的差异性。 展开更多
关键词 跨项目缺陷预测 分层数据筛选 朴素贝叶斯模型
在线阅读 下载PDF
基于特征选择和TrAdaBoost的跨项目缺陷预测方法 被引量:5
5
作者 李莉 石可欣 任振康 《计算机应用》 CSCD 北大核心 2022年第5期1554-1562,共9页
跨项目软件缺陷预测可以解决预测项目中训练数据较少的问题,然而源项目和目标项目通常会有较大的数据分布差异,这降低了预测性能。针对该问题,提出了一种基于特征选择和TrAdaBoost的跨项目缺陷预测方法(CPDP-FSTr)。首先,在特征选择阶段... 跨项目软件缺陷预测可以解决预测项目中训练数据较少的问题,然而源项目和目标项目通常会有较大的数据分布差异,这降低了预测性能。针对该问题,提出了一种基于特征选择和TrAdaBoost的跨项目缺陷预测方法(CPDP-FSTr)。首先,在特征选择阶段,采用核主成分分析法(KPCA)删除源项目中的冗余数据;然后,根据源项目和目标项目的属性特征分布,按距离选出与目标项目分布最接近的候选源项目数据;最后,在实例迁移阶段,通过采用评估因子改进的TrAdaBoost方法,在源项目中找出与目标项目中少量有标签实例分布相近的实例,并建立缺陷预测模型。以F1作为评价指标,与基于特征聚类和TrAdaBoost的跨项目软件缺陷预测(FeCTrA)方法以及基于多核集成学习的跨项目软件缺陷预测(CMKEL)方法相比,CPDP-FSTr的预测性能在AEEEM数据集上分别提高了5.84%、105.42%,在NASA数据集上分别提高了5.25%、85.97%,且其两过程特征选择优于单一特征选择过程。实验结果表明,当源项目特征选择比例和目标项目有类标实例比例分别为60%、20%时,所提CPDP-FSTr能取得较好的预测性能。 展开更多
关键词 跨项目缺陷预测 特征选择 核主成分分析 实例迁移 TrAdaBoost
在线阅读 下载PDF
基于实例过滤与迁移的跨项目缺陷预测方法 被引量:1
6
作者 范贵生 刁旭炀 +1 位作者 虞慧群 陈丽琼 《计算机工程》 CAS CSCD 北大核心 2020年第8期197-202,209,共7页
在跨项目软件缺陷预测中,人工采集标注的原始数据集通常包含噪声数据,并且源项目与目标项目之间的数据存在较大的分布差异性。针对该问题,提出一种两阶段跨项目缺陷预测方法CLNI-KMM。在实例过滤阶段,基于CLNI算法过滤噪声实例。在实例... 在跨项目软件缺陷预测中,人工采集标注的原始数据集通常包含噪声数据,并且源项目与目标项目之间的数据存在较大的分布差异性。针对该问题,提出一种两阶段跨项目缺陷预测方法CLNI-KMM。在实例过滤阶段,基于CLNI算法过滤噪声实例。在实例迁移阶段,采用KMM算法调整源项目中实例的训练权重,并结合目标项目中的少量标注实例建立软件缺陷预测模型。实验结果表明,与经典的跨项目软件缺陷预测方法TCA、TNB和NNFilter相比,CLNI-KMM方法预测性能较优,并且具有较强的稳定性。 展开更多
关键词 跨项目缺陷预测 噪声数据 分布差异 实例过滤 实例迁移
在线阅读 下载PDF
结合特征对齐与实例迁移的跨项目缺陷预测
7
作者 李莉 赵鑫 +2 位作者 石可欣 苏仁嘉 任振康 《计算机应用研究》 CSCD 北大核心 2023年第10期3091-3099,共9页
为解决跨项目缺陷预测中源项目和目标项目分布差异较大的问题,提出了一种基于特征对齐和实例迁移的两阶段缺陷预测方法(FAIT)。首先,在特征对齐阶段,根据边缘概率分布进行特征的边缘分布对齐;然后,基于源项目和目标项目构建条件分布映... 为解决跨项目缺陷预测中源项目和目标项目分布差异较大的问题,提出了一种基于特征对齐和实例迁移的两阶段缺陷预测方法(FAIT)。首先,在特征对齐阶段,根据边缘概率分布进行特征的边缘分布对齐;然后,基于源项目和目标项目构建条件分布映射矩阵完成条件分布对齐;最后,在实例迁移阶段,通过改进了权重调整策略的TrAdaBoost方法构建跨项目缺陷预测模型。以F 1作为评价指标,当目标项目有标签实例比例为20%时,FAIT性能最佳,且两过程特征对齐优于单一过程特征对齐。此外,FAIT的预测性能在AEEEM和NASA数据集上分别提高了10.69%、15.04%。FAIT在一定程度上解决了源项目与目标项目的分布差异,能够取得较好的缺陷预测性能。 展开更多
关键词 跨项目缺陷预测 特征对齐 最大均值差异 实例迁移 TrAdaBoost
在线阅读 下载PDF
跨项目缺陷预测中训练数据选择方法 被引量:3
8
作者 王星 何鹏 +1 位作者 陈丹 曾诚 《计算机应用》 CSCD 北大核心 2016年第11期3165-3169,3187,共6页
跨项目缺陷预测(CPDP)利用来自其他项目的缺陷数据预测目标项目的缺陷情况,为解决以往缺陷预测方法面临的训练数据受限问题提供了一个新的视角。训练数据的质量将直接影响跨项目缺陷预测模型的性能,因此,需尽可能选择与目标项目更相似... 跨项目缺陷预测(CPDP)利用来自其他项目的缺陷数据预测目标项目的缺陷情况,为解决以往缺陷预测方法面临的训练数据受限问题提供了一个新的视角。训练数据的质量将直接影响跨项目缺陷预测模型的性能,因此,需尽可能选择与目标项目更相似的数据用于模型的训练。利用PROMISE提供的34个公开数据集,从训练数据选择方面,分析了四种典型的相似性度量方法对跨项目预测结果的影响以及各种方法之间的差异。研究结果表明:使用不同的相似性度量方法选出的训练数据质量不同,其中余弦相似性与相关系数两种方法效果更好,且最大改进比例达到6.7%;同时,根据目标项目的缺陷率,发现余弦相似性更适合于缺陷率高于0.25的项目。 展开更多
关键词 软件质量保证 缺陷预测 跨项目缺陷预测 相似性度量 数据选择
在线阅读 下载PDF
多粒度数据选择的跨项目缺陷预测方法 被引量:4
9
作者 李一露 何鹏 +1 位作者 李兵 马于涛 《小型微型计算机系统》 CSCD 北大核心 2017年第9期1934-1939,共6页
跨项目缺陷预测利用来自其它项目的数据预测目标项目的缺陷情况,为解决以往预测方法面临的训练数据受限问题提供了一个新的视角.训练数据的质量将直接影响预测模型的性能,尤其是在跨项目情境下.本文利用PROMISE提供的34个公开数据集,从... 跨项目缺陷预测利用来自其它项目的数据预测目标项目的缺陷情况,为解决以往预测方法面临的训练数据受限问题提供了一个新的视角.训练数据的质量将直接影响预测模型的性能,尤其是在跨项目情境下.本文利用PROMISE提供的34个公开数据集,从训练数据选择的粒度出发,以两种已有的单一粒度选择方法为基准,提出一种多粒度的训练数据选择方法,并分析了所提方法对跨项目缺陷预测的作用.实验结果表明:从多粒度角度选择训练实例,既可使预测结果的F-measure和G-measure分别提高了0.035(10.4%)和0.041(9.6%),还可减少实际用于训练的实例规模;同时,采用朴素贝叶斯分类器相比其他分类器的F-measure和G-measure可分别提高44.4%和59.2%,且在训练过程中若对实例进行加权处理,预测效果可再提高25.8%. 展开更多
关键词 软件质量保证 缺陷预测 跨项目缺陷预测 训练数据选择
在线阅读 下载PDF
时序因素对即时软件缺陷预测性能影响的实证研究
10
作者 张雨 于巧 +2 位作者 祝义 姜淑娟 张淑涛 《计算机工程与应用》 北大核心 2025年第14期362-376,共15页
即时软件缺陷预测是针对开发者提交的代码变更是否存在缺陷进行预测。近年来,由于其细粒度、即时性、易追溯的特点,即时软件缺陷预测成为了缺陷预测领域的研究热点。代码变更提交具有时间特性,然而,现有研究大多忽略了时序因素对即时软... 即时软件缺陷预测是针对开发者提交的代码变更是否存在缺陷进行预测。近年来,由于其细粒度、即时性、易追溯的特点,即时软件缺陷预测成为了缺陷预测领域的研究热点。代码变更提交具有时间特性,然而,现有研究大多忽略了时序因素对即时软件缺陷预测的影响。因此,探究代码变更提交时间对即时软件缺陷预测性能的影响规律具有重要意义。探究了时序因素对项目内和跨项目即时软件缺陷预测性能的影响,采用随机森林、CNN和XGBoost三种模型在9个即时软件缺陷预测数据集上展开了实证研究。研究结果表明:在项目内缺陷预测中,训练集与测试集时间越接近,模型性能越好;与非时序场景相比,时序场景下的跨项目缺陷预测与项目内缺陷预测的性能差距更小。因此,在即时软件缺陷预测研究中应该充分考虑时序因素的影响,在进行训练集的选择时应优先考虑与测试集时间相距较近的数据集。 展开更多
关键词 即时软件缺陷预测(JIT-SDP) 时序因素 跨项目缺陷预测
在线阅读 下载PDF
基于实例迁移的跨项目软件缺陷预测 被引量:7
11
作者 毛发贵 李碧雯 沈备军 《计算机科学与探索》 CSCD 北大核心 2016年第1期43-55,共13页
跨项目软件缺陷预测是解决项目初期缺陷预测缺乏数据集的有效途径,但是项目间的差异性降低了预测准确率。针对这一问题,研究提出了基于实例迁移的跨项目缺陷预测方法。该方法采用迁移学习和自适应增强技术,从其他项目数据集中提取并迁... 跨项目软件缺陷预测是解决项目初期缺陷预测缺乏数据集的有效途径,但是项目间的差异性降低了预测准确率。针对这一问题,研究提出了基于实例迁移的跨项目缺陷预测方法。该方法采用迁移学习和自适应增强技术,从其他项目数据集中提取并迁移转化出与目标数据集关联性高的训练数据集,训练出更有效的预测模型。使用PROMISE数据集进行了对比实验,结果表明所提出的新方法有效避免了单源单目标缺陷预测两极分化问题,获得了更高的预测准确率和查全率;在目标项目数据集不足的情况下,能达到甚至超过数据集充足时项目内缺陷预测的预测效果。 展开更多
关键词 跨项目缺陷预测 迁移学习 基于实例的迁移 自适应增强
在线阅读 下载PDF
跨项目软件缺陷预测方法研究综述 被引量:46
12
作者 陈翔 王莉萍 +4 位作者 顾庆 王赞 倪超 刘望舒 王秋萍 《计算机学报》 EI CSCD 北大核心 2018年第1期254-274,共21页
软件缺陷预测首先通过挖掘与分析软件历史仓库,从中抽取程序模块并进行类型标记.随后通过分析软件代码的内在复杂度或开发过程特征,设计出与软件缺陷存在强相关性的度量元,并对这些程序模块进行度量.最后借助特定的机器学习方法基于上... 软件缺陷预测首先通过挖掘与分析软件历史仓库,从中抽取程序模块并进行类型标记.随后通过分析软件代码的内在复杂度或开发过程特征,设计出与软件缺陷存在强相关性的度量元,并对这些程序模块进行度量.最后借助特定的机器学习方法基于上述数据构建出缺陷预测模型.因此该方法可以在项目开发的早期阶段,通过预先识别出项目内的可疑缺陷模块,达到优化测试资源分配的目的.但在实际软件开发场景中,需要进行缺陷预测的项目可能是一个新启动项目,或这个项目的历史训练数据比较稀缺.一种简单的解决方案是利用其他项目已经搜集的训练数据来构建缺陷预测模型.但不同项目之间因所处的应用领域、采用的开发流程、使用的编程语言、开发人员经验等并不相同,因此对应数据集间会存在较大的分布差异性并造成该方案的实际性能并不理想,因此如何通过有效迁移源项目的相关知识来为目标项目构建预测模型,吸引了国内外研究人员的关注,并将该问题称为跨项目软件缺陷预测问题.论文针对该问题进行了系统综述.根据预测场景的不同,将已有方法分为3类:基于有监督学习的方法、基于无监督学习的方法和基于半监督学习的方法.其中基于有监督学习的方法主要基于候选源项目集的程序模块来构建模型.这类方法根据源项目与目标项目采用的度量元是否相同又可以细分为同构跨项目缺陷预测方法和异构跨项目缺陷预测方法.针对前者,研究人员主要从度量元取值转换、实例选择和权重设置、特征映射和特征选择、集成学习、类不平衡学习等角度展开研究.而后者更具研究挑战性,研究人员主要基于特征映射和典型相关分析等方法展开研究.基于无监督学习的方法直接尝试对目标项目中的程序模块进行预测.这类方法假设在软件缺陷预测问题中,有缺陷模块的度量元取值存在高于无缺陷模块的度量元取值的倾向.因此研究人员主要基于聚类方法展开研究.而基于半监督学习的方法则会综合使用候选源项目集的程序模块和目标项目中的少量已标记模块来构建模型.这类方法通过尝试从目标项目中选出少量模块进行标记,以提高跨项目缺陷预测的性能.研究人员主要借助集成学习和TrAdaBoost方法展开研究.论文依次对每一类方法的已有研究成果进行了系统梳理和点评.随后论文进一步总结了跨项目缺陷预测研究中经常使用的性能评测指标和评测数据集,其统计结果可以辅助研究人员针对该问题进行合理的实验设计.最后总结全文,并分别从数据集搜集、数据集预处理、模型构建和评估、模型应用这4个维度对未来值得关注的研究方向进行了展望. 展开更多
关键词 经验软件工程 软件缺陷预测 项目软件缺陷预测 迁移学习 实证研究
在线阅读 下载PDF
基于Box-Cox转换的集成跨项目软件缺陷预测方法 被引量:3
13
作者 王莉萍 陈翔 +1 位作者 王秋萍 赵英全 《计算机应用研究》 CSCD 北大核心 2017年第7期2023-2026,2031,共5页
对跨项目缺陷预测问题展开了深入研究,在源项目实例选择时,考虑了三种不同的实例相似度计算方法,并发现这些方法的缺陷预测结果存在多样性,因此提出了一种基于Box-Cox转换的集成跨项目软件缺陷预测方法 BCEL。具体来说,基于不同的实例... 对跨项目缺陷预测问题展开了深入研究,在源项目实例选择时,考虑了三种不同的实例相似度计算方法,并发现这些方法的缺陷预测结果存在多样性,因此提出了一种基于Box-Cox转换的集成跨项目软件缺陷预测方法 BCEL。具体来说,基于不同的实例相似度计算方法,从候选集中选出不同的训练集;针对这些数据集,进行有针对性的Box-Cox转换,并借助特定分类方法构造出不同的基分类器,最后将这三个基分类器进行有效集成。基于实际项目的数据集,验证了BCEL方法的有效性,并深入分析了BCEL方法内的影响因素对缺陷预测性能的影响。 展开更多
关键词 软件缺陷预测 项目软件缺陷预测 集成学习 实证研究
在线阅读 下载PDF
一种半监督集成跨项目软件缺陷预测方法 被引量:17
14
作者 何吉元 孟昭鹏 +2 位作者 陈翔 王赞 樊向宇 《软件学报》 EI CSCD 北大核心 2017年第6期1455-1473,共19页
软件缺陷预测方法可以在项目的开发初期,通过预先识别出所有可能含有缺陷的软件模块来优化测试资源的分配.早期的缺陷预测研究大多集中于同项目缺陷预测,但同项目缺陷预测需要充足的历史数据,而在实际应用中,可能需要预测项目的历史数... 软件缺陷预测方法可以在项目的开发初期,通过预先识别出所有可能含有缺陷的软件模块来优化测试资源的分配.早期的缺陷预测研究大多集中于同项目缺陷预测,但同项目缺陷预测需要充足的历史数据,而在实际应用中,可能需要预测项目的历史数据较为稀缺,或这个项目是一个全新项目.因此,跨项目缺陷预测问题成为当前软件缺陷预测领域内的一个研究热点,其研究挑战在于源项目与目标项目数据集间存在的分布差异性以及数据集内存在的类不平衡问题.受到基于搜索的软件工程思想的启发,提出了一种基于搜索的半监督集成跨项目软件缺陷预测方法 S^3EL.该方法首先通过调整训练集中各类数据的分布比例,构建出多个朴素贝叶斯基分类器;随后,利用具有全局搜索能力的遗传算法,基于少量已标记目标实例对上述基分类器进行集成,并构建出最终的缺陷预测模型.在Promise数据集及AEEEM数据集上与多个经典的跨项目缺陷预测方法(Burak过滤法、Peters过滤法、TCA+、CODEP及HYDRA)进行了对比.以F1值作为评测指标,结果表明:在大部分情况下,S^3EL方法可以取得最好的预测性能. 展开更多
关键词 项目软件缺陷预测 半监督学习 集成学习 遗传算法 朴素贝叶斯
在线阅读 下载PDF
融合多策略特征筛选的跨项目软件缺陷预测 被引量:7
15
作者 刘树毅 翟晔 刘东升 《计算机工程与应用》 CSCD 北大核心 2019年第8期53-58,65,共7页
针对跨项目软件缺陷预测过程中,软件缺陷数据存在无关信息或数据冗余等问题,提出融合多策略特征筛选的跨项目软件缺陷预测(cross-project software defect prediction based on Multi-Policy Feature Filtering,MPFF)方法。采用多策略... 针对跨项目软件缺陷预测过程中,软件缺陷数据存在无关信息或数据冗余等问题,提出融合多策略特征筛选的跨项目软件缺陷预测(cross-project software defect prediction based on Multi-Policy Feature Filtering,MPFF)方法。采用多策略筛选方法与过采样方法进行数据预处理;使用代价敏感的域自适应方法进行分类,分类过程使用少量已标记目标项目数据改善项目间分布差异;在AEEEM、NASA MDP及SOFTLAB数据集上进行了不同度量下预测实验。实验结果表明,在同构度量下MPFF方法相比Burank filter、Peters filter、TCA+和TrAdaBoost方法预测效果最佳。 展开更多
关键词 项目软件缺陷预测 无关信息 数据冗余 代价敏感 同构度量
在线阅读 下载PDF
基于相似性度量的软件缺陷预测训练集推荐 被引量:4
16
作者 王朝 于巧 韩惠 《计算机工程与应用》 CSCD 北大核心 2023年第9期86-94,共9页
在软件缺陷预测过程中,训练集质量是影响预测结果的关键因素。近几年,训练集选择也成为跨项目缺陷预测和跨版本缺陷预测等场景下的研究热点。然而,现有研究大多针对单一预测场景,可能会在一定程度上影响训练集质量。基于跨项目缺陷预测... 在软件缺陷预测过程中,训练集质量是影响预测结果的关键因素。近几年,训练集选择也成为跨项目缺陷预测和跨版本缺陷预测等场景下的研究热点。然而,现有研究大多针对单一预测场景,可能会在一定程度上影响训练集质量。基于跨项目缺陷预测和跨版本缺陷预测两个场景,从数据分布角度提出一种基于相似性度量的训练集推荐(similarity-based training set recommendation,STSR)方法。采用聚类将候选源项目与目标项目划分为相同个数的簇,计算簇心之间的欧氏距离衡量数据集的相似度,对目标项目进行抽样,计算候选源项目与抽样目标项目缺陷率的差值,并计算干扰类比率,最终实现训练集推荐。在PROMISE数据集的11个项目共40个版本上进行实验验证,采用F1和AUC指标评价STSR方法的性能。实验结果表明,与跨版本缺陷预测相比,STSR方法的F1更优,在AUC指标上两者相当;在时间代价方面,STSR方法的最长推荐时间为5.09 s,是可接受的。 展开更多
关键词 软件缺陷预测 训练集选择 跨项目缺陷预测 版本缺陷预测
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部