-
题名软件仓库挖掘领域:贡献者和研究热点
被引量:4
- 1
-
-
作者
江贺
陈信
张静宣
韩雪娇
徐秀娟
-
机构
大连理工大学软件学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第12期2768-2782,共15页
-
基金
国家自然科学基金项目(61370144)
教育部新世纪优秀人才支持计划基金项目(NCET-13-0073)~~
-
文摘
随着时间的推移,软件不断地更新和演化,软件仓库中累积了海量的数据,如何有效地收集、组织、利用软件工程中涌现的软件大数据是一个至关重要的问题.软件仓库挖掘(mining software repositories,MSR)通过挖掘软件仓库中繁杂多变的数据中蕴含的知识来提高软件的质量和生产效率.虽然一些研究工作详细阐述了MSR的背景、历史和前景,但现有的研究工作并未系统地呈现MSR领域中最有影响力的作者、机构、国家以及最受欢迎的研究主题和主题变迁等领域知识.因此,结合已有的经典的文献分析框架和算法来分析MSR相关文献,并呈现一些MSR基本领域知识.为了实现MSR文献分析,建立了一个包含3个组件的MSR文献分析框架(MSR publication analysis framework,MSR-PAF),这3个组件分别被用来创建数据集、执行基础文献分析、实施合作模式分析.基础文献分析结果表明:最高产的作者、机构、国家?地区分别是Ahmed E.Hassan,University of Victoria和美国,最有影响力作者是Ahmed E.Hassan,最频繁的关键词是software maintenance.合作模式分析的结果显示Abram Hindle是MSR领域最活跃的作者,open source project和software maintenance是最流行的研究主题.
-
关键词
文献分析
合作模式分析
数据挖掘
软件仓库挖掘
大数据
-
Keywords
publication analysis
collaboration pattern analysis
data mining
mining software repositories
big data
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向软件仓库挖掘的数据驱动特征提取方法
被引量:4
- 2
-
-
作者
李晓晨
江贺
任志磊
-
机构
大连理工大学软件学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第9期159-164,共6页
-
基金
教育部新世纪优秀人才支持计划(NCET-13-0073)
国家自然科学基金(61175062
61370144)资助
-
文摘
在软件仓库挖掘领域,通常将软件工程任务转换成数据挖掘问题进行解决。领域特征的使用严重影响了软件任务的解决效果。然而,如何根据特定任务从软件仓库数据中提取有价值的特征,在软件仓库挖掘领域尚缺乏系统的研究。数据驱动特征提取方法是一种新的特征提取方法。对于给定的软件工程任务,该方法从任务的数据集中选取部分数据(如源代码、缺陷报告等),招募若干志愿者人工完成该任务,并要求志愿者说明在人工完成特定软件工程任务时所考虑的因素。通过分析这些因素,可以提取所需的领域特征。以缺陷报告摘要任务为例进行实验,结果表明新方法能够发现高效的领域特征,并取得比现有方法更好的预测效果。
-
关键词
软件仓库挖掘
数据驱动方法
特征提取
缺陷报告摘要
-
Keywords
Mining software repositories,Data driven approach,Feature extraction,Bug report summarization
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种面向软件仓库挖掘的动态作业配置框架
- 3
-
-
作者
史殿习
尹刚
米海波
袁霖
王怀民
-
机构
国防科学技术大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2011年第7期113-116,133,共5页
-
基金
国家863课题(2007AA010301)
国家自然科学基金项目(60903043)资助
-
文摘
构造面向软件仓库挖掘的数据中心,是目前软件工程领域的研究热点。软件仓库数据处理作业的执行时间差异明显、资源消耗大等特点为其作业配置带来诸多挑战。提出一种面向软件仓库挖掘的作业配置框架TrustieS-DC,该框架支持一种新型远程作业部署和服务模式,采用一种基于软件版本划分的动态作业配置算法以缩短长作业响应时间并提高系统资源利用率。基于Gnome项目SVN库的实验表明,TrustieSDC的性能和资源利用率与并行后的Alitheia相比有明显改进。
-
关键词
软件仓库挖掘
数据中心
作业配置
开发者贡献度
开发者网络
-
Keywords
Ming of software repositories
Data center
Job configuration
Developer contribution
Developer network
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名预训练模型在软件工程领域应用研究进展
被引量:2
- 4
-
-
作者
宫丽娜
周易人
乔羽
姜淑娟
魏明强
黄志球
-
机构
南京航空航天大学计算机科学与技术学院
高安全系统的软件开发与验证技术工信部重点实验室(南京航空航天大学)
中国矿业大学计算机科学与技术学院
-
出处
《软件学报》
北大核心
2025年第1期1-26,共26页
-
基金
国家自然科学基金(62202223)
江苏省自然科学基金(BK20220881)
高安全系统的软件开发与验证技术工信部重点实验室(南京航空航天大学)开放项目(NJ2022027)。
-
文摘
近年来深度学习在软件工程领域任务中取得了优异的性能.众所周知,实际任务中优异性能依赖于大规模训练集,而收集和标记大规模训练集需要耗费大量资源和成本,这限制了深度学习技术在实际任务中的广泛应用.随着深度学习领域预训练模型(pre-trained model,PTM)的发布,将预训练模型引入到软件工程(software engineering,SE)任务中得到了国内外软件工程领域研究人员的广泛关注,并得到了质的飞跃,使得智能化软件工程进入了一个新时代.然而,目前没有研究提炼预训练模型在软件工程领域的成功和机遇.为阐明这一交叉领域的工作(pre-trained models for software engineering,PTM4SE),系统梳理当前基于预训练模型的智能软件工程相关工作,首先给出基于预训练模型的智能软件工程方法框架,其次分析讨论软件工程领域常用的预训练模型技术,详细介绍使用预训练模型的软件工程领域下游任务,并比较和分析预训练模型技术这些任务上的性能.然后详细介绍常用的训练和微调PTM的软件工程领域数据集.最后,讨论软件工程领域使用PTM面临的挑战和机遇.同时将整理的软件工程领域PTM和常用数据集发布在https://github.com/OpenSELab/PTM4SE.
-
关键词
软件仓库挖掘
预训练模型
程序语言模型
-
Keywords
software repository mining
pre-trained model(PTM)
programming language model
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名代码自然性及其应用研究进展
被引量:2
- 5
-
-
作者
陈浙哲
鄢萌
夏鑫
刘忠鑫
徐洲
雷晏
-
机构
信息物理社会可信服务计算教育部重点实验室(重庆大学)
重庆大学大数据与软件学院
Faculty of Information Technology
浙江大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2022年第8期3015-3034,共20页
-
基金
国家自然科学基金(62002034)
中央高校基本科研业务费(2020CDCGRJ072,2020CDJQYA021,2021CDJKYJH032)
+2 种基金
国防基础科研计划(WDZC20205500308)
中国博士后基金(2020M673137)
重庆市自然科学基金(cstc2020jcyj-bshX0114)。
-
文摘
代码自然性(code naturalness)研究是自然语言处理领域和软件工程领域共同的研究热点之一,旨在通过构建基于自然语言处理技术的代码自然性模型,以解决各种软件工程任务.近年来,随着开源软件社区中源代码和数据规模的不断扩大,越来越多的研究人员注重钻研源代码中蕴藏的信息,并且取得了一系列研究成果.但与此同时,代码自然性研究在代码语料库构建、模型构建和任务应用等环节面临许多挑战.鉴于此,从代码自然性技术的代码语料库构建、模型构建和任务应用等方面对近年来代码自然性研究及应用进展进行梳理和总结.主要内容包括:(1)介绍了代码自然性的基本概念及其研究概况;(2)归纳目前代码自然性研究的语料库,并对代码自然性模型建模方法进行分类与总结;(3)总结代码自然性模型的实验验证方法和模型评价指标;(4)总结并归类了目前代码自然性的应用现状;(5)归纳代码自然性技术的关键问题;(6)展望代码自然性技术的未来发展.
-
关键词
代码自然性
软件仓库挖掘
代码语言模型
-
Keywords
code naturalness
mining software repositories
code language model
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-