-
题名基于机器学习的开源软件项目维护状态识别
- 1
-
-
作者
罗诗雨
李馨蕾
罗俊韬
王新
张国锋
陈阳
-
机构
复旦大学计算机科学技术学院
-
出处
《软件学报》
2025年第11期5082-5101,共20页
-
基金
国家自然科学基金(62072115,62472101)
上海市“科技创新行动计划”政府间国际科技合作项目(22510713600)
+1 种基金
上海市“科技创新行动计划”启明星项目(扬帆专项)(22YF1415000)
上海市“科技创新行动计划”社会发展科技攻关项目(22dz1204900)。
-
文摘
随着开源软件的广泛普及和迅速发展,对开源软件项目的维护工作成为软件开发周期中的一个关键环节.作为全球范围内代表性的开发者社区, GitHub往往在同一领域有着大量功能相似的软件项目仓库,导致用户在选择合适的项目仓库进行使用或进一步开发时面临挑战,因此协助用户准确识别项目仓库的维护状态具有重要的现实意义.然而, GitHub平台并未提供可以直接衡量项目仓库维护状态的信息.提出一个基于机器学习的项目仓库维护状态自动识别方法,设计实现一套基于机器学习的分类模型GitMT,通过有效整合动态时间序列特征和描述性特征,可以实现项目仓库“活跃”与“未维护”状态的准确识别.经过一系列基于大规模真实数据的实验验证, GitMT在项目仓库维护状态的识别任务中AUC值达到了0.964.此外,还构建一个以软件项目仓库维护状态为中心的开源数据集——GitMT Dataset:https://doi.org/10.7910/DVN/OJ2NI3.
-
关键词
维护状态识别
开源软件项目
机器学习
动态时间序列特征
-
Keywords
maintenance status recognition
open-source software project
machine learning
dynamic time series feature
-
分类号
TP311
[自动化与计算机技术]
-