-
题名基于代码和描述文本相融合的软件分类研究
- 1
-
-
作者
陈宇航
王世宙
汤正婷
陈良育
姜宁康
-
机构
华东师范大学软件工程学院
-
出处
《华东师范大学学报(自然科学版)》
北大核心
2025年第1期46-58,共13页
-
基金
国家自然科学基金(62272416)。
-
文摘
第三方软件系统在现代软件开发过程中有着重要的作用.软件开发人员根据需求,在第三方软件库中检索合适的依赖库来构建软件,可避免许多重复工作,加快开发过程.然而,检索第三方依赖库的过程可能会很困难.通常第三方软件库提供预设的标签(类别)给软件开发人员进行查找,但是如果一个软件的预设标签被错误地标注,软件开发人员就无法查找到其需要的库,这势必会影响开发过程.提出了一种软件分类模型来解决上述挑战,模型结合方法向量、方法重要性和文本向量,将未知类别的软件分类到已知类别.鉴于此问题尚未有公开的数据集,为此建立了一个数据集并公开,此数据集包含来自Maven存储库的30种类别的120个软件系统.在此自建数据集上对提出的分类模型进行了测试,预测类别的准确度对于1个候选者的情况(top-1)为70%,对于3个候选者的情况(top-3)则达到了90%.实验结果表明,所提模型可以有效用于对开源存储库中的软件系统分类,辅助软件开发人员快速查找第三方库.
-
关键词
软件分类
第三方软件系统
方法重要性分数
code2vec
-
Keywords
software classification
third-party software system
method importance score
code2vec
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-