社交网络中,节点间存在多种关系类型,节点数量会随着时间的推移而变化,这种异质性和动态性给链路预测任务带来极大的挑战。因此,本文提出一种基于增量学习的社交网络链路预测方法(incremental learning social networks link prediction...社交网络中,节点间存在多种关系类型,节点数量会随着时间的推移而变化,这种异质性和动态性给链路预测任务带来极大的挑战。因此,本文提出一种基于增量学习的社交网络链路预测方法(incremental learning social networks link prediction,IL-SNLP)。通过对网络进行分层,使每一层网络只包含一种关系类型,以更好地获取节点在每种关系类型下的语义信息;针对网络的动态性,利用时序随机游走捕获社交网络中的局部结构信息和时序信息;针对增量数据,采用增量式更新随机游走策略对历史随机游走序列进行更新。通过增量式skip-gram模型从随机游走序列中提取新出现节点的特征,并进一步更新历史节点的特征;针对网络的异质性,采用概率模型提取不同关系类型之间的因果关系关联程度,并将其作用于每一层的节点特征,以改善不同关系层下节点特征表现能力;利用多层感知机构建节点相互感知器,挖掘节点间建立连接时的相互贡献,实现更高的链路预测准确率。实验结果表明,在3个真实的社交网络数据集上,IL-SNLP方法的ROC曲线下的面积(AUC)和F1分数比基线方法分别提高了10.08%~67.60%和1.76%~64.67%,提升了预测性能;对于增量数据,只需要少次迭代就能保持预测模型的性能,提高了模型训练的速度;与未采用增量学习技术的IL-SNLP−方法相比,IL-SNLP方法在时间效率上提升了30.78%~257.58%,显著缩短了模型的运行时长。展开更多
基于数据驱动的单元测试代码自动化生成技术存在覆盖率低和可读性差的问题,难以应对日益增长的测试需求。大语言模型(LLM)在代码生成任务中显示了极大的潜力,然而由于代码数据的功能风格和编码风格的差异,LLM面临灾难性遗忘和资源受限这...基于数据驱动的单元测试代码自动化生成技术存在覆盖率低和可读性差的问题,难以应对日益增长的测试需求。大语言模型(LLM)在代码生成任务中显示了极大的潜力,然而由于代码数据的功能风格和编码风格的差异,LLM面临灾难性遗忘和资源受限这2个挑战。为了解决这些问题,提出将编码风格和功能风格同步迁移微调的思想,并开发一种高效的LLM微调训练方法用于单元测试用例生成。首先,利用广泛使用的指令数据集对LLM进行指令对齐,并按任务类型对指令集分类;同时,提取并存储具有任务特征的权重增量;其次,设计一个自适应风格提取模块,该模块包含抗噪声干扰学习和编码风格回溯学习,以应对不同的代码编写风格;最后,在目标域分别对功能风格增量和编码风格增量进行联合训练,以实现在目标域低资源情况下的高效适配和微调。在SF110 Corpus of Classes数据集上的测试用例生成实验结果表明,所提方法的结果均优于对比方法,与主流代码生成LLM Codex、Code Llama和DeepSeek-Coder相比,所提方法的编译率分别提高0.8%、43.5%和33.8%、分支覆盖率分别提高3.1%、1.0%和17.2%;行覆盖率分别提高4.1%、6.5%和15.5%,验证了所提方法在代码生成任务上的优越性。展开更多
文摘社交网络中,节点间存在多种关系类型,节点数量会随着时间的推移而变化,这种异质性和动态性给链路预测任务带来极大的挑战。因此,本文提出一种基于增量学习的社交网络链路预测方法(incremental learning social networks link prediction,IL-SNLP)。通过对网络进行分层,使每一层网络只包含一种关系类型,以更好地获取节点在每种关系类型下的语义信息;针对网络的动态性,利用时序随机游走捕获社交网络中的局部结构信息和时序信息;针对增量数据,采用增量式更新随机游走策略对历史随机游走序列进行更新。通过增量式skip-gram模型从随机游走序列中提取新出现节点的特征,并进一步更新历史节点的特征;针对网络的异质性,采用概率模型提取不同关系类型之间的因果关系关联程度,并将其作用于每一层的节点特征,以改善不同关系层下节点特征表现能力;利用多层感知机构建节点相互感知器,挖掘节点间建立连接时的相互贡献,实现更高的链路预测准确率。实验结果表明,在3个真实的社交网络数据集上,IL-SNLP方法的ROC曲线下的面积(AUC)和F1分数比基线方法分别提高了10.08%~67.60%和1.76%~64.67%,提升了预测性能;对于增量数据,只需要少次迭代就能保持预测模型的性能,提高了模型训练的速度;与未采用增量学习技术的IL-SNLP−方法相比,IL-SNLP方法在时间效率上提升了30.78%~257.58%,显著缩短了模型的运行时长。
文摘基于数据驱动的单元测试代码自动化生成技术存在覆盖率低和可读性差的问题,难以应对日益增长的测试需求。大语言模型(LLM)在代码生成任务中显示了极大的潜力,然而由于代码数据的功能风格和编码风格的差异,LLM面临灾难性遗忘和资源受限这2个挑战。为了解决这些问题,提出将编码风格和功能风格同步迁移微调的思想,并开发一种高效的LLM微调训练方法用于单元测试用例生成。首先,利用广泛使用的指令数据集对LLM进行指令对齐,并按任务类型对指令集分类;同时,提取并存储具有任务特征的权重增量;其次,设计一个自适应风格提取模块,该模块包含抗噪声干扰学习和编码风格回溯学习,以应对不同的代码编写风格;最后,在目标域分别对功能风格增量和编码风格增量进行联合训练,以实现在目标域低资源情况下的高效适配和微调。在SF110 Corpus of Classes数据集上的测试用例生成实验结果表明,所提方法的结果均优于对比方法,与主流代码生成LLM Codex、Code Llama和DeepSeek-Coder相比,所提方法的编译率分别提高0.8%、43.5%和33.8%、分支覆盖率分别提高3.1%、1.0%和17.2%;行覆盖率分别提高4.1%、6.5%和15.5%,验证了所提方法在代码生成任务上的优越性。