大规模在线教育的普及使得学习者面临课程选择困难,个性化学习路径推荐面临依赖单一模态数据导致语义表征局限,以及静态知识图谱难以生成动态可解释推荐逻辑的挑战。为解决上述问题,提出一种基于动态注意力强化学习的可解释学习路径推荐...大规模在线教育的普及使得学习者面临课程选择困难,个性化学习路径推荐面临依赖单一模态数据导致语义表征局限,以及静态知识图谱难以生成动态可解释推荐逻辑的挑战。为解决上述问题,提出一种基于动态注意力强化学习的可解释学习路径推荐(explainable learning path recommendation based on dynamic attention reinforcement learning,ELPRDARL)框架。首先,构建了异构协同知识图谱,集成课程文本、视觉内容及知识依赖关系,增强跨模态语义对齐能力;其次,设计了邻接节点动态注意力聚合机制,通过偏置修正策略调整实体关系权重,并利用双向交互聚合器融合多阶邻域特征,提升知识推理的细粒度表达能力;最后,提出知识图谱感知的强化学习策略,基于路径连通性奖励函数显式建模用户行为与知识拓扑的关联,生成包含全局奖励与局部注意力权重的可解释路径。基于MOOC数据集上的实验表明,本方法在NDCG、Recall、HR和Precision指标上分别达到22.85%、33.81%、52.01%和6.34%,较次优模型提升2.88%、3.55%、2.42%和3.26%。用户调研显示,80.36%的学习者认为路径解释显著提升了推荐透明度。本研究验证了动态注意力机制与强化学习的协同优化能有效平衡推荐精度与可解释性。展开更多
智能网联车辆(Connected and Automated Vehicle,CAV)为交通信号控制提供了新的数据源与优化机遇。然而,现有方法普遍存在两大局限:其一,多采用固定决策间隔,难以适应交通流的动态变化,导致控制策略的全局最优性不足;其二,缺乏对低渗透...智能网联车辆(Connected and Automated Vehicle,CAV)为交通信号控制提供了新的数据源与优化机遇。然而,现有方法普遍存在两大局限:其一,多采用固定决策间隔,难以适应交通流的动态变化,导致控制策略的全局最优性不足;其二,缺乏对低渗透率场景下混合交通流复杂交互特征的深入建模,限制了实际应用的鲁棒性。为此,本文提出一种基于近端策略优化(Proximal Policy Optimization,PPO)的动态决策间隔信号控制方法。首先,利用卷积神经网络与多头注意力机制,构建融合CAV与常规车辆(Regular Vehicle,RV)的多源交通状态表征;进而,设计融合动态决策间隔与相位选择的多离散动作空间,自适应生成信号控制策略,平衡决策效率与控制灵活性。在奖励函数设计中,引入累计延误、排队长度与延误标准差的多目标自适应加权机制,协同优化通行效率与公平性。基于实际路网仿真测试模型控制效果,结果表明:在不同交通需求下,本文方法相较于传统离散控制方法,平均等待时间和平均排队长度均降低8.50%以上;尤其在CAV渗透率低至20%时,本文方法仍能保持稳定的控制性能,验证了其在混合交通环境中的有效性与强适应性。展开更多
为解决现有算法选择方法需要复杂流程和专业知识的问题,提出了一种基于大语言模型的强化学习策略。该方法通过参数高效微调对大语言模型进行初始化,为后续的强化学习训练提供高质量的基础。利用指导策略对微调后的模型进行强化学习训练...为解决现有算法选择方法需要复杂流程和专业知识的问题,提出了一种基于大语言模型的强化学习策略。该方法通过参数高效微调对大语言模型进行初始化,为后续的强化学习训练提供高质量的基础。利用指导策略对微调后的模型进行强化学习训练,完成算法选择任务。实验结果表明,在图形类、回归类和控制图类3个场景中,AS-LLM(algorithm selection-large language model)的准确率分别比其它方法的平均准确率高2.23、6.22和5.57个百分点。该方法显著提升了算法选择性能和有效性,且更易于用户操作。展开更多
在软件定义网络和网络功能虚拟化范式下,服务功能链(service function chaining,SFC)技术通过灵活编排虚拟网络功能实现了网络服务的定制化部署。然而,动态网络环境下SFC部署面临着决策空间大、环境复杂多变等挑战。强化学习因其自适应...在软件定义网络和网络功能虚拟化范式下,服务功能链(service function chaining,SFC)技术通过灵活编排虚拟网络功能实现了网络服务的定制化部署。然而,动态网络环境下SFC部署面临着决策空间大、环境复杂多变等挑战。强化学习因其自适应学习复杂环境特征并动态决策的能力,在解决SFC部署问题上展现出显著优势。该研究首先阐述了SFC部署的基本概念与技术架构,并具体介绍了基于强化学习的SFC部署框架。随后,从算法设计、应用场景和优化策略等角度,梳理并深入分析了强化学习在SFC放置、调度和重配置3个关键阶段中的研究进展与创新应用。最后,总结了现有研究在算法设计、性能优化和实际部署方面的优势与局限,并分析了该领域的技术挑战与未来发展趋势。展开更多
文摘大规模在线教育的普及使得学习者面临课程选择困难,个性化学习路径推荐面临依赖单一模态数据导致语义表征局限,以及静态知识图谱难以生成动态可解释推荐逻辑的挑战。为解决上述问题,提出一种基于动态注意力强化学习的可解释学习路径推荐(explainable learning path recommendation based on dynamic attention reinforcement learning,ELPRDARL)框架。首先,构建了异构协同知识图谱,集成课程文本、视觉内容及知识依赖关系,增强跨模态语义对齐能力;其次,设计了邻接节点动态注意力聚合机制,通过偏置修正策略调整实体关系权重,并利用双向交互聚合器融合多阶邻域特征,提升知识推理的细粒度表达能力;最后,提出知识图谱感知的强化学习策略,基于路径连通性奖励函数显式建模用户行为与知识拓扑的关联,生成包含全局奖励与局部注意力权重的可解释路径。基于MOOC数据集上的实验表明,本方法在NDCG、Recall、HR和Precision指标上分别达到22.85%、33.81%、52.01%和6.34%,较次优模型提升2.88%、3.55%、2.42%和3.26%。用户调研显示,80.36%的学习者认为路径解释显著提升了推荐透明度。本研究验证了动态注意力机制与强化学习的协同优化能有效平衡推荐精度与可解释性。
文摘为解决现有算法选择方法需要复杂流程和专业知识的问题,提出了一种基于大语言模型的强化学习策略。该方法通过参数高效微调对大语言模型进行初始化,为后续的强化学习训练提供高质量的基础。利用指导策略对微调后的模型进行强化学习训练,完成算法选择任务。实验结果表明,在图形类、回归类和控制图类3个场景中,AS-LLM(algorithm selection-large language model)的准确率分别比其它方法的平均准确率高2.23、6.22和5.57个百分点。该方法显著提升了算法选择性能和有效性,且更易于用户操作。
文摘在软件定义网络和网络功能虚拟化范式下,服务功能链(service function chaining,SFC)技术通过灵活编排虚拟网络功能实现了网络服务的定制化部署。然而,动态网络环境下SFC部署面临着决策空间大、环境复杂多变等挑战。强化学习因其自适应学习复杂环境特征并动态决策的能力,在解决SFC部署问题上展现出显著优势。该研究首先阐述了SFC部署的基本概念与技术架构,并具体介绍了基于强化学习的SFC部署框架。随后,从算法设计、应用场景和优化策略等角度,梳理并深入分析了强化学习在SFC放置、调度和重配置3个关键阶段中的研究进展与创新应用。最后,总结了现有研究在算法设计、性能优化和实际部署方面的优势与局限,并分析了该领域的技术挑战与未来发展趋势。