期刊文献+
共找到71篇文章
< 1 2 4 >
每页显示 20 50 100
Tactical reward shaping for large-scale combat by multi-agent reinforcement learning
1
作者 DUO Nanxun WANG Qinzhao +1 位作者 LYU Qiang WANG Wei 《Journal of Systems Engineering and Electronics》 CSCD 2024年第6期1516-1529,共14页
Future unmanned battles desperately require intelli-gent combat policies,and multi-agent reinforcement learning offers a promising solution.However,due to the complexity of combat operations and large size of the comb... Future unmanned battles desperately require intelli-gent combat policies,and multi-agent reinforcement learning offers a promising solution.However,due to the complexity of combat operations and large size of the combat group,this task suffers from credit assignment problem more than other rein-forcement learning tasks.This study uses reward shaping to relieve the credit assignment problem and improve policy train-ing for the new generation of large-scale unmanned combat operations.We first prove that multiple reward shaping func-tions would not change the Nash Equilibrium in stochastic games,providing theoretical support for their use.According to the characteristics of combat operations,we propose tactical reward shaping(TRS)that comprises maneuver shaping advice and threat assessment-based attack shaping advice.Then,we investigate the effects of different types and combinations of shaping advice on combat policies through experiments.The results show that TRS improves both the efficiency and attack accuracy of combat policies,with the combination of maneuver reward shaping advice and ally-focused attack shaping advice achieving the best performance compared with that of the base-line strategy. 展开更多
关键词 deep reinforcement learning multi-agent reinforce-ment learning multi-agent combat unmanned battle reward shaping
在线阅读 下载PDF
UAV Frequency-based Crowdsensing Using Grouping Multi-agent Deep Reinforcement Learning
2
作者 Cui ZHANG En WANG +2 位作者 Funing YANG Yong jian YANG Nan JIANG 《计算机科学》 CSCD 北大核心 2023年第2期57-68,共12页
Mobile CrowdSensing(MCS)is a promising sensing paradigm that recruits users to cooperatively perform sensing tasks.Recently,unmanned aerial vehicles(UAVs)as the powerful sensing devices are used to replace user partic... Mobile CrowdSensing(MCS)is a promising sensing paradigm that recruits users to cooperatively perform sensing tasks.Recently,unmanned aerial vehicles(UAVs)as the powerful sensing devices are used to replace user participation and carry out some special tasks,such as epidemic monitoring and earthquakes rescue.In this paper,we focus on scheduling UAVs to sense the task Point-of-Interests(PoIs)with different frequency coverage requirements.To accomplish the sensing task,the scheduling strategy needs to consider the coverage requirement,geographic fairness and energy charging simultaneously.We consider the complex interaction among UAVs and propose a grouping multi-agent deep reinforcement learning approach(G-MADDPG)to schedule UAVs distributively.G-MADDPG groups all UAVs into some teams by a distance-based clustering algorithm(DCA),then it regards each team as an agent.In this way,G-MADDPG solves the problem that the training time of traditional MADDPG is too long to converge when the number of UAVs is large,and the trade-off between training time and result accuracy could be controlled flexibly by adjusting the number of teams.Extensive simulation results show that our scheduling strategy has better performance compared with three baselines and is flexible in balancing training time and result accuracy. 展开更多
关键词 UAV Crowdsensing Frequency coverage Grouping multi-agent deep reinforcement learning
在线阅读 下载PDF
Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning 被引量:2
3
作者 Jiawei Xia Yasong Luo +3 位作者 Zhikun Liu Yalun Zhang Haoran Shi Zhong Liu 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2023年第11期80-94,共15页
To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model wit... To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model without boundary constraints are built,and the criteria for successful target capture are given.Then,the cooperative hunting problem of a USV fleet is modeled as a decentralized partially observable Markov decision process(Dec-POMDP),and a distributed partially observable multitarget hunting Proximal Policy Optimization(DPOMH-PPO)algorithm applicable to USVs is proposed.In addition,an observation model,a reward function and the action space applicable to multi-target hunting tasks are designed.To deal with the dynamic change of observational feature dimension input by partially observable systems,a feature embedding block is proposed.By combining the two feature compression methods of column-wise max pooling(CMP)and column-wise average-pooling(CAP),observational feature encoding is established.Finally,the centralized training and decentralized execution framework is adopted to complete the training of hunting strategy.Each USV in the fleet shares the same policy and perform actions independently.Simulation experiments have verified the effectiveness of the DPOMH-PPO algorithm in the test scenarios with different numbers of USVs.Moreover,the advantages of the proposed model are comprehensively analyzed from the aspects of algorithm performance,migration effect in task scenarios and self-organization capability after being damaged,the potential deployment and application of DPOMH-PPO in the real environment is verified. 展开更多
关键词 Unmanned surface vehicles multi-agent deep reinforcement learning Cooperative hunting Feature embedding Proximal policy optimization
在线阅读 下载PDF
Targeted multi-agent communication algorithm based on state control
4
作者 Li-yang Zhao Tian-qing Chang +3 位作者 Lei Zhang Jie Zhang Kai-xuan Chu De-peng Kong 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2024年第1期544-556,共13页
As an important mechanism in multi-agent interaction,communication can make agents form complex team relationships rather than constitute a simple set of multiple independent agents.However,the existing communication ... As an important mechanism in multi-agent interaction,communication can make agents form complex team relationships rather than constitute a simple set of multiple independent agents.However,the existing communication schemes can bring much timing redundancy and irrelevant messages,which seriously affects their practical application.To solve this problem,this paper proposes a targeted multiagent communication algorithm based on state control(SCTC).The SCTC uses a gating mechanism based on state control to reduce the timing redundancy of communication between agents and determines the interaction relationship between agents and the importance weight of a communication message through a series connection of hard-and self-attention mechanisms,realizing targeted communication message processing.In addition,by minimizing the difference between the fusion message generated from a real communication message of each agent and a fusion message generated from the buffered message,the correctness of the final action choice of the agent is ensured.Our evaluation using a challenging set of Star Craft II benchmarks indicates that the SCTC can significantly improve the learning performance and reduce the communication overhead between agents,thus ensuring better cooperation between agents. 展开更多
关键词 multi-agent deep reinforcement learning State control Targeted interaction Communication mechanism
在线阅读 下载PDF
车联网边缘计算环境下基于流量预测的高效任务卸载策略研究 被引量:1
5
作者 许小龙 杨威 +4 位作者 杨辰翊 程勇 齐连永 项昊龙 窦万春 《电子学报》 北大核心 2025年第2期329-343,共15页
车联网(Internet of Vehicles,IoV)边缘计算通过将移动边缘计算和车联网相结合,实现了车辆计算任务从云服务器向边缘服务器的下沉,从而有效降低了车联网服务的响应时延.然而,车联网中不规则的交通流时空分布会导致边缘服务器计算负载不... 车联网(Internet of Vehicles,IoV)边缘计算通过将移动边缘计算和车联网相结合,实现了车辆计算任务从云服务器向边缘服务器的下沉,从而有效降低了车联网服务的响应时延.然而,车联网中不规则的交通流时空分布会导致边缘服务器计算负载不均衡,进而影响车联网服务的实时响应.为此,本文提出了一种车联网边缘计算环境下基于流量预测的高效任务卸载策略.具体而言,首先设计了能充分挖掘路段间连通性和距离信息的切比雪夫图加权网络(Chebyshev graph Weighted Network,ChebWN)进行交通流量预测.然后,设计了一种基于深度强化学习的二元任务卸载方法(DRL-based Binary task Offloading Algorithm,DBOA),该算法将二元任务卸载的决策过程分为两个阶段,即首先通过深度强化学习得到卸载策略,再通过一维双端查找算法确定最大化总计算速率的时间片分配方案,降低了决策过程的复杂度.最后,通过大量的对比实验验证了ChebWN在预测交通流量方面的准确性,以及DBOA在提升车联网服务响应速度方面的优越性. 展开更多
关键词 移动边缘计算 深度强化学习 车联网 图神经网络(GNN) 任务卸载
在线阅读 下载PDF
融合ERNIE与知识增强的临床短文本分类研究
6
作者 温浩 杨洋 《计算机工程与应用》 北大核心 2025年第8期108-116,共9页
提出一种引入专业医疗知识与文本独特知识的ERNIE模型用于识别无规则的临床短文本。目前ERNIE模型具有一定的医疗领域知识,但是在处理下游任务时无法引入专业医疗知识与文本独特知识,因此为提高临床短文本分类的精确度与效率,提出KW-ERN... 提出一种引入专业医疗知识与文本独特知识的ERNIE模型用于识别无规则的临床短文本。目前ERNIE模型具有一定的医疗领域知识,但是在处理下游任务时无法引入专业医疗知识与文本独特知识,因此为提高临床短文本分类的精确度与效率,提出KW-ERNIE-BiGRU模型。该模型通过引入医学知识与文本独特知识的ERNIE模型训练文本的特征向量,利用BiGRU强化上下文信息,最终在输出层进行文本分类。通过在真实的临床文本的验证与对比实验,KW-ERNIE-BiGRU模型的精确率、召回率、宏F1分别为93.4%、92.1%、92.7%,均优于其他模型。 展开更多
关键词 深度学习 知识图谱 ERNIE 语义强化 临床短文本分类
在线阅读 下载PDF
基于图神经网络的SDN路由算法优化
7
作者 张晓莉 汤颖琪 宋婉莹 《电讯技术》 北大核心 2025年第1期18-24,共7页
针对现有路由方案不适合学习图形结构信息,对陌生拓扑适应性不佳的问题,提出了一种基于图神经网络的软件定义网络(Software Defined Network,SDN)路由算法G-PPO。引入近端策略优化(Proximal Policy Optimization,PPO)强化学习算法实现... 针对现有路由方案不适合学习图形结构信息,对陌生拓扑适应性不佳的问题,提出了一种基于图神经网络的软件定义网络(Software Defined Network,SDN)路由算法G-PPO。引入近端策略优化(Proximal Policy Optimization,PPO)强化学习算法实现模型训练,利用消息传递神经网络(Massage Passing Neural Network,MPNN)对网络拓扑进行学习,通过调整链路权重完成路由路径的调整。G-PPO将图神经网络对网络拓扑信息的感知能力和深度强化学习的自主学习能力有效结合,提升路由策略的性能。实验结果表明,与相关算法比较,所提算法的平均时延和丢包率、网络链路利用率和吞吐量指标均为最优。在3种不同拓扑上,该算法较其他算法最少提升10.5%吞吐量,最多提升95.6%丢包率,表明所提算法具有更好的适应不同网络拓扑的能力。 展开更多
关键词 软件定义网络 路由优化 图神经网络 深度强化学习 近端策略优化
在线阅读 下载PDF
基于MLP与改进GCN-TD3的交通信号控制建模与仿真
8
作者 黄德启 涂亚婷 +1 位作者 张振华 郭鑫 《系统仿真学报》 北大核心 2025年第10期2568-2577,共10页
针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特... 针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特征聚合为区域交通的潜在特征,由改进的双延迟深度确定性策略梯度算法进行多次迭代得到控制策略,将控制策略应用于城市路网的交通相位配时中,最大化的提升路网车辆的通行效率。仿真实验表明:该算法能够适应动态变化的复杂路网环境,且在高饱和流量下控制效果明显,能有效提高路网的通行效率,缓解交叉口高峰期拥堵问题。 展开更多
关键词 交通信号控制 图卷积神经网络 强化学习 双延迟深度确定性策略梯度 协同控制
在线阅读 下载PDF
基于图神经网络的柔性作业车间两阶段调度研究 被引量:1
9
作者 魏琦 李艳武 +1 位作者 谢辉 牛晓伟 《计算机工程与应用》 北大核心 2025年第11期342-350,共9页
针对柔性作业车间调度问题,以完工时间最小化和总能耗为目标,提出了一种基于图神经网络和深度强化学习的集成算法框架。分析了柔性作业车间调度问题特点,引入析取图将问题转化为序列决策问题,并将其建模为马尔可夫决策过程。基于注意力... 针对柔性作业车间调度问题,以完工时间最小化和总能耗为目标,提出了一种基于图神经网络和深度强化学习的集成算法框架。分析了柔性作业车间调度问题特点,引入析取图将问题转化为序列决策问题,并将其建模为马尔可夫决策过程。基于注意力机制,设计了一种两阶段调度策略;该策略在训练过程中删除了冗余的调度状态,提高了计算效率。针对两阶段调度策略设计了一种基于近端策略优化算法的2S-PPO算法进行训练,以快速响应工序选择和机器分配的联合调度策略。通过标准FJSP算例和带能耗的FJSP算例实验证明,提出的算法相较于传统的优先级调度规则和其他深度强化学习算法,具有较好的学习性能和泛化性能。 展开更多
关键词 柔性作业车间调度问题(FJSP) 图神经网络 深度强化学习 注意力机制
在线阅读 下载PDF
融合电网拓扑信息的分支竞争Q网络智能体紧急切负荷决策 被引量:1
10
作者 潘晓杰 胡泽 +5 位作者 姚伟 兰宇田 徐友平 王玉坤 张慕婕 文劲宇 《电力系统保护与控制》 北大核心 2025年第8期71-80,共10页
暂态电压失稳事件紧急控制措施制定是电力系统仿真分析中的一个重要内容,离线预先制定紧急切负荷决策,在线匹配执行决策方案。但该工作目前主要依赖专家分析海量仿真数据得到,耗时耗力。因此提出了一种融合电网拓扑信息的分支竞争Q网络... 暂态电压失稳事件紧急控制措施制定是电力系统仿真分析中的一个重要内容,离线预先制定紧急切负荷决策,在线匹配执行决策方案。但该工作目前主要依赖专家分析海量仿真数据得到,耗时耗力。因此提出了一种融合电网拓扑信息的分支竞争Q网络智能体的电力系统紧急切负荷决策方法,以提高离线紧急切负荷决策的效率。首先,建立了一种基于事件驱动的马尔科夫决策过程,可以有效指导深度强化学习智能体的训练。其次,设计了一种分支竞争Q网络智能体,相比传统无分支网络,基于分支竞争Q网络智能体具有更强的训练效率和决策能力。然后,为进一步增强智能体的训练效率和决策性能,通过图卷积增强将电力系统拓扑信息融入到智能体的训练过程。最后,在中国电力科学研究院8机36节点系统进行了验证。相比于无分支网络和无拓扑信息融入的深度强化学习智能体,所提方法具有更高的训练效率和决策性能。 展开更多
关键词 仿真分析 暂态电压失稳 紧急切负荷决策 深度强化学习 分支竞争Q网络 电网拓扑信息 图卷积增强
在线阅读 下载PDF
自适应积空间离散动态图链接预测模型
11
作者 陈旭 张其 +1 位作者 王叔洋 景永俊 《计算机科学与探索》 北大核心 2025年第7期1820-1831,共12页
随着复杂网络分析在诸多领域的广泛应用,如推荐系统、社交网络、疾病传播网络和金融交易网络,动态图的分析成为图神经网络研究的一个关键挑战。针对动态图神经网络在链接预测时因单一空间嵌入导致的嵌入扭曲问题,提出了自适应积空间离... 随着复杂网络分析在诸多领域的广泛应用,如推荐系统、社交网络、疾病传播网络和金融交易网络,动态图的分析成为图神经网络研究的一个关键挑战。针对动态图神经网络在链接预测时因单一空间嵌入导致的嵌入扭曲问题,提出了自适应积空间离散动态图链接预测模型(APSDG),拟解决嵌入扭曲问题,提高离散动态图链接预测性能。通过结合欧几里德空间、双曲空间和超球面空间,构建积空间作为嵌入空间,以更好地拟合动态图数据的复杂结构。为实现积空间的自适应调整,设计了一种强化学习机制,动态优化各空间的维度比例和曲率参数。实验结果表明,APSDG在五个真实世界数据集上优于使用单一空间的基准模型,在动态链接预测和动态新链接预测任务中,AUC和AP指标上的平均增益分别为2.24%和1.90%、2.12%和1.43%,APSDG有效解决了单一空间嵌入方法的嵌入扭曲问题,能够更好地捕捉复杂网络的层次结构和规则结构,显著提升了动态链接预测效果。 展开更多
关键词 离散动态图 表示学习 链接预测 积空间 几何深度学习 强化学习
在线阅读 下载PDF
基于GNN因果推断的结构增强漏洞检测模型
12
作者 司文 赵富成 +2 位作者 李硕 杨帅林 任家东 《燕山大学学报》 北大核心 2025年第4期309-318,共10页
针对现有漏洞检测方法基于单纯的图神经网络模型来提取图结构特征会出现信息标签与图结构直接存在分布外泛化情况从而导致检测效率低的问题,提出了一种基于图神经网络因果推断结合的结构增强漏洞检测模型。该模型将源代码视为一个线性... 针对现有漏洞检测方法基于单纯的图神经网络模型来提取图结构特征会出现信息标签与图结构直接存在分布外泛化情况从而导致检测效率低的问题,提出了一种基于图神经网络因果推断结合的结构增强漏洞检测模型。该模型将源代码视为一个线性化的令牌序列,首先基于词共现关系构建图结构,然后通过图神经网络的剩余连接将图分成因果图和混淆图,分层混淆变量,模拟因果变量与标签之间的因果性关系。最后对因果图和混淆图进行节点嵌入,实现图结构特征的增强。并在CodeXGLUE的真实基准数据集上进行了验证,检测结果在准确率、精确率、F1值上比最优基线方法分别提升了3.15%、3.77%、2.57%,在漏洞检测的性能上取得了显著提升。 展开更多
关键词 深度学习 图神经网络 因果推断 结构增强 漏洞检测
在线阅读 下载PDF
基于新型多目标深度强化学习模型求解固定式-移动式-无人机式协同配送的AED选址问题
13
作者 揭慧鑫 刘勇 马良 《计算机应用研究》 北大核心 2025年第5期1370-1377,共8页
当前单一固定式自动体外除颤仪(automated external defibrillator,AED)存在数量不足、覆盖不均的问题,难以同时满足时间、成本方面的需求。为优化AED资源的配置与使用效率,考虑固定式AED、移动式AED、无人机式AED三种方式协同配送,以... 当前单一固定式自动体外除颤仪(automated external defibrillator,AED)存在数量不足、覆盖不均的问题,难以同时满足时间、成本方面的需求。为优化AED资源的配置与使用效率,考虑固定式AED、移动式AED、无人机式AED三种方式协同配送,以成本最小、配送时间最小建立双目标AED选址模型。由于该模型属于NP-hard问题,提出了新型多目标深度强化学习模型(novel multi-objective deep reinforcement learning,NMDRL),并针对多目标特点,设计双向协同图注意力机制以及多重最优策略增加Pareto解的多样性和分布性。在四种规模的算例上进行消融实验以及灵敏度分析,验证了双向协同图注意力网络、多重最优策略、门控循环单元各组件的有效性。在三种规模下的对比实验表明NMDRL算法在HV值、IGD值、支配性指标上优于NSGA-Ⅱ、MOPSO以及其他多目标深度强化学习算法,且模型微调步骤可以有效增强算法的多样性和分布性。最后,以上海市杨浦区为研究对象进行数值实验,并针对无人机AED成本参数进行灵敏度分析,验证了模型及算法的可行性,为AED实际布局提供了有效对策。 展开更多
关键词 深度强化学习 双向协同图注意力 固定式-移动式-无人机式协同 AED选址 双目标优化
在线阅读 下载PDF
基于图强化学习的多边缘协同负载均衡方法
14
作者 郑龙海 肖博怀 +2 位作者 姚泽玮 陈星 莫毓昌 《计算机科学》 北大核心 2025年第3期338-348,共11页
在移动边缘计算中,设备通过将计算密集型任务卸载到附近边缘服务器,可以有效减少应用程序的延迟和能耗。为了提高服务质量,边缘服务器之间需要协作而非单独工作。针对多边缘协作的负载均衡问题,现有的策略往往依赖于精确的数学模型或缺... 在移动边缘计算中,设备通过将计算密集型任务卸载到附近边缘服务器,可以有效减少应用程序的延迟和能耗。为了提高服务质量,边缘服务器之间需要协作而非单独工作。针对多边缘协作的负载均衡问题,现有的策略往往依赖于精确的数学模型或缺乏对边缘拓扑关系的利用。为了解决此问题,文中提出了一种基于图强化学习的卸载决策方法。首先将多边缘协作的负载均衡场景抽象为图数据;然后采用基于图卷积神经网络的图嵌入过程来提取图的信息特征,以辅助深度Q网络进行卸载决策;最后通过集中反馈控制机制找到目标负载均衡方案。在多个场景下进行仿真实验,实验结果验证了所提方法在缩短任务平均响应时延方面的有效性,并且可以在短时间内获得优于对比算法且接近理想方案的负载均衡效果。 展开更多
关键词 多边缘协作 负载均衡 任务卸载 图神经网络 深度强化学习
在线阅读 下载PDF
融合深度强化学习和图卷积神经网络的类集成测试序列生成方法
15
作者 王晨源 张艳梅 袁冠 《计算机科学》 北大核心 2025年第6期58-65,共8页
类集成测试确保软件系统中多个类之间正常交互和协作,合理的类集成测试序列可以降低测试成本。为了降低程序中类集成测试序列的测试成本,国内外研究人员提出了多种类集成测试序列生成方法,但已有的方法生成的类集成测试序列的测试成本... 类集成测试确保软件系统中多个类之间正常交互和协作,合理的类集成测试序列可以降低测试成本。为了降低程序中类集成测试序列的测试成本,国内外研究人员提出了多种类集成测试序列生成方法,但已有的方法生成的类集成测试序列的测试成本过高。针对上述问题,提出一种融合深度强化学习和图卷积神经网络的类集成测试序列生成方法。该方法首先将图卷积神经网络作为深度强化学习中的神经网络部分,并对智能体的网络结构和环境状态等方面进行改进,使环境和智能体可以基于图结构的数据进行交互;然后通过设计强化学习中的动作空间和奖励函数等基本要素,完成类集成测试序列的生成场景;最终实现智能体在不断地学习和尝试中得到最佳的类集成测试序列。实验结果表明,在以总体测试桩复杂度作为度量指标时,该方法能够在一定程度上降低生成类集成测试序列所需的测试桩代价。 展开更多
关键词 类集成测试序列 深度强化学习 图卷积神经网络 测试桩 测试桩复杂度
在线阅读 下载PDF
基于深度强化学习的多机冲突解决方法的研究
16
作者 霍丹 余付平 +1 位作者 沈堤 韩雪艳 《计算机科学》 北大核心 2025年第7期271-278,共8页
随着军民航及通航飞行活动增多,用空矛盾突出,在同一空域中多架飞机同时飞行成为一种常态,如何通过技术手段提供辅助防撞决策,避免飞行冲突成为亟待解决的问题。针对航空器在飞行过程中的多机飞行冲突解脱问题,提出了一种基于多智能体... 随着军民航及通航飞行活动增多,用空矛盾突出,在同一空域中多架飞机同时飞行成为一种常态,如何通过技术手段提供辅助防撞决策,避免飞行冲突成为亟待解决的问题。针对航空器在飞行过程中的多机飞行冲突解脱问题,提出了一种基于多智能体深度强化学习,结合图卷积神经网络作为扩展框架的图卷积深度强化学习(GDQN)算法。首先构造消息传递功能,建立多智能体的飞行冲突模型,该模型可以在避免冲突和碰撞的同时,引导多架飞机穿越三维的非结构化空域;其次利用基于图卷积神经网络的深度自学习方法为机场调度提供智能化的冲突规避手段,针对多机飞行冲突场景建立多智能体系统(MAS);最后通过在受控的模拟环境中使用广泛的训练集来训练策略函数,对算法的有效性进行了仿真验证。结果表明,优化后的算法是可行的,用于解决冲突时的成功率可达90%以上,且冲突解决决策的计算时间短于3s,发出的空中交通管制(ATC)指令明显减少,效率得到了明显提升。 展开更多
关键词 深度强化学习 图卷积神经网络 消息传递 多智能体模型 多机飞行 冲突解脱
在线阅读 下载PDF
Dueling DQN优化下的航班延误自适应图卷积循环网络预测方法 被引量:2
17
作者 刘晓琳 郭梦娇 李卓 《系统工程与电子技术》 北大核心 2025年第2期568-579,共12页
为充分挖掘机场网络航班间的时空动态相关性以减小预测误差,提出一种基于对偶深度Q网络(dueling deep Q network, Dueling DQN)优化的多组件自适应图卷积循环网络航班延误预测模型。首先,结合自适应图卷积网络与多头空间注意力机制,并... 为充分挖掘机场网络航班间的时空动态相关性以减小预测误差,提出一种基于对偶深度Q网络(dueling deep Q network, Dueling DQN)优化的多组件自适应图卷积循环网络航班延误预测模型。首先,结合自适应图卷积网络与多头空间注意力机制,并行捕获并融合多个子空间的延误信息,充分挖掘非线性空间动态特征。其次,采用门控循环单元为时间特征提取模块的基础结构,并引入时间注意力机制以学习历史延误数据间的关注权重。然后,设置多个时间维输入组件,增加对不同时间模式构建的多样性。最后,采用Dueling DQN优化多组件自适应图卷积门控循环单元(multi-component adaptive graph convolution-gated recurrent unit, MAGC-GRU)模型的超参数。实验结果表明,所提模型的平均绝对误差相对于历史平均法、随机森林法、梯度增强回归树法、门控循环单元法、时空图卷积网络法,分别降低了10.6%、6.07%、9.18%、3.79%和3.12%。 展开更多
关键词 航班延误预测 深度学习 强化学习 多组件融合 图卷积
在线阅读 下载PDF
基于传播特征强化学习的社交网络信息传播关键用户发现方法
18
作者 刘晓亮 张鹏飞 《计算机应用研究》 北大核心 2025年第9期2637-2643,共7页
传统影响力最大化问题旨在选择一定数量的信源种子发布特定信息,使该信息传播影响范围最大。然而,通过算法选定的种子用户未必愿意发布指定的信息。此外,传统的影响力最大化算法在不同结构的网络上需要重新运行,效率较低。为了解决上述... 传统影响力最大化问题旨在选择一定数量的信源种子发布特定信息,使该信息传播影响范围最大。然而,通过算法选定的种子用户未必愿意发布指定的信息。此外,传统的影响力最大化算法在不同结构的网络上需要重新运行,效率较低。为了解决上述问题,首先将影响力最大化问题形式化为一个新的信息传播关键用户发现KUIP问题,即如何发现一定数量的关键用户,不要求他们发布指定信息,而是通过干预他们传播信息的态度倾向,来最大化该信息的传播影响。为了更真实地描述信息传播场景,提出一种可调阈值模型ATM来模拟用户传播信息的态度倾向和环境影响。进而,为了保证在不同结构的网络上关键用户发现的效率和效果,提出了一种基于传播特征强化学习的关键用户发现方法KPRL,利用图注意力机制学习用户的传播特征,采用双深度Q网络DDQN训练模型参数。在六个真实网络数据集上的实验表明,KPRL在影响范围指标上平均提升了11.7%,超越了现有的基线方法,展示了其在关键用户发现领域的有效性。 展开更多
关键词 影响力最大化 关键用户发现 深度强化学习 图注意力机制
在线阅读 下载PDF
基于二阶段的云制造模式下高能效机床服务匹配
19
作者 谢迅 周丽蓉 +3 位作者 王黎明 孔琳 陈子翰 张传伟 《制造技术与机床》 北大核心 2025年第2期116-128,共13页
为实现云制造环境下匹配出高能效优质机床服务组合方案,建立一种基于供需知识图谱的机床资源二阶段决策模型。首先,构建考虑能耗属性的机床服务供应和零件加工主客观需求的供需知识图谱。其次,建立机床服务时间、成本、能耗和质量指标... 为实现云制造环境下匹配出高能效优质机床服务组合方案,建立一种基于供需知识图谱的机床资源二阶段决策模型。首先,构建考虑能耗属性的机床服务供应和零件加工主客观需求的供需知识图谱。其次,建立机床服务时间、成本、能耗和质量指标计算模型,针对能耗指标采用基于实际功率、切削比能、额定功率3种计算策略。然后,面向客户需求构建二阶段匹配模型实现机床服务决策;其中,一阶段以知识图谱检索和蕴涵关系推理初选机床服务集合,二阶段以马尔可夫决策过程表征机床节能服务组合优化问题,并采用强化学习Actor_Critic算法求解。最后,通过机床服务资源仿真池构建和箱体加工案例试验,发现Actor_Critic算法相较于DQN(deep Q-learning)、PGM(policy gradient method)和DDPG(deep deterministic policy gradient)算法具备更优收敛效果,可快速匹配出云制造环境下经济节能且高效优质的机床服务组合方案。 展开更多
关键词 云制造 机床服务组合 高效节能 知识图谱 深度强化学习
在线阅读 下载PDF
改进PPO算法求解柔性作业车间调度问题
20
作者 吴昊泽 李艳武 谢辉 《计算机集成制造系统》 北大核心 2025年第8期2894-2904,共11页
柔性作业车间需要提高调度效率,缩短生产周期。为此以最小化最大完工时间为目标,采用机器选择和工件工序调整两种调度策略,建立混合整数规划模型,并提出了一种基于策略和图神经网络的深度强化学习算法来求解。该算法利用图神经网络获取... 柔性作业车间需要提高调度效率,缩短生产周期。为此以最小化最大完工时间为目标,采用机器选择和工件工序调整两种调度策略,建立混合整数规划模型,并提出了一种基于策略和图神经网络的深度强化学习算法来求解。该算法利用图神经网络获取和分析析取图的信息,为强化学习提供决策依据;提出了使用多近端策略优化和多指针图网络学习作业操作动作策略和机器动作策略,设计两个编码器-解码器定义两个动作策略,并将图神经网络嵌入到局部状态,增强局部搜索能力。实验结果表明所提出的算法在求解性能和泛化能力方面显著优于对比算法。 展开更多
关键词 深度强化学习 柔性作业车间调度问题 析取图 图神经网络 多近端策略优化算法
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部