期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
SDWN中基于多智能体图强化学习的多对多通信路由方法
1
作者 文鹏 叶苗 +2 位作者 王勇 何倩 仇洪冰 《电子学报》 北大核心 2025年第6期1885-1905,共21页
多对多通信路由问题是NP(Nondeterministic Polynomial time)难的组合优化问题,构建出高效的多对多通信路由路径还需及时获取全局网络状态信息以适应网络状态高度动态变化的特点.本文在软件定义无线网络(Software-Defined Wireless Netw... 多对多通信路由问题是NP(Nondeterministic Polynomial time)难的组合优化问题,构建出高效的多对多通信路由路径还需及时获取全局网络状态信息以适应网络状态高度动态变化的特点.本文在软件定义无线网络(Software-Defined Wireless Networks,SDWN)场景中针对现有数据驱动的多智能体深度强化学习方法存在计算和部署成本高、难以适应非欧结构特点的网络拓扑的问题,并且训练过程中无效动作过多会增加存储空间和时间开销以及收敛速度慢,本文设计了一种SDN控制平面和数据平面进行协同感知与智能决策的新框架,并针对多对多通信路由问题设计了一种两阶段的多智能体路由方法(基于智能节点部署策略的多智能体图强化学习方法:MAGDS-M2M).为了降低在每个节点上都部署智能体所带来的计算和部署成本,设计了一种基于Q-学习的智能节点部署算法来确定需要部署智能体的网络节点;在完成多智能体部署后,在Actor-Critic(AC)框架下设计了一种基于多智能体图强化学习的多对多路由决策方法,基于图卷积网络(Graph Convolutional Networks,GCN)和图神经网络(Graph Neural Networks,GNN)重新设计Actor和Critic网络,解决了现有多智能体强化学习方法中卷积神经网络(Convolutional Neural Networks,CNN)对拓扑结构数据适应能力比较弱的问题;此外,为解决Actor网络固定长度的动作空间在训练过程中产生大量无效动作的问题,设计了一种新的动作空间局部观测方法.实验结果表明所提出的方法相比于基准实验降低了29.33%任务完成时延,并且验证了可以通过调节参数使任务完成的时延和各节点累计能耗标准差之间达到平衡.本文所做工作源代码已提交至开源平台https://github.com/GuetYe/MAGDS-M2M. 展开更多
关键词 多对多通信 智能节点部署 多智能体图强化学习 动作空间局部观测方法 软件定义无线网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部