一种基于多智能体强化学习的传感器网络目标锁定方法被引量：2

A Target Locking Method for Sensor Networks Based on Multi-agent Reinforcement Learning

导出

摘要在传感器网络目标锁定过程中,针对如何保证快速有效锁定目标问题,提出了一种基于动作采样并借助UCB动作选择的多智能体强化学习(ASUCBQ)算法。该方法将多个传感器构建成一个多智能体系统,采用集中训练-分散执行(centralized training with decentralized execution,CTDE)的框架,在集中训练更新联合动作Q值和UCB值时,并没有遍历所有联合动作,而只对部分联合动作进行采样并求取最大Q值和UCB值。在动作选择和执行阶段,每个传感器又分别选择动作。此外,为避免局部最优情况的发生,该方法借助了基于置信度上界(upper confidence bound,UCB)的动作选择思想,通过对动作值估计的不确定性使传感器去探索更多的动作,通过对探索率的动态调整,更好地实现了强化学习“利用”和“探索”之间的平衡。仿真实验表明:该方法可以有效地锁定传感器网络中的目标,降低了在训练过程中的计算量。 In the process of target locking in sensor networks,a multi-agent reinforcement learning algorithm based on action sampling and action selection by UCB was proposed to ensure fast and effective target locking.In this method,multiple sensors are constructed into a multi-agent system,and the framework of centralized training with decentralized execution is adopted.When upda-ting the Q-value and UCB value of joint actions in centralized training,only part of joint actions are sampled and the maximum Q-value and UCB value are obtained.In the stage of action selection and execution,each sensor selects the action independently.In ad-dition,in order to avoid the occurrence of local optimal case,the method uses the idea of action selection based on the upper confi-dence bound,and makes the sensor explore more actions through the uncertainty of action estimation,through the dynamic adjustment of the exploration rate,the balance of reinforcement learning between“utilization”and“exploration”is better realized.The simula-tion results show that this method can effectively lock the target in the sensor network and reduce the amount of calculation in the training process.

作者赵德京李蔚 ZHAO Dejing;LI Wei(School of Automation,Qingdao University,Qingdao Shandong 266071;Shandong Provincial Key Laboratory of Indus-trial Control,Qingdao Shandong 266071;Qilu Business Department,Sinopec Chemical Sales Co.LTD,Zibo Shandong 255400)

机构地区青岛大学自动化学院山东省工业控制重点实验室中国石化化工销售有限公司齐鲁经营部

出处《自动化与仪器仪表》 2023年第6期213-218,共6页 Automation & Instrumentation

基金国家自然科学基金项目(61903209) 青岛市博士后应用研究项目《基于多智能体强化学习的AGV路网设计和路径规划方法》。

关键词传感器网络强化学习多智能体强化学习动作采样置信度上界 sensor networks reinforcement learning multi-agent reinforcement learning action-sampling upper confidence bound

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

作者简介赵德京(1997-),男,山东青岛人,硕士研究生,主要研究方向为强化学习。

引文网络
相关文献

参考文献2

1张超.无线传感器网络时间同步技术进展[J].重庆工商大学学报（自然科学版）,2019,36(6):88-94. 被引量：13
2陈钊,刘伟民,秦立朋.混合无线传感器网络覆盖优化[J].制造业自动化,2020,42(12):106-110. 被引量：3

二级参考文献10

1黄月,吴成东,张云洲,司鹏举.基于移动节点的无线传感器网络覆盖优化[J].东北大学学报（自然科学版）,2012,33(2):165-168. 被引量：11
2王义君,钱志鸿,王桂琴,张旭.无线传感器网络能量有效时间同步算法研究[J].电子与信息学报,2012,34(9):2174-2179. 被引量：25
3姜颖,郭淑霞,高金乔,王洪泊.低开销的无线传感器网络时间同步算法研究[J].计算机科学,2014,41(3):129-131. 被引量：4
4胡冰,孙知信.无线传感器网络时间同步机制研究[J].计算机科学,2015,42(7):1-4. 被引量：2
5樊富有,杨国武,乐千桤,吕凤毛,赵超.基于量子遗传算法的无线视频传感网络优化覆盖算法[J].通信学报,2015,36(6):94-104. 被引量：19
6李华,卢静.改进人工蜂群算法的无线传感器网络覆盖优化[J].现代电子技术,2018,41(3):14-18. 被引量：12
7韩蕊,张书奎,陈朋飞.基于随机游走的无线传感器网络覆盖洞修复[J].计算机应用与软件,2016,33(8):141-145. 被引量：2
8徐力,屈召贵.无线传感器网络低能耗协议研究与仿真[J].现代电子技术,2017,40(3):7-11. 被引量：3
9梁俊卿.基于改进粒子群算法的无线传感器网络覆盖优化[J].现代电子技术,2017,40(17):32-35. 被引量：9
10朱利民,赵丽.基于改进自适应遗传算法的移动WSN覆盖方法[J].计算机应用研究,2019,36(5):1510-1514. 被引量：14

共引文献14

1张超.基于分簇的多跳无线传感网络时间同步算法[J].无线互联科技,2020,17(8):7-8.
2高健文,黄友锐,徐善永,韩涛,宋昊明.基于膜计算的蚁群算法在配电网WSNs中路由研究[J].重庆工商大学学报（自然科学版）,2021,38(3):50-57. 被引量：6
3黄为.论网络布线设计对无线网络运用的影响[J].电子元器件与信息技术,2021,5(2):43-44. 被引量：1
4高文政,石洪,汤其富.平面磁场式绝对角度传感器的误差产生机理与抑制方法研究[J].重庆理工大学学报（自然科学）,2021,35(6):113-121. 被引量：3
5徐姗姗,夏子朋,陆黎明.基于蚁群算法的物资采购数据智能分析系统设计[J].自动化与仪器仪表,2021(7):175-178. 被引量：1
6李双秋,余志斌,杨玲,张译方,刘莉萍.无线帧间隔特征提取方法[J].计算机科学,2021,48(9):286-291.
7付德义,孔令行.风电机组功率特性劣化监测技术研究[J].兵器装备工程学报,2021,42(11):215-221.
8王毅,神显豪,唐超尘,曹惠茹,刘敏.基于水波优化算法的无线传感器网络覆盖研究[J].南京理工大学学报,2021,45(6):680-686. 被引量：18
9黄鑫权,刘爱军,梁小虎,王桁.空中传感器网络中负载均衡的地理路由协议[J].计算机科学,2022,49(2):342-352. 被引量：2
10刘红星,魏玉芳,张利芳,莫冰利.基于多传感器的体育运动训练体能指标自动监测系统[J].自动化与仪器仪表,2022(9):120-123. 被引量：3

同被引文献18

1Jiaqi LI,Qingling WANG,Yanxu SU,Changyin SUN.Robust distributed model predictive consensus of discrete-time multi-agent systems:a self-triggered approach[J].Frontiers of Information Technology & Electronic Engineering,2021,22(8):1068-1079. 被引量：2
2王君,张杰.基于事件触发的多智能体系统自适应容错控制[J].电子设计工程,2022,30(5):1-5. 被引量：6
3李丽,卢延荣.输入饱和时变参数不确定离散时间系统的预见控制[J].系统科学与数学,2022,42(6):1438-1453. 被引量：4
4沙宗轩,霍如,孙闯,汪硕,黄韬.基于深度强化学习的转发效能感知流量调度算法[J].通信学报,2022,43(8):30-40. 被引量：9
5李占杰,马亚静,岳东.网络攻击下一类非线性切换多智能体系统的安全自适应控制[J].控制理论与应用,2022,39(8):1355-1362. 被引量：5
6王坦,杨森,齐晓慧,朱子薇,孟丽洁.线性多智能体系统分布式自适应时变编队跟踪控制[J].火力与指挥控制,2022,47(10):41-45. 被引量：3
7祝超群,黄鹏.DoS攻击下信息物理系统事件触发保性能控制[J].兰州理工大学学报,2022,48(6):74-80. 被引量：2
8吴锡,任正国,孙君.基于强化学习的异构超密度网络资源分配算法[J].计算机技术与发展,2023,33(1):114-120. 被引量：2
9钟佳岐,陈晓雷,曾诚.具有执行器饱和的多智能体系统H_(∞)边界一致性控制[J].系统科学与数学,2023,43(1):29-43. 被引量：4
10邢丽娟,杨世忠.线性变参数系统抗扰动鲁棒模型预测控制[J].计算机仿真,2023,40(4):282-285. 被引量：4

引证文献2

1张秀岿.基于增强学习的计算机网络资源优化分配策略研究[J].信息与电脑,2023,35(16):41-43.
2孙兴全,薛斌强.子系统间信息耦合的不确定多智能体系统DMPC[J].电子设计工程,2024,32(17):1-5. 被引量：1

二级引证文献1

1张博,吴晟昊.基于耦合程度的电力信息物理系统仿真技术研究[J].消费电子,2025(7):106-108.

1向白菊,汪波,黄琳惠,韩利军,蒋安.遥控牛颈枷装置的制作与应用[J].畜禽业,2023,34(6):39-41.
2MENG Fan,HUANG Yongming,LU Zhaohua,XIAO Huahua.Multi-User MmWave Beam Tracking via Multi-Agent Deep Q-Learning[J].ZTE Communications,2023,21(2):53-60. 被引量：1
3熊丽琴,曹雷,陈希亮,赖俊.基于状态估计的值分解方法[J].计算机科学,2023,50(8):202-208. 被引量：2
4初梦苑,刘晓文,曾雪婷,王彦超,刘刚.奶牛乳房炎自动检测技术研究进展[J].农业工程学报,2023,39(11):1-12. 被引量：4
5白梦茹,李韦江.ESG评级对上市公司避税程度的影响研究[J].中国市场,2023(19):166-169. 被引量：1
6郝禹哲,王振雷.安全约束下合作型多智能体TD3算法[J].计算机应用研究,2023,40(6):1692-1696.
7黎海涛,吕鑫,张帅,黄嘉伟.基于深度强化学习的无人机小区间干扰抑制技术研究[J].无线电通信技术,2023,49(2):331-337.
8李茜.高质量发展时代的洞见和实践[J].建筑,2023(6):95-95.
9张慧,丁慧霞,王智慧,汪莞乔,张彤彤,王亚男.面向风光电站监测的低时延智能接入控制方法[J].电力信息与通信技术,2023,21(4):67-74.
10Nong Qu,Chao Wang,Zuxing Li,Fuqiang Liu.A Transmission Design in Dynamic Heterogeneous V2V Networks Through Multi-Agent Deep Reinforcement Learning[J].China Communications,2023,20(7):273-289.

自动化与仪器仪表

2023年第6期

浏览历史

内容加载中请稍等...

一种基于多智能体强化学习的传感器网络目标锁定方法被引量：2

参考文献2

二级参考文献10

共引文献14

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于多智能体强化学习的传感器网络目标锁定方法 被引量：2

参考文献2

二级参考文献10

共引文献14

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于多智能体强化学习的传感器网络目标锁定方法被引量：2