针对飞行自组网(Flying Ad Hoc Network,FANET)在通信空白场景下存在的高时延问题,提出了一种深度强化学习(Deep Reinforcement Learning,DRL)辅助的双跳信息增强路由协议(Double-Hop Information Enhanced Routing Protocol,DHRP)。为...针对飞行自组网(Flying Ad Hoc Network,FANET)在通信空白场景下存在的高时延问题,提出了一种深度强化学习(Deep Reinforcement Learning,DRL)辅助的双跳信息增强路由协议(Double-Hop Information Enhanced Routing Protocol,DHRP)。为了实现有效的路由决策,采用马尔可夫决策过程(Markov Decision Process,MDP)对路由行为进行建模,在状态空间设计中结合了节点位置信息与链路信道容量,并综合考虑了双跳范围内的网络信息,以深度值网络为核心,在融合实时网络状态动态调整机制的奖励函数引导下,做出最优下一跳路由决策。实验结果表明,在通信空白场景下,DHRP相较于现有的路由方案,显著降低了FANET的平均端到端时延。此外,在不同节点规模和网络拥塞条件下,DHRP均表现出优越的适应性和鲁棒性,通过对动态网络环境的实时感知与智能决策机制,有效保障了整体网络性能。展开更多
文摘针对飞行自组网(Flying Ad Hoc Network,FANET)在通信空白场景下存在的高时延问题,提出了一种深度强化学习(Deep Reinforcement Learning,DRL)辅助的双跳信息增强路由协议(Double-Hop Information Enhanced Routing Protocol,DHRP)。为了实现有效的路由决策,采用马尔可夫决策过程(Markov Decision Process,MDP)对路由行为进行建模,在状态空间设计中结合了节点位置信息与链路信道容量,并综合考虑了双跳范围内的网络信息,以深度值网络为核心,在融合实时网络状态动态调整机制的奖励函数引导下,做出最优下一跳路由决策。实验结果表明,在通信空白场景下,DHRP相较于现有的路由方案,显著降低了FANET的平均端到端时延。此外,在不同节点规模和网络拥塞条件下,DHRP均表现出优越的适应性和鲁棒性,通过对动态网络环境的实时感知与智能决策机制,有效保障了整体网络性能。