期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
部分可观测马尔可夫决策过程算法综述 被引量:12
1
作者 桂林 武小悦 《系统工程与电子技术》 EI CSCD 北大核心 2008年第6期1058-1064,共7页
部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础... 部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础。介绍了POMDP模型后,对离散时间、有限状态集的POMDP精确算法和近似算法进行了综述,分析了造成POMDP难以求解的主要原因,提出了进一步的研究方向。 展开更多
关键词 部分可观测马尔可夫决策过程 算法 综述
在线阅读 下载PDF
基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议 被引量:2
2
作者 徐明 刘广钟 《计算机应用》 CSCD 北大核心 2015年第11期3047-3050,3074,共5页
针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为... 针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为多个离散等级来表达节点的状态信息。此后,接收节点通过信道状态观测和接入动作的历史信息对信道的占用概率进行预测,从而得出发送节点的信道最优调度策略;发送节点按照该策略中的调度序列在各自所分配的时隙内依次与接收节点进行通信,传输数据包。通信完成后,相关节点根据网络转移概率的统计量估计下一个时隙的状态。仿真实验表明,与传统的水声传感器网络介质访问控制协议相比,基于POMDP的介质访问控制协议可以提高数据包传输成功率和网络吞吐量,并且降低网络的能量消耗。 展开更多
关键词 水声传感器网络 部分可观测马尔可夫决策过程 介质访问控制 信道 调度
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配 被引量:2
3
作者 李萌 司鹏搏 +1 位作者 孙恩昌 张延华 《高技术通讯》 北大核心 2017年第3期220-227,共8页
研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数... 研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。 展开更多
关键词 受控网络 反馈策略 资源分配 部分可观察马尔可夫决策过程(pomdp)
在线阅读 下载PDF
部分可观测信息条件下系统最佳检修策略分析 被引量:4
4
作者 尚永爽 许爱强 +2 位作者 李文海 王怡苹 盛沛 《系统工程与电子技术》 EI CSCD 北大核心 2012年第4期749-753,共5页
针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故... 针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故障率和可靠度函数,不仅考虑系统的工作时间,也考虑系统的退化状态。最后,以系统长期运行的最小平均费用率为目标,得到最佳的检测周期和最优的更换策略。实例研究表明,该方法可为保障人员提供科学的维修决策依据。 展开更多
关键词 视情维修 维修决策 部分可观测马尔可夫决策过程 马尔可夫模型 比例故障率模型 退化系统
在线阅读 下载PDF
基于POMDP的可伸缩视频流优化决策调度 被引量:1
5
作者 范凤军 邹君妮 +1 位作者 汪敏 熊红凯 《上海交通大学学报》 EI CAS CSCD 北大核心 2010年第3期393-397,共5页
针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结... 针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结果表明,与传统的调度算法相比,该方法有效提高了视频流的平均峰值信噪比(PSNR).随着调度规模的扩大,其性能能够逐渐逼近用户状态完全确定的理想马尔可夫决策过程(MDP)模型. 展开更多
关键词 可伸缩视频编码 部分可观测马尔可夫决策过程 优化调度 无线广播
在线阅读 下载PDF
基于一阶信念点的一阶POMDP值迭代算法研究
6
作者 陈丽娜 黄宏斌 邓苏 《计算机工程与应用》 CSCD 2012年第15期7-11,共5页
主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的粒度归结方法,统一一阶信念粒度;提出了一阶信念粒度距离度量方法,提出FO-PBVI方法,将PBVI提升到抽象层面... 主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的粒度归结方法,统一一阶信念粒度;提出了一阶信念粒度距离度量方法,提出FO-PBVI方法,将PBVI提升到抽象层面。通过Tiger和Tag实验对方法进行了验证分析,通过实验可见FO-PBVI方法能够很好地适应问题规模的变化,能够求解较大规模的规划问题。 展开更多
关键词 一阶部分可观测马尔可夫决策过程(pomdp) 一阶信念状态 粒度归结 值迭代
在线阅读 下载PDF
基于POMDP模型的智能雷达干扰决策方法 被引量:1
7
作者 冯路为 刘松涛 徐华志 《系统工程与电子技术》 EI CSCD 北大核心 2023年第9期2755-2760,共6页
为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建... 为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建了智能雷达对抗系统的POMDP模型,采用非参数的、基于样本的信念分布反映智能体对环境的认知,并利用贝叶斯滤波更新智能体对环境的信念。然后,以信息熵作为评估准则,令干扰机选择信息熵最大的干扰样式不断尝试。最后,通过仿真实验与传统Q-学习法和经验决策法的干扰决策性能进行比较,验证所提方法的优越性。结果表明,所提方法能够根据未知雷达状态变化动态地选择最优干扰方式,且能更快实现对智能雷达的干扰决策。 展开更多
关键词 智能雷达 强化学习 部分可观测马尔可夫决策过程模型 贝叶斯滤波
在线阅读 下载PDF
基于信息熵的POMDP模型观测函数估计
8
作者 钟可立 王小捷 《中兴通讯技术》 2015年第5期50-55,共6页
部分可观测马尔可夫决策过程(POMDP)广泛应用于建模决策任务。模型中的观测矩阵主要用来建模环境的不确定性,通常很难从训练数据中直接获取,需要引入额外的信息进行估计。通过引入信息熵来修正模型中的观测矩阵,修正后的观测矩阵更能反... 部分可观测马尔可夫决策过程(POMDP)广泛应用于建模决策任务。模型中的观测矩阵主要用来建模环境的不确定性,通常很难从训练数据中直接获取,需要引入额外的信息进行估计。通过引入信息熵来修正模型中的观测矩阵,修正后的观测矩阵更能反映环境的不确定性。模拟环境下的实验表明,引入信息熵进行修正估计的观测矩阵有效提高了POMDP模型的性能,而在基于POMDP模型的对话系统中,修正的估计提高了系统的决策准确度。 展开更多
关键词 部分可观测马尔可夫决策过程 不确定性 意图识别 观测矩阵 信息熵
在线阅读 下载PDF
基于分层POMDP的智能轮椅行为控制方法 被引量:3
9
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《高技术通讯》 CAS CSCD 北大核心 2010年第6期613-617,共5页
针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综... 针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综合了动作的不确定性和状态的部分可观测性,通过对环境的观测和信息的采集,得到不确定环境下的最优策略选择,进而选择相应的最优动作,从而提高了动作的执行效率。在室内家居环境下进行的交互任务与导航控制试验以及对实验结果进行的分析验证了这一方法的实时性、有效性和可靠性。 展开更多
关键词 智能轮椅 行为控制方法 分层的部分可观测马尔可夫决策过程(pomdp)模型
在线阅读 下载PDF
基于MADDPG的多无人机协同攻击方法
10
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分可观测马尔可夫决策过程(Dec-pomdp) 多智能体深度确定性策略梯度算法(MADDPG) 无人机集群
在线阅读 下载PDF
POMDP-APF:一种基于POMDP模型的APF无人机路径规划策略 被引量:2
11
作者 冯建新 解爽 +1 位作者 郭冠麟 潘成胜 《计算机应用研究》 CSCD 北大核心 2023年第7期2124-2129,2145,共7页
针对无人机在路径规划过程中会遇到静态或者动态的障碍物,从而导致路径规划失败的问题,提出一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)模型的人工势场(artificial potential field,APF)... 针对无人机在路径规划过程中会遇到静态或者动态的障碍物,从而导致路径规划失败的问题,提出一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)模型的人工势场(artificial potential field,APF)无人机路径规划策略(POMDP-APF)。首先使用传感器获得的障碍物信息结合POMDP模型预测障碍物的未来位置,为无人机的路径规划做准备;其次,提出一种新的基于障碍物的正方体外接球的模型,保障无人机在路径规划过程中的安全性;最后,结合改进的APF算法实现无人机的路径规划。仿真结果表明,POMDP-APF策略在无人机实时路径规划中具有良好的可行性和有效性,使无人机能够有效避开障碍物,同时路径长度以及耗费时间更短。 展开更多
关键词 无人机路径规划 人工势场法 部分可观测马尔可夫决策过程 避障
在线阅读 下载PDF
一种基于POMDP用户意图建模的智能轮椅导航控制方法
12
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第S1期95-99,共5页
通过部分可观测马尔可夫决策过程(POMDP)模型对用户意图进行建模,提出了一种基于POMDP用户意图建模的智能轮椅导航控制方法.该方法考虑了动作的不确定性和状态的部分可观测性,对用户意图、智能轮椅导航控制的动作空间进行建模,通过状态... 通过部分可观测马尔可夫决策过程(POMDP)模型对用户意图进行建模,提出了一种基于POMDP用户意图建模的智能轮椅导航控制方法.该方法考虑了动作的不确定性和状态的部分可观测性,对用户意图、智能轮椅导航控制的动作空间进行建模,通过状态预测进而选择行为的最优规划,实现用户期望总值的最大化.首先介绍了POMDP的原理及模型,然后提出了基于POMDP用户意图的智能轮椅控制状态空间、动作空间、观察值集合、奖赏值和概率分布,进而提出了一种基于概率密度函数的用户意图求解方法.最后,对基于POMDP用户意图建模的智能轮椅导航控制进行了试验,并对试验结果进行了分析,从而验证了所提方法的实时性和有效性. 展开更多
关键词 智能轮椅 用户意图模型 部分可观测马尔可夫决策过程 控制方法
在线阅读 下载PDF
基于IMM的无人机在线路径规划决策建模 被引量:8
13
作者 杨啟明 徐建城 +1 位作者 田海宝 吴勇 《西北工业大学学报》 EI CAS CSCD 北大核心 2018年第2期323-331,共9页
为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状... 为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状态转移规律,以适应目标的机动变化。同时以POMDP模型中的累加代价函数为目标函数,结合使用名义信念状态优化(NBO)算法求解无人机的行动策略,产生的行动策略控制无人机飞行。仿真结果表明,所建立的模型能够实现对无人机路径的自主规划,能够控制无人机对目标进行有效跟踪,规划的无人机路径较之使用单一的目标状态转移规律更加合理高效。 展开更多
关键词 部分可观测马尔科夫决策过程(pomdp) 交互多模型(IMM) 路径规划 目标跟踪 名义信念状态优化
在线阅读 下载PDF
基于POMDP的跨层机会频谱接入优化设计 被引量:1
14
作者 林正红 江虹 +1 位作者 张娟 徐冠军 《计算机工程》 CAS CSCD 2014年第2期114-118,共5页
在功率受限的机会频谱接入(OSA)研究中,大多使用完全可观测马尔可夫决策过程(MDP)对环境建模,以提高物理层或介质访问控制(MAC)层指标,但由于感知设备的限制,无法保证用户对环境完全感知。为解决该问题,提出一种基于部分可观测马尔可夫... 在功率受限的机会频谱接入(OSA)研究中,大多使用完全可观测马尔可夫决策过程(MDP)对环境建模,以提高物理层或介质访问控制(MAC)层指标,但由于感知设备的限制,无法保证用户对环境完全感知。为解决该问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)与Sarsa(λ)的跨层OSA优化设计方案。结合MAC层和物理层,采用POMDP对功率受限且有感知误差的次用户频谱感知和接入过程进行建模,并将其转换为信念状态MDP(BMDP),使用Sarsa(λ)算法对其进行求解。仿真结果表明,在功率受限条件下,该Sarsa(λ)-BMDP方案的有效传输容量、吞吐量和频谱利用率分别比完全可观测Q-MDP方案低9%、7%和3%左右,其误比特率比基于点的值迭代PBVI-POMDP方案低20%左右,比Q-MDP方案高16%左右。 展开更多
关键词 机会频谱接入 部分可观测马尔可夫决策过程 Sarsa(λ)算法 跨层优化 功率受限
在线阅读 下载PDF
基于环境状态分布优化的POMDP值迭代求解算法 被引量:1
15
作者 朱荣鑫 王譞 +1 位作者 刘峰 赵志宏 《计算机应用研究》 CSCD 北大核心 2022年第2期374-378,共5页
基于点的值迭代算法是一类解决POMDP问题的有效算法,PBVI是基于点集的经典算法,但是其算法效率较为低下。FSVI使用内在的MDP最优策略来降低算法复杂度,但求解大规模问题的效果较差。为解决上述问题,提出了基于环境状态分布优化的前向搜... 基于点的值迭代算法是一类解决POMDP问题的有效算法,PBVI是基于点集的经典算法,但是其算法效率较为低下。FSVI使用内在的MDP最优策略来降低算法复杂度,但求解大规模问题的效果较差。为解决上述问题,提出了基于环境状态分布优化的前向搜索值迭代算法(PBVI-OSD),通过基于权重值的Q^(MDP)选出最佳的动作,基于信念状态和转换函数选取最大可能的状态,基于动作和状态从观察中随机选取一个观察概率大于阈值的观察,由此获得更具探索价值的后继信念点集,提升值迭代收敛的质量。在四个基准问题上的实验表明,相比于FSVI和PBVI,PBVI-OSD能保证收敛效率,特别是在大规模问题上能收敛到更好的全局最优解。 展开更多
关键词 部分可观测马尔可夫决策过程 可达信念空间 智能体规划
在线阅读 下载PDF
基于实例的POMDP问题的近似求解
16
作者 修国明 张积滨 潘启树 《计算机工程与应用》 CSCD 北大核心 2008年第29期82-85,111,共5页
结合启发式求解和增强学习技术,深入研究了基于实例的POMDP问题的近似求解算法,包括基于最近邻算法法的NNI及它的参数化增强版本ENNI和基于局部加权回归算法的LWI,并通过实验对比,给出了相应算法在实际应用中的性能。实验证明,基于实例... 结合启发式求解和增强学习技术,深入研究了基于实例的POMDP问题的近似求解算法,包括基于最近邻算法法的NNI及它的参数化增强版本ENNI和基于局部加权回归算法的LWI,并通过实验对比,给出了相应算法在实际应用中的性能。实验证明,基于实例的方法来求解POMDP问题,能够获得性能较好的次优解。 展开更多
关键词 基于实例的方法 部分可观察马尔可夫决策过程(pomdp) 启发式求解 增强学习 最近邻 局部加权回归
在线阅读 下载PDF
面向实际信道观测环境的时限约束无线下行调度策略
17
作者 张帆 宫傲宇 +3 位作者 邓磊 刘芳 林艳 张一晋 《计算机科学》 CSCD 北大核心 2021年第9期264-270,共7页
时限约束无线下行传输广泛应用于各类关系国计民生的实时通信业务,要求每个数据分组在严格传输时限内进行高可靠性传输。尽管如此,基站往往不能完全观测自身与各设备之间的信道状态,而需要借助反馈所携的信息对信道状态进行观测,从而增... 时限约束无线下行传输广泛应用于各类关系国计民生的实时通信业务,要求每个数据分组在严格传输时限内进行高可靠性传输。尽管如此,基站往往不能完全观测自身与各设备之间的信道状态,而需要借助反馈所携的信息对信道状态进行观测,从而增加了下行调度策略的设计难度。文章基于此实际信道观测环境设计时限约束下行调度策略,允许基站根据当前数据分组信息以及部分观测的各信道状态决定传输优先级。首先仅考虑队首数据分组信息对下行传输进行无限时域部分观测马尔可夫决策过程简化建模,但求解此建模的最优或近优策略在计算上不可行。鉴于此,文章应用有限时域Q函数马尔可夫决策过程算法,提出了一种低复杂度次优策略,并进一步提出一种更简单的启发式策略。仿真结果验证了所提策略相比对照策略在各种网络场景下的网络吞吐率优势,并且表明了信道的部分观测特性对吞吐率性能有较大影响。 展开更多
关键词 时限约束 下行传输策略 部分观测马尔可夫决策过程 吞吐率
在线阅读 下载PDF
考虑综合性能最优的非短视快速天基雷达多目标跟踪资源调度算法
18
作者 王增福 杨广宇 金术玲 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第1期253-269,共17页
合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基... 合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基于部分可观测的马尔可夫决策过程(POMDP)的资源调度模型;采用拉格朗日松弛法将多约束下的多目标跟踪资源调度问题转换分解为多个无约束的子问题;针对连续状态空间、连续动作空间及连续观测空间引起的维数灾难问题,采用基于蒙特卡罗树搜索(MCTS)的在线POMDP算法—POMCPOW算法进行求解,最终提出了一种综合多指标性能的非短视快速天基雷达多目标跟踪资源调度算法。仿真表明,与已有调度算法相比,所提算法资源分配更合理,系统性能更优。 展开更多
关键词 天基雷达 资源调度 多目标跟踪 部分可观测马尔可夫决策过程 蒙特卡罗树搜索(MCTS)
在线阅读 下载PDF
基于深度注意力Q网络的机器人路径规划研究
19
作者 马海杰 薛安虎 《传感器与微系统》 CSCD 北大核心 2024年第12期66-70,75,共6页
针对传统机器人路径规划算法在部分可观测环境中收敛速度慢、准确率低的问题,提出基于深度注意力Q网络(DAQN)的机器人路径规划方法。首先,为克服传统深度Q网络(DQN)在处理部分可观测马尔科夫决策过程(POMDP)时由于缺乏记忆单元而导致的... 针对传统机器人路径规划算法在部分可观测环境中收敛速度慢、准确率低的问题,提出基于深度注意力Q网络(DAQN)的机器人路径规划方法。首先,为克服传统深度Q网络(DQN)在处理部分可观测马尔科夫决策过程(POMDP)时由于缺乏记忆单元而导致的局限性,提出融合注意力机制的改进DQN算法,充分利用和挖掘包含历史数据的感知信息;其次,基于人工势场(APF)法,设计机器人移动距离和方向的奖励机制,提升路径规划的准确性;最后,在二维栅格地图仿真环境下验证DAQN算法的有效性。结果表明:DAQN算法在部分可观测环境中的路径规划表现显著优于其他算法,该算法能够在复杂环境中实现更加优越的路径规划效果。 展开更多
关键词 机器人 路径规划 部分可观测马尔可夫决策过程 深度强化学习 注意力机制
在线阅读 下载PDF
基于深度强化学习的动态频谱智能干扰算法研究
20
作者 张兰 张彪 +1 位作者 梁天一 朱辉杰 《南京邮电大学学报(自然科学版)》 北大核心 2024年第6期1-11,共11页
随着人工智能技术的不断发展,强化学习技术在提高电磁频谱控制和干扰对抗效率方面展现出巨大潜力。针对跳频通信系统抗干扰能力强、传统干扰方法效果不佳的问题,利用深度强化学习技术实现在动态频谱环境下的电磁智能干扰。首先引入部分... 随着人工智能技术的不断发展,强化学习技术在提高电磁频谱控制和干扰对抗效率方面展现出巨大潜力。针对跳频通信系统抗干扰能力强、传统干扰方法效果不佳的问题,利用深度强化学习技术实现在动态频谱环境下的电磁智能干扰。首先引入部分可观测马尔可夫决策过程对干扰机与跳频通信用户之间的通信对抗过程进行建模,然后基于卷积神经网络和长短期记忆网络设计了一个具有频谱特征挖掘和记忆回溯功能的干扰决策网络,实现基于深度强化学习的动态频谱智能干扰(Dynamic Spectrum Intelligent Jamming,DSIJ)算法。仿真实验结果表明,相较于传统DQN算法,所提DSIJ算法的干扰成功率提升了约18%。与传统的扫频干扰方法相比,其干扰成功率更是提升了约68%,从而充分证明了所提出的算法在动态频谱环境下实现智能干扰策略的有效性与显著优势。 展开更多
关键词 深度强化学习 跳频通信 智能干扰决策 部分可观测马尔可夫决策过程
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部