期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于Metropolis准则的Q-学习算法研究 被引量:14
1
作者 郭茂祖 王亚东 +1 位作者 刘 扬 孙华梅 《计算机研究与发展》 EI CSCD 北大核心 2002年第6期684-688,共5页
探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火... 探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Metropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning.通过实验比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降. 展开更多
关键词 机器学习 METROPOLIS准则 q-学习算法
在线阅读 下载PDF
基于Q-学习算法的矿井自适应OFDM调制研究 被引量:1
2
作者 朱静茹 张育芝 +1 位作者 王安义 李萍 《工矿自动化》 北大核心 2021年第6期109-115,共7页
针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自... 针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自适应OFDM调制系统。该系统由发送端、矿井无线信道和接收端组成,发送端为矿井下装有传感器的小车,可以在狭长的巷道内自由移动。发送端利用Q-学习算法在与矿井无线信道的动态交互中不断更新状态-动作值函数,并根据更新的状态-动作值函数,采用贪婪策略来选择调制方式,逼近最优自适应调制策略,以达到降低系统误码率、提高通信吞吐量的目的。与基于SARSA算法、固定信噪比门限的2种矿井自适应OFDM调制系统性能进行仿真对比,结果表明:矿井小车在匀速和移动速度变化状态下,基于Q-学习算法的自适应OFDM调制系统平均误码率分别为1.1×10-3,2.1×10-3,总吞吐量分别为3115 bit,2719 bit,均优于基于SARSA算法和固定信噪比门限的自适应OFDM调制系统,且系统中Q-学习算法收敛速度优于SARSA算法。 展开更多
关键词 矿井无线通信 信道自适应调制 正交频分复用 强化学习 q-学习算法 SARSA算法 OFDM
在线阅读 下载PDF
基于偏向信息学习的双层强化学习算法 被引量:9
3
作者 林芬 石川 +1 位作者 罗杰文 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2008年第9期1455-1462,共8页
传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛.对此,提出基于偏向信息学习的双层强化学习模型.该模型将强化学习过程和偏向信息学习过程结合起来:偏... 传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛.对此,提出基于偏向信息学习的双层强化学习模型.该模型将强化学习过程和偏向信息学习过程结合起来:偏向信息指导强化学习的行为选择策略,同时强化学习指导偏向信息学习过程.该方法在有效利用先验知识的同时能够消除不正确先验知识的影响.针对迷宫问题的实验表明,该方法能够稳定收敛到最优策略;并且能够有效利用先验知识提高学习效率,加快学习过程的收敛. 展开更多
关键词 强化学习 q-学习算法 偏向信息 偏向信息学习 先验知识
在线阅读 下载PDF
未知环境下机器人Q学习覆盖算法 被引量:2
4
作者 常宝娴 丁洁 +1 位作者 朱俊武 章永龙 《南京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期792-798,812,共8页
为提高未知环境下机器人区域覆盖率,提出一种Q-学习覆盖算法(QLCA)。对环境建立栅格模型,在栅格地图中随机部署机器人和障碍位置。机器人根据QLCA自主学习得到的Qtable指导其后续的动作选择和路径规划,减少了机器人移动次数。从机器人... 为提高未知环境下机器人区域覆盖率,提出一种Q-学习覆盖算法(QLCA)。对环境建立栅格模型,在栅格地图中随机部署机器人和障碍位置。机器人根据QLCA自主学习得到的Qtable指导其后续的动作选择和路径规划,减少了机器人移动次数。从机器人数目、环境等方面分析了各类参数变化对该算法的影响。仿真实验结果表明:与随机选择覆盖算法对比,QLCA在完成覆盖的执行步数及冗余效果等方面均有明显优化。 展开更多
关键词 未知环境 q-学习覆盖算法 机器人 区域覆盖 栅格模型
在线阅读 下载PDF
移动雾计算中基于强化学习的伪装攻击检测算法 被引量:5
5
作者 于金亮 涂山山 孟远 《计算机工程》 CAS CSCD 北大核心 2020年第1期38-44,共7页
在移动雾计算中,雾节点与移动终端用户之间的通信容易受到伪装攻击,从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略,提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装攻击模型,在该模型下设... 在移动雾计算中,雾节点与移动终端用户之间的通信容易受到伪装攻击,从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略,提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装攻击模型,在该模型下设计基于Q-学习算法的伪装攻击检测算法,实现在动态环境下对伪装攻击的检测,在此基础上,分析密钥生成策略在假设检验中的漏报率、误报率和平均错误率以检验算法性能。实验结果表明,该算法能够在动态环境中有效地防范伪装攻击,可使检测性能迅速收敛并达到稳定,且具有较低的平均检测错误率。 展开更多
关键词 q-学习算法 物理层安全 伪装攻击 物理层密钥生成 假设检验
在线阅读 下载PDF
基于Markov对策和强化学习的多智能体协作研究 被引量:7
6
作者 李晓萌 杨煜普 许晓鸣 《上海交通大学学报》 EI CAS CSCD 北大核心 2001年第2期288-292,共5页
MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备... MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备的观察信息 ,这种情况过于理想化 .文中针对以上两个不足 ,提出了在联合行动和不完备信息下的协调学习 .理论分析和仿真实验表明 ,协调学习算法具有收敛性 . 展开更多
关键词 MARKOV对策 q-学习算法 协调学习 多智能体系统 强化学习
在线阅读 下载PDF
自适应蚁群算法的多机协同空战目标分配方法 被引量:12
7
作者 于雷 任波 鲁艺 《火力与指挥控制》 CSCD 北大核心 2008年第6期49-51,共3页
对目标超视距空战将是今后空战的主要形式和发展趋势,多机协同多目标攻击中的关键问题是空战决策。首先建立了空战态势评估方法,结合蚁群算法思想,提出了一种新型的目标分配算法模型,并进行了算法实验。实验结果表明基于自适应蚁群算法... 对目标超视距空战将是今后空战的主要形式和发展趋势,多机协同多目标攻击中的关键问题是空战决策。首先建立了空战态势评估方法,结合蚁群算法思想,提出了一种新型的目标分配算法模型,并进行了算法实验。实验结果表明基于自适应蚁群算法解决多机协同空战的目标分配问题是有效的,特别是问题规模较大时更显示出其较快的收敛速度和较高的精度。 展开更多
关键词 目标分配 q-学习蚁群算法 多目标攻击
在线阅读 下载PDF
基于有效实例的改进U树算法
8
作者 宋佳佳 王作为 《计算机工程与科学》 CSCD 北大核心 2019年第1期185-190,共6页
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来... 传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来划分同一个叶子节点中做相同动作的实例,提出了一种基于有效实例来扩展边缘节点的EIU-Tree算法,大大缩减了计算规模,以此来帮助智能体更好更快地学习,并且在4×3经典栅格问题中做了仿真实验,对比于原有的U-Tree算法,该算法运行效果更好。 展开更多
关键词 部分观测马尔可夫决策过程 强化学习 U-树 q-学习算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部