检索结果-维普期刊中文期刊服务平台

基于Metropolis准则的Q-学习算法研究被引量：14: 1; 作者郭茂祖王亚东 +1 位作者刘扬孙华梅《计算机研究与发展》 EI CSCD 北大核心 2002年第6期684-688,共5页; 探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火... 展开更多; 关键词机器学习 METROPOLIS准则 q-学习算法; 在线阅读下载PDF 职称材料

基于Q-学习算法的矿井自适应OFDM调制研究被引量：1: 2; 作者朱静茹张育芝 +1 位作者王安义李萍《工矿自动化》北大核心 2021年第6期109-115,共7页; 针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自... 展开更多; 关键词矿井无线通信信道自适应调制正交频分复用强化学习 q-学习算法 SARSA算法 OFDM; 在线阅读下载PDF 职称材料

基于偏向信息学习的双层强化学习算法被引量：9: 3; 作者林芬石川 +1 位作者罗杰文史忠植《计算机研究与发展》 EI CSCD 北大核心 2008年第9期1455-1462,共8页; 传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛.对此,提出基于偏向信息学习的双层强化学习模型.该模型将强化学习过程和偏向信息学习过程结合起来:偏... 展开更多; 关键词强化学习 q-学习算法偏向信息偏向信息学习先验知识; 在线阅读下载PDF 职称材料

未知环境下机器人Q学习覆盖算法被引量：2: 4; 作者常宝娴丁洁 +1 位作者朱俊武章永龙《南京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期792-798,812,共8页; 为提高未知环境下机器人区域覆盖率,提出一种Q-学习覆盖算法(QLCA)。对环境建立栅格模型,在栅格地图中随机部署机器人和障碍位置。机器人根据QLCA自主学习得到的Qtable指导其后续的动作选择和路径规划,减少了机器人移动次数。从机器人... 展开更多; 关键词未知环境 q-学习覆盖算法机器人区域覆盖栅格模型; 在线阅读下载PDF 职称材料

移动雾计算中基于强化学习的伪装攻击检测算法被引量：5: 5; 作者于金亮涂山山孟远《计算机工程》 CAS CSCD 北大核心 2020年第1期38-44,共7页; 在移动雾计算中,雾节点与移动终端用户之间的通信容易受到伪装攻击,从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略,提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装攻击模型,在该模型下设... 展开更多; 关键词 q-学习算法物理层安全伪装攻击物理层密钥生成假设检验; 在线阅读下载PDF 职称材料

基于Markov对策和强化学习的多智能体协作研究被引量：7: 6; 作者李晓萌杨煜普许晓鸣《上海交通大学学报》 EI CAS CSCD 北大核心 2001年第2期288-292,共5页; MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备... 展开更多; 关键词 MARKOV对策 q-学习算法协调学习多智能体系统强化学习; 在线阅读下载PDF 职称材料

自适应蚁群算法的多机协同空战目标分配方法被引量：12: 7; 作者于雷任波鲁艺《火力与指挥控制》 CSCD 北大核心 2008年第6期49-51,共3页; 对目标超视距空战将是今后空战的主要形式和发展趋势,多机协同多目标攻击中的关键问题是空战决策。首先建立了空战态势评估方法,结合蚁群算法思想,提出了一种新型的目标分配算法模型,并进行了算法实验。实验结果表明基于自适应蚁群算法... 展开更多; 关键词目标分配 q-学习蚁群算法多目标攻击; 在线阅读下载PDF 职称材料

基于有效实例的改进U树算法: 8; 作者宋佳佳王作为《计算机工程与科学》 CSCD 北大核心 2019年第1期185-190,共6页; 传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来... 展开更多; 关键词部分观测马尔可夫决策过程强化学习 U-树 q-学习算法; 在线阅读下载PDF 职称材料

题名基于Metropolis准则的Q-学习算法研究被引量：14: 1; 作者郭茂祖王亚东刘扬孙华梅; 机构哈尔滨工业大学计算机科学与技术学院哈尔滨工业大学管理学院; 出处《计算机研究与发展》 EI CSCD 北大核心 2002年第6期684-688,共5页; 基金本课题得到国家"八六三"高技术研究发展计划(200lAA115550) 国家自然科学基金(70071008) 中国博士后科学基金资助; 文摘探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Metropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning.通过实验比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降.; 关键词机器学习 METROPOLIS准则 q-学习算法; Keywords reinforcement learning, q-learning, Metropolis criterion, exploration, exploitation; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于Q-学习算法的矿井自适应OFDM调制研究被引量：1: 2; 作者朱静茹张育芝王安义李萍; 机构西安科技大学通信与信息工程学院; 出处《工矿自动化》北大核心 2021年第6期109-115,共7页; 基金国家重点研发计划项目(2018YFC0808301) 陕西省教育厅科研计划项目(18JK0499)。; 文摘针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自适应OFDM调制系统。该系统由发送端、矿井无线信道和接收端组成,发送端为矿井下装有传感器的小车,可以在狭长的巷道内自由移动。发送端利用Q-学习算法在与矿井无线信道的动态交互中不断更新状态-动作值函数,并根据更新的状态-动作值函数,采用贪婪策略来选择调制方式,逼近最优自适应调制策略,以达到降低系统误码率、提高通信吞吐量的目的。与基于SARSA算法、固定信噪比门限的2种矿井自适应OFDM调制系统性能进行仿真对比,结果表明:矿井小车在匀速和移动速度变化状态下,基于Q-学习算法的自适应OFDM调制系统平均误码率分别为1.1×10-3,2.1×10-3,总吞吐量分别为3115 bit,2719 bit,均优于基于SARSA算法和固定信噪比门限的自适应OFDM调制系统,且系统中Q-学习算法收敛速度优于SARSA算法。; 关键词矿井无线通信信道自适应调制正交频分复用强化学习 q-学习算法 SARSA算法 OFDM; Keywords mine wireless communication channel adaptive modulation orthogonal frequency division multiplexing reinforcement learning q-learning algorithm SARSA algorithm OFDM; 分类号 TD655 [矿业工程—矿山机电]; 在线阅读下载PDF 职称材料

题名基于偏向信息学习的双层强化学习算法被引量：9: 3; 作者林芬石川罗杰文史忠植; 机构中国科学院计算技术研究所智能信息处理重点实验室; 出处《计算机研究与发展》 EI CSCD 北大核心 2008年第9期1455-1462,共8页; 基金国家“八六三”高技术研究发展计划基金项目(2007AA01Z132) 国家“九七三”重点基础研究发展规划基金项目(2003CB317004) 国家自然科学基金项目(60775035,90604017)~~; 文摘传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛.对此,提出基于偏向信息学习的双层强化学习模型.该模型将强化学习过程和偏向信息学习过程结合起来:偏向信息指导强化学习的行为选择策略,同时强化学习指导偏向信息学习过程.该方法在有效利用先验知识的同时能够消除不正确先验知识的影响.针对迷宫问题的实验表明,该方法能够稳定收敛到最优策略;并且能够有效利用先验知识提高学习效率,加快学习过程的收敛.; 关键词强化学习 q-学习算法偏向信息偏向信息学习先验知识; Keywords reinforcement learning q-learning bias bias learning priori knowledge; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名未知环境下机器人Q学习覆盖算法被引量：2: 4; 作者常宝娴丁洁朱俊武章永龙; 机构南京工业大学理学院扬州大学信息工程学院南京航空航天大学计算机科学与技术学院; 出处《南京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期792-798,812,共8页; 基金国家自然科学基金(61170201); 文摘为提高未知环境下机器人区域覆盖率,提出一种Q-学习覆盖算法(QLCA)。对环境建立栅格模型,在栅格地图中随机部署机器人和障碍位置。机器人根据QLCA自主学习得到的Qtable指导其后续的动作选择和路径规划,减少了机器人移动次数。从机器人数目、环境等方面分析了各类参数变化对该算法的影响。仿真实验结果表明:与随机选择覆盖算法对比,QLCA在完成覆盖的执行步数及冗余效果等方面均有明显优化。; 关键词未知环境 q-学习覆盖算法机器人区域覆盖栅格模型; Keywords unknown environments q-learning coverage algorithm robots area coverage grid model; 分类号 N55 [自然科学总论]; 在线阅读下载PDF 职称材料

题名移动雾计算中基于强化学习的伪装攻击检测算法被引量：5: 5; 作者于金亮涂山山孟远; 机构北京工业大学信息学部可信计算北京市重点实验室; 出处《计算机工程》 CAS CSCD 北大核心 2020年第1期38-44,共7页; 基金国家自然科学基金(61801008) 国家重点研发计划(2018YFB0803600) +1 种基金北京市自然科学基金(L172049) 北京市教委科研计划(KM201910005025); 文摘在移动雾计算中,雾节点与移动终端用户之间的通信容易受到伪装攻击,从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略,提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装攻击模型,在该模型下设计基于Q-学习算法的伪装攻击检测算法,实现在动态环境下对伪装攻击的检测,在此基础上,分析密钥生成策略在假设检验中的漏报率、误报率和平均错误率以检验算法性能。实验结果表明,该算法能够在动态环境中有效地防范伪装攻击,可使检测性能迅速收敛并达到稳定,且具有较低的平均检测错误率。; 关键词 q-学习算法物理层安全伪装攻击物理层密钥生成假设检验; Keywords q-learning algorithm physical layer security impersonation attack physical layer key generation hypothesis testing; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于Markov对策和强化学习的多智能体协作研究被引量：7: 6; 作者李晓萌杨煜普许晓鸣; 机构上海交通大学自动化系; 出处《上海交通大学学报》 EI CAS CSCD 北大核心 2001年第2期288-292,共5页; 基金国家自然科学基金!资助项目 (3930 0 70 ); 文摘 MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备的观察信息 ,这种情况过于理想化 .文中针对以上两个不足 ,提出了在联合行动和不完备信息下的协调学习 .理论分析和仿真实验表明 ,协调学习算法具有收敛性 .; 关键词 MARKOV对策 q-学习算法协调学习多智能体系统强化学习; Keywords Agents Artificial intelligence Learning algorithms Markov processes Matrix algebra; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名自适应蚁群算法的多机协同空战目标分配方法被引量：12: 7; 作者于雷任波鲁艺; 机构空军工程大学工程学院; 出处《火力与指挥控制》 CSCD 北大核心 2008年第6期49-51,共3页; 基金军队重点科研基金资助项目(HX05205); 文摘对目标超视距空战将是今后空战的主要形式和发展趋势,多机协同多目标攻击中的关键问题是空战决策。首先建立了空战态势评估方法,结合蚁群算法思想,提出了一种新型的目标分配算法模型,并进行了算法实验。实验结果表明基于自适应蚁群算法解决多机协同空战的目标分配问题是有效的,特别是问题规模较大时更显示出其较快的收敛速度和较高的精度。; 关键词目标分配 q-学习蚁群算法多目标攻击; Keywords Targets assignment, Ant-Q System algorithm, multi-targets attack; 分类号 V271.41 [航空宇航科学与技术—飞行器设计] TU457 [建筑科学—岩土工程]; 在线阅读下载PDF 职称材料

题名基于有效实例的改进U树算法: 8; 作者宋佳佳王作为; 机构天津工业大学计算机与软件学院; 出处《计算机工程与科学》 CSCD 北大核心 2019年第1期185-190,共6页; 文摘传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来划分同一个叶子节点中做相同动作的实例,提出了一种基于有效实例来扩展边缘节点的EIU-Tree算法,大大缩减了计算规模,以此来帮助智能体更好更快地学习,并且在4×3经典栅格问题中做了仿真实验,对比于原有的U-Tree算法,该算法运行效果更好。; 关键词部分观测马尔可夫决策过程强化学习 U-树 q-学习算法; Keywords partially observable Markov decision process reinforcement learning U-tree q-learning algorithm; 分类号 TP393 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于Metropolis准则的Q-学习算法研究	郭茂祖王亚东刘扬孙华梅	《计算机研究与发展》 EI CSCD 北大核心	2002	14	在线阅读下载PDF 职称材料
2	基于Q-学习算法的矿井自适应OFDM调制研究	朱静茹张育芝王安义李萍	《工矿自动化》北大核心	2021	1	在线阅读下载PDF 职称材料
3	基于偏向信息学习的双层强化学习算法	林芬石川罗杰文史忠植	《计算机研究与发展》 EI CSCD 北大核心	2008	9	在线阅读下载PDF 职称材料
4	未知环境下机器人Q学习覆盖算法	常宝娴丁洁朱俊武章永龙	《南京理工大学学报》 EI CAS CSCD 北大核心	2013	2	在线阅读下载PDF 职称材料
5	移动雾计算中基于强化学习的伪装攻击检测算法	于金亮涂山山孟远	《计算机工程》 CAS CSCD 北大核心	2020	5	在线阅读下载PDF 职称材料
6	基于Markov对策和强化学习的多智能体协作研究	李晓萌杨煜普许晓鸣	《上海交通大学学报》 EI CAS CSCD 北大核心	2001	7	在线阅读下载PDF 职称材料
7	自适应蚁群算法的多机协同空战目标分配方法	于雷任波鲁艺	《火力与指挥控制》 CSCD 北大核心	2008	12	在线阅读下载PDF 职称材料
8	基于有效实例的改进U树算法	宋佳佳王作为	《计算机工程与科学》 CSCD 北大核心	2019	0	在线阅读下载PDF 职称材料