期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Metropolis准则的Q-学习算法研究
被引量:
14
1
作者
郭茂祖
王亚东
+1 位作者
刘 扬
孙华梅
《计算机研究与发展》
EI
CSCD
北大核心
2002年第6期684-688,共5页
探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火...
探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Metropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning.通过实验比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降.
展开更多
关键词
机器
学习
METROPOLIS准则
q-学习算法
在线阅读
下载PDF
职称材料
基于Q-学习算法的矿井自适应OFDM调制研究
被引量:
1
2
作者
朱静茹
张育芝
+1 位作者
王安义
李萍
《工矿自动化》
北大核心
2021年第6期109-115,共7页
针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自...
针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自适应OFDM调制系统。该系统由发送端、矿井无线信道和接收端组成,发送端为矿井下装有传感器的小车,可以在狭长的巷道内自由移动。发送端利用Q-学习算法在与矿井无线信道的动态交互中不断更新状态-动作值函数,并根据更新的状态-动作值函数,采用贪婪策略来选择调制方式,逼近最优自适应调制策略,以达到降低系统误码率、提高通信吞吐量的目的。与基于SARSA算法、固定信噪比门限的2种矿井自适应OFDM调制系统性能进行仿真对比,结果表明:矿井小车在匀速和移动速度变化状态下,基于Q-学习算法的自适应OFDM调制系统平均误码率分别为1.1×10-3,2.1×10-3,总吞吐量分别为3115 bit,2719 bit,均优于基于SARSA算法和固定信噪比门限的自适应OFDM调制系统,且系统中Q-学习算法收敛速度优于SARSA算法。
展开更多
关键词
矿井无线通信
信道自适应调制
正交频分复用
强化
学习
q-学习算法
SARSA
算法
OFDM
在线阅读
下载PDF
职称材料
基于偏向信息学习的双层强化学习算法
被引量:
9
3
作者
林芬
石川
+1 位作者
罗杰文
史忠植
《计算机研究与发展》
EI
CSCD
北大核心
2008年第9期1455-1462,共8页
传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛.对此,提出基于偏向信息学习的双层强化学习模型.该模型将强化学习过程和偏向信息学习过程结合起来:偏...
传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛.对此,提出基于偏向信息学习的双层强化学习模型.该模型将强化学习过程和偏向信息学习过程结合起来:偏向信息指导强化学习的行为选择策略,同时强化学习指导偏向信息学习过程.该方法在有效利用先验知识的同时能够消除不正确先验知识的影响.针对迷宫问题的实验表明,该方法能够稳定收敛到最优策略;并且能够有效利用先验知识提高学习效率,加快学习过程的收敛.
展开更多
关键词
强化
学习
q-学习算法
偏向信息
偏向信息
学习
先验知识
在线阅读
下载PDF
职称材料
未知环境下机器人Q学习覆盖算法
被引量:
2
4
作者
常宝娴
丁洁
+1 位作者
朱俊武
章永龙
《南京理工大学学报》
EI
CAS
CSCD
北大核心
2013年第6期792-798,812,共8页
为提高未知环境下机器人区域覆盖率,提出一种Q-学习覆盖算法(QLCA)。对环境建立栅格模型,在栅格地图中随机部署机器人和障碍位置。机器人根据QLCA自主学习得到的Qtable指导其后续的动作选择和路径规划,减少了机器人移动次数。从机器人...
为提高未知环境下机器人区域覆盖率,提出一种Q-学习覆盖算法(QLCA)。对环境建立栅格模型,在栅格地图中随机部署机器人和障碍位置。机器人根据QLCA自主学习得到的Qtable指导其后续的动作选择和路径规划,减少了机器人移动次数。从机器人数目、环境等方面分析了各类参数变化对该算法的影响。仿真实验结果表明:与随机选择覆盖算法对比,QLCA在完成覆盖的执行步数及冗余效果等方面均有明显优化。
展开更多
关键词
未知环境
q-
学习
覆盖
算法
机器人
区域覆盖
栅格模型
在线阅读
下载PDF
职称材料
移动雾计算中基于强化学习的伪装攻击检测算法
被引量:
5
5
作者
于金亮
涂山山
孟远
《计算机工程》
CAS
CSCD
北大核心
2020年第1期38-44,共7页
在移动雾计算中,雾节点与移动终端用户之间的通信容易受到伪装攻击,从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略,提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装攻击模型,在该模型下设...
在移动雾计算中,雾节点与移动终端用户之间的通信容易受到伪装攻击,从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略,提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装攻击模型,在该模型下设计基于Q-学习算法的伪装攻击检测算法,实现在动态环境下对伪装攻击的检测,在此基础上,分析密钥生成策略在假设检验中的漏报率、误报率和平均错误率以检验算法性能。实验结果表明,该算法能够在动态环境中有效地防范伪装攻击,可使检测性能迅速收敛并达到稳定,且具有较低的平均检测错误率。
展开更多
关键词
q-学习算法
物理层安全
伪装攻击
物理层密钥生成
假设检验
在线阅读
下载PDF
职称材料
基于Markov对策和强化学习的多智能体协作研究
被引量:
7
6
作者
李晓萌
杨煜普
许晓鸣
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2001年第2期288-292,共5页
MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备...
MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备的观察信息 ,这种情况过于理想化 .文中针对以上两个不足 ,提出了在联合行动和不完备信息下的协调学习 .理论分析和仿真实验表明 ,协调学习算法具有收敛性 .
展开更多
关键词
MARKOV对策
q-学习算法
协调
学习
多智能体系统
强化
学习
在线阅读
下载PDF
职称材料
自适应蚁群算法的多机协同空战目标分配方法
被引量:
12
7
作者
于雷
任波
鲁艺
《火力与指挥控制》
CSCD
北大核心
2008年第6期49-51,共3页
对目标超视距空战将是今后空战的主要形式和发展趋势,多机协同多目标攻击中的关键问题是空战决策。首先建立了空战态势评估方法,结合蚁群算法思想,提出了一种新型的目标分配算法模型,并进行了算法实验。实验结果表明基于自适应蚁群算法...
对目标超视距空战将是今后空战的主要形式和发展趋势,多机协同多目标攻击中的关键问题是空战决策。首先建立了空战态势评估方法,结合蚁群算法思想,提出了一种新型的目标分配算法模型,并进行了算法实验。实验结果表明基于自适应蚁群算法解决多机协同空战的目标分配问题是有效的,特别是问题规模较大时更显示出其较快的收敛速度和较高的精度。
展开更多
关键词
目标分配
q-
学习
蚁群
算法
多目标攻击
在线阅读
下载PDF
职称材料
基于有效实例的改进U树算法
8
作者
宋佳佳
王作为
《计算机工程与科学》
CSCD
北大核心
2019年第1期185-190,共6页
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来...
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来划分同一个叶子节点中做相同动作的实例,提出了一种基于有效实例来扩展边缘节点的EIU-Tree算法,大大缩减了计算规模,以此来帮助智能体更好更快地学习,并且在4×3经典栅格问题中做了仿真实验,对比于原有的U-Tree算法,该算法运行效果更好。
展开更多
关键词
部分观测马尔可夫决策过程
强化
学习
U-树
q-学习算法
在线阅读
下载PDF
职称材料
题名
基于Metropolis准则的Q-学习算法研究
被引量:
14
1
作者
郭茂祖
王亚东
刘 扬
孙华梅
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学管理学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2002年第6期684-688,共5页
基金
本课题得到国家"八六三"高技术研究发展计划(200lAA115550)
国家自然科学基金(70071008)
中国博士后科学基金资助
文摘
探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Metropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning.通过实验比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降.
关键词
机器
学习
METROPOLIS准则
q-学习算法
Keywords
reinforcement learning,
q-
learning, Metropolis criterion, exploration, exploitation
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于Q-学习算法的矿井自适应OFDM调制研究
被引量:
1
2
作者
朱静茹
张育芝
王安义
李萍
机构
西安科技大学通信与信息工程学院
出处
《工矿自动化》
北大核心
2021年第6期109-115,共7页
基金
国家重点研发计划项目(2018YFC0808301)
陕西省教育厅科研计划项目(18JK0499)。
文摘
针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自适应OFDM调制系统。该系统由发送端、矿井无线信道和接收端组成,发送端为矿井下装有传感器的小车,可以在狭长的巷道内自由移动。发送端利用Q-学习算法在与矿井无线信道的动态交互中不断更新状态-动作值函数,并根据更新的状态-动作值函数,采用贪婪策略来选择调制方式,逼近最优自适应调制策略,以达到降低系统误码率、提高通信吞吐量的目的。与基于SARSA算法、固定信噪比门限的2种矿井自适应OFDM调制系统性能进行仿真对比,结果表明:矿井小车在匀速和移动速度变化状态下,基于Q-学习算法的自适应OFDM调制系统平均误码率分别为1.1×10-3,2.1×10-3,总吞吐量分别为3115 bit,2719 bit,均优于基于SARSA算法和固定信噪比门限的自适应OFDM调制系统,且系统中Q-学习算法收敛速度优于SARSA算法。
关键词
矿井无线通信
信道自适应调制
正交频分复用
强化
学习
q-学习算法
SARSA
算法
OFDM
Keywords
mine wireless communication
channel adaptive modulation
orthogonal frequency division multiplexing
reinforcement learning
q-
learning algorithm
SARSA algorithm
OFDM
分类号
TD655 [矿业工程—矿山机电]
在线阅读
下载PDF
职称材料
题名
基于偏向信息学习的双层强化学习算法
被引量:
9
3
作者
林芬
石川
罗杰文
史忠植
机构
中国科学院计算技术研究所智能信息处理重点实验室
出处
《计算机研究与发展》
EI
CSCD
北大核心
2008年第9期1455-1462,共8页
基金
国家“八六三”高技术研究发展计划基金项目(2007AA01Z132)
国家“九七三”重点基础研究发展规划基金项目(2003CB317004)
国家自然科学基金项目(60775035,90604017)~~
文摘
传统的强化学习存在收敛速度慢等问题,结合先验知识预置某些偏向可以加快学习速度.但是当先验知识不正确时又可能导致学习过程不收敛.对此,提出基于偏向信息学习的双层强化学习模型.该模型将强化学习过程和偏向信息学习过程结合起来:偏向信息指导强化学习的行为选择策略,同时强化学习指导偏向信息学习过程.该方法在有效利用先验知识的同时能够消除不正确先验知识的影响.针对迷宫问题的实验表明,该方法能够稳定收敛到最优策略;并且能够有效利用先验知识提高学习效率,加快学习过程的收敛.
关键词
强化
学习
q-学习算法
偏向信息
偏向信息
学习
先验知识
Keywords
reinforcement learning
q-
learning
bias
bias learning
priori knowledge
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
未知环境下机器人Q学习覆盖算法
被引量:
2
4
作者
常宝娴
丁洁
朱俊武
章永龙
机构
南京工业大学理学院
扬州大学信息工程学院
南京航空航天大学计算机科学与技术学院
出处
《南京理工大学学报》
EI
CAS
CSCD
北大核心
2013年第6期792-798,812,共8页
基金
国家自然科学基金(61170201)
文摘
为提高未知环境下机器人区域覆盖率,提出一种Q-学习覆盖算法(QLCA)。对环境建立栅格模型,在栅格地图中随机部署机器人和障碍位置。机器人根据QLCA自主学习得到的Qtable指导其后续的动作选择和路径规划,减少了机器人移动次数。从机器人数目、环境等方面分析了各类参数变化对该算法的影响。仿真实验结果表明:与随机选择覆盖算法对比,QLCA在完成覆盖的执行步数及冗余效果等方面均有明显优化。
关键词
未知环境
q-
学习
覆盖
算法
机器人
区域覆盖
栅格模型
Keywords
unknown environments
q-
learning coverage algorithm
robots
area coverage
grid model
分类号
N55 [自然科学总论]
在线阅读
下载PDF
职称材料
题名
移动雾计算中基于强化学习的伪装攻击检测算法
被引量:
5
5
作者
于金亮
涂山山
孟远
机构
北京工业大学信息学部
可信计算北京市重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2020年第1期38-44,共7页
基金
国家自然科学基金(61801008)
国家重点研发计划(2018YFB0803600)
+1 种基金
北京市自然科学基金(L172049)
北京市教委科研计划(KM201910005025)
文摘
在移动雾计算中,雾节点与移动终端用户之间的通信容易受到伪装攻击,从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略,提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装攻击模型,在该模型下设计基于Q-学习算法的伪装攻击检测算法,实现在动态环境下对伪装攻击的检测,在此基础上,分析密钥生成策略在假设检验中的漏报率、误报率和平均错误率以检验算法性能。实验结果表明,该算法能够在动态环境中有效地防范伪装攻击,可使检测性能迅速收敛并达到稳定,且具有较低的平均检测错误率。
关键词
q-学习算法
物理层安全
伪装攻击
物理层密钥生成
假设检验
Keywords
q-
learning algorithm
physical layer security
impersonation attack
physical layer key generation
hypothesis testing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于Markov对策和强化学习的多智能体协作研究
被引量:
7
6
作者
李晓萌
杨煜普
许晓鸣
机构
上海交通大学自动化系
出处
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2001年第2期288-292,共5页
基金
国家自然科学基金!资助项目 (3930 0 70 )
文摘
MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备的观察信息 ,这种情况过于理想化 .文中针对以上两个不足 ,提出了在联合行动和不完备信息下的协调学习 .理论分析和仿真实验表明 ,协调学习算法具有收敛性 .
关键词
MARKOV对策
q-学习算法
协调
学习
多智能体系统
强化
学习
Keywords
Agents
Artificial intelligence
Learning algorithms
Markov processes
Matrix algebra
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
自适应蚁群算法的多机协同空战目标分配方法
被引量:
12
7
作者
于雷
任波
鲁艺
机构
空军工程大学工程学院
出处
《火力与指挥控制》
CSCD
北大核心
2008年第6期49-51,共3页
基金
军队重点科研基金资助项目(HX05205)
文摘
对目标超视距空战将是今后空战的主要形式和发展趋势,多机协同多目标攻击中的关键问题是空战决策。首先建立了空战态势评估方法,结合蚁群算法思想,提出了一种新型的目标分配算法模型,并进行了算法实验。实验结果表明基于自适应蚁群算法解决多机协同空战的目标分配问题是有效的,特别是问题规模较大时更显示出其较快的收敛速度和较高的精度。
关键词
目标分配
q-
学习
蚁群
算法
多目标攻击
Keywords
Targets assignment, Ant-Q System algorithm, multi-targets attack
分类号
V271.41 [航空宇航科学与技术—飞行器设计]
TU457 [建筑科学—岩土工程]
在线阅读
下载PDF
职称材料
题名
基于有效实例的改进U树算法
8
作者
宋佳佳
王作为
机构
天津工业大学计算机与软件学院
出处
《计算机工程与科学》
CSCD
北大核心
2019年第1期185-190,共6页
文摘
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来划分同一个叶子节点中做相同动作的实例,提出了一种基于有效实例来扩展边缘节点的EIU-Tree算法,大大缩减了计算规模,以此来帮助智能体更好更快地学习,并且在4×3经典栅格问题中做了仿真实验,对比于原有的U-Tree算法,该算法运行效果更好。
关键词
部分观测马尔可夫决策过程
强化
学习
U-树
q-学习算法
Keywords
partially observable Markov decision process
reinforcement learning
U-tree
q-
learning algorithm
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Metropolis准则的Q-学习算法研究
郭茂祖
王亚东
刘 扬
孙华梅
《计算机研究与发展》
EI
CSCD
北大核心
2002
14
在线阅读
下载PDF
职称材料
2
基于Q-学习算法的矿井自适应OFDM调制研究
朱静茹
张育芝
王安义
李萍
《工矿自动化》
北大核心
2021
1
在线阅读
下载PDF
职称材料
3
基于偏向信息学习的双层强化学习算法
林芬
石川
罗杰文
史忠植
《计算机研究与发展》
EI
CSCD
北大核心
2008
9
在线阅读
下载PDF
职称材料
4
未知环境下机器人Q学习覆盖算法
常宝娴
丁洁
朱俊武
章永龙
《南京理工大学学报》
EI
CAS
CSCD
北大核心
2013
2
在线阅读
下载PDF
职称材料
5
移动雾计算中基于强化学习的伪装攻击检测算法
于金亮
涂山山
孟远
《计算机工程》
CAS
CSCD
北大核心
2020
5
在线阅读
下载PDF
职称材料
6
基于Markov对策和强化学习的多智能体协作研究
李晓萌
杨煜普
许晓鸣
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2001
7
在线阅读
下载PDF
职称材料
7
自适应蚁群算法的多机协同空战目标分配方法
于雷
任波
鲁艺
《火力与指挥控制》
CSCD
北大核心
2008
12
在线阅读
下载PDF
职称材料
8
基于有效实例的改进U树算法
宋佳佳
王作为
《计算机工程与科学》
CSCD
北大核心
2019
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部