检索结果-维普期刊中文期刊服务平台

一种基于状态聚类的SARSA(λ)强化学习算法被引量：3: 1; 作者李春贵吴沧浦刘永信《计算机工程》 CAS CSCD 北大核心 2003年第5期37-38,98,共3页; 为求解大状态空间的强化学习问题，提出了一种基于状态聚类的SARSA(λ)强化学习算法，其基本思想是利用先验知识或事先训练控制器，对状态空间进行聚类，分为不同的簇，然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类，算法... 展开更多; 关键词 sarsa(λ)强化学习算法状态聚类强化学习函数近似 sarsa学习人工神经网络; 在线阅读下载PDF 职称材料

基于Sarsa算法的无人直升机悬停控制被引量：1: 2; 作者蔡文澜王俊生 +1 位作者税海涛马宏绪《兵工自动化》 2007年第7期54-56,共3页; 无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网... 展开更多; 关键词无人直升机悬停控制 sarsa增强学习算法多层前馈神经网络; 在线阅读下载PDF 职称材料

基于改进HSARSA(λ)算法的功率控制研究被引量：2: 3; 作者谷静侯永平 +1 位作者张雨轩张新《计算机工程》 CAS CSCD 北大核心 2019年第11期112-120,共9页; 在MBS-PBS两层异构网络中,微微基站采用小区范围扩展技术对网络进行负载均衡时,pico小区边缘用户的通信受到MBS基站较大干扰。为此,提出一种基于启发函数的改进HSARSA(λ)算法。采用缩减功率的RP-ABS子帧技术,在保证宏基站自身通信性能... 展开更多; 关键词异构网络小区范围扩展负载均衡 RP-ABS技术 sarsa学习算法; 在线阅读下载PDF 职称材料

基于CMAC网络Sarsa(λ)学习的RoboCup守门员策略: 4; 作者刘云龙吉国力《北京工业大学学报》 EI CAS CSCD 北大核心 2012年第9期1348-1352,共5页; 针对RoboCup仿真组足球比赛场上状态复杂多变、同时供决策的信息大多为连续变量、智能体利用现有信息通常无法判断当前状态下最优动作的问题,以守门员为例,首先利用CMAC神经网络对连续状态空间泛化,然后在泛化后的状态上,采用Sarsa(λ)... 展开更多; 关键词 RoboCup仿真组足球比赛 CMAC神经网络泛化 sarsa(λ)学习算法最优策略; 在线阅读下载PDF 职称材料

一种侧信道风险感知的虚拟节点迁移方法被引量：6: 5; 作者黄开枝潘启润 +1 位作者袁泉游伟《电子与信息学报》 EI CSCD 北大核心 2019年第9期2164-2171,共8页; 为防御网络切片(NS)中的侧信道攻击(SCA),现有的基于动态迁移的防御方法存在不同虚拟节点共享物理资源的条件过于松弛的问题。该文提出一种侧信道风险感知的虚拟节点迁移方法。根据侧信道攻击的实施特点,结合熵值法对虚拟节点的侧信道... 展开更多; 关键词网络切片安全隔离侧信道攻击马尔可夫决策过程 sarsa学习算法; 在线阅读下载PDF 职称材料

题名一种基于状态聚类的SARSA(λ)强化学习算法被引量：3: 1; 作者李春贵吴沧浦刘永信; 机构北京理工大学自动控制系; 出处《计算机工程》 CAS CSCD 北大核心 2003年第5期37-38,98,共3页; 文摘为求解大状态空间的强化学习问题，提出了一种基于状态聚类的SARSA(λ)强化学习算法，其基本思想是利用先验知识或事先训练控制器，对状态空间进行聚类，分为不同的簇，然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类，算法将可得到一个相对好的近似值函数.; 关键词 sarsa(λ)强化学习算法状态聚类强化学习函数近似 sarsa学习人工神经网络; Keywords Reinforcement learning Function approximation State space clustering sarsa learning; 分类号 TP183 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于Sarsa算法的无人直升机悬停控制被引量：1: 2; 作者蔡文澜王俊生税海涛马宏绪; 机构国防科技大学机电工程与自动化学院; 出处《兵工自动化》 2007年第7期54-56,共3页; 文摘无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网络,权值学习采用直接梯度下降的近似梯度迭代算法,用ε-Greed策略进行行为选择。; 关键词无人直升机悬停控制 sarsa增强学习算法多层前馈神经网络; Keywords Unmanned helicopter Hovering control sarsa reinforcement learning algorithm MLP; 分类号 V249.1 [航空宇航科学与技术—飞行器设计] TP273 [自动化与计算机技术—检测技术与自动化装置]; 在线阅读下载PDF 职称材料

题名基于改进HSARSA(λ)算法的功率控制研究被引量：2: 3; 作者谷静侯永平张雨轩张新; 机构西安邮电大学电子工程学院; 出处《计算机工程》 CAS CSCD 北大核心 2019年第11期112-120,共9页; 基金国家自然科学基金(61272120) 陕西省科技计划项目(2018JM6106); 文摘在MBS-PBS两层异构网络中,微微基站采用小区范围扩展技术对网络进行负载均衡时,pico小区边缘用户的通信受到MBS基站较大干扰。为此,提出一种基于启发函数的改进HSARSA(λ)算法。采用缩减功率的RP-ABS子帧技术,在保证宏基站自身通信性能的同时减小MBS基站对pico边缘用户的干扰,并运用基于启发函数的改进HSARSA(λ)算法与环境进行交互,以配置RP-ABS子帧密度与功率大小,达到干扰协调的目的。仿真结果表明,改进HSARSA算法与原始SARSA和Q-Learning等算法相比,pico边缘用户吞吐量分别提升12%和40%,系统用户吞吐量分别提升10.3%和20.2%,有效提高了pico边缘用户的通信性能。; 关键词异构网络小区范围扩展负载均衡 RP-ABS技术 sarsa学习算法; Keywords heterogeneous network Cell Range Extension(CRE) load balancing RP-ABS technology sarsa learning algorithm; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于CMAC网络Sarsa(λ)学习的RoboCup守门员策略: 4; 作者刘云龙吉国力; 机构厦门大学自动化系; 出处《北京工业大学学报》 EI CAS CSCD 北大核心 2012年第9期1348-1352,共5页; 基金福建省自然科学基金资助项目(2010J05140) 高等学校博士学科点专项科研基金资助项目(20100121120022); 文摘针对RoboCup仿真组足球比赛场上状态复杂多变、同时供决策的信息大多为连续变量、智能体利用现有信息通常无法判断当前状态下最优动作的问题,以守门员为例,首先利用CMAC神经网络对连续状态空间泛化,然后在泛化后的状态上,采用Sarsa(λ)学习算法获取守门员的最优策略.通过在RoboCup仿真平台上进行仿真,实验结果表明,采用基于CMAC的Sarsa(λ)学习算法的守门员,经过一定时间的学习后,防守时间显著增长,防守效果明显优于其他算法,验证了本文所提方案的有效性.; 关键词 RoboCup仿真组足球比赛 CMAC神经网络泛化 sarsa(λ)学习算法最优策略; Keywords RoboCup simulated soccer CMAC neural networks generalization sarsa （λ） learningalgorithm optimal policy; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名一种侧信道风险感知的虚拟节点迁移方法被引量：6: 5; 作者黄开枝潘启润袁泉游伟; 机构国家数字交换系统工程技术研究中心; 出处《电子与信息学报》 EI CSCD 北大核心 2019年第9期2164-2171,共8页; 基金国家重点研发计划网络空间安全专项(2016YFB0801605) 国家自然科学基金创新群体项目(61521003)~~; 文摘为防御网络切片(NS)中的侧信道攻击(SCA),现有的基于动态迁移的防御方法存在不同虚拟节点共享物理资源的条件过于松弛的问题。该文提出一种侧信道风险感知的虚拟节点迁移方法。根据侧信道攻击的实施特点,结合熵值法对虚拟节点的侧信道风险进行评估,并将服务器上偏离平均风险程度大的虚拟节点进行迁移;采用马尔科夫决策过程描述网络切片虚拟节点的迁移问题,并使用Sarsa学习算法求解出最终的迁移结果。仿真结果表明,该方法将恶意网络切片实例与其他网络切片实例隔离开,达到防御侧信道攻击的目的。; 关键词网络切片安全隔离侧信道攻击马尔可夫决策过程 sarsa学习算法; Keywords Network Slicing(NS) Security isolation Side-Channel Attacks(SCA) Markov decision process sarsa algorithm; 分类号 TP393 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	一种基于状态聚类的SARSA(λ)强化学习算法	李春贵吴沧浦刘永信	《计算机工程》 CAS CSCD 北大核心	2003	3	在线阅读下载PDF 职称材料
2	基于Sarsa算法的无人直升机悬停控制	蔡文澜王俊生税海涛马宏绪	《兵工自动化》	2007	1	在线阅读下载PDF 职称材料
3	基于改进HSARSA(λ)算法的功率控制研究	谷静侯永平张雨轩张新	《计算机工程》 CAS CSCD 北大核心	2019	2	在线阅读下载PDF 职称材料
4	基于CMAC网络Sarsa(λ)学习的RoboCup守门员策略	刘云龙吉国力	《北京工业大学学报》 EI CAS CSCD 北大核心	2012	0	在线阅读下载PDF 职称材料
5	一种侧信道风险感知的虚拟节点迁移方法	黄开枝潘启润袁泉游伟	《电子与信息学报》 EI CSCD 北大核心	2019	6	在线阅读下载PDF 职称材料