期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
一种基于状态聚类的SARSA(λ)强化学习算法 被引量:3
1
作者 李春贵 吴沧浦 刘永信 《计算机工程》 CAS CSCD 北大核心 2003年第5期37-38,98,共3页
为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法... 为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法将可得到一个相对好的近似值函数. 展开更多
关键词 sarsa(λ)强化学习算法 状态聚类 强化学习 函数近似 sarsa学习 人工神经网络
在线阅读 下载PDF
基于Sarsa算法的无人直升机悬停控制 被引量:1
2
作者 蔡文澜 王俊生 +1 位作者 税海涛 马宏绪 《兵工自动化》 2007年第7期54-56,共3页
无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网... 无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网络,权值学习采用直接梯度下降的近似梯度迭代算法,用ε-Greed策略进行行为选择。 展开更多
关键词 无人直升机 悬停控制 sarsa增强学习算法 多层前馈神经网络
在线阅读 下载PDF
基于改进HSARSA(λ)算法的功率控制研究 被引量:2
3
作者 谷静 侯永平 +1 位作者 张雨轩 张新 《计算机工程》 CAS CSCD 北大核心 2019年第11期112-120,共9页
在MBS-PBS两层异构网络中,微微基站采用小区范围扩展技术对网络进行负载均衡时,pico小区边缘用户的通信受到MBS基站较大干扰。为此,提出一种基于启发函数的改进HSARSA(λ)算法。采用缩减功率的RP-ABS子帧技术,在保证宏基站自身通信性能... 在MBS-PBS两层异构网络中,微微基站采用小区范围扩展技术对网络进行负载均衡时,pico小区边缘用户的通信受到MBS基站较大干扰。为此,提出一种基于启发函数的改进HSARSA(λ)算法。采用缩减功率的RP-ABS子帧技术,在保证宏基站自身通信性能的同时减小MBS基站对pico边缘用户的干扰,并运用基于启发函数的改进HSARSA(λ)算法与环境进行交互,以配置RP-ABS子帧密度与功率大小,达到干扰协调的目的。仿真结果表明,改进HSARSA算法与原始SARSA和Q-Learning等算法相比,pico边缘用户吞吐量分别提升12%和40%,系统用户吞吐量分别提升10.3%和20.2%,有效提高了pico边缘用户的通信性能。 展开更多
关键词 异构网络 小区范围扩展 负载均衡 RP-ABS技术 sarsa学习算法
在线阅读 下载PDF
基于CMAC网络Sarsa(λ)学习的RoboCup守门员策略
4
作者 刘云龙 吉国力 《北京工业大学学报》 EI CAS CSCD 北大核心 2012年第9期1348-1352,共5页
针对RoboCup仿真组足球比赛场上状态复杂多变、同时供决策的信息大多为连续变量、智能体利用现有信息通常无法判断当前状态下最优动作的问题,以守门员为例,首先利用CMAC神经网络对连续状态空间泛化,然后在泛化后的状态上,采用Sarsa(λ)... 针对RoboCup仿真组足球比赛场上状态复杂多变、同时供决策的信息大多为连续变量、智能体利用现有信息通常无法判断当前状态下最优动作的问题,以守门员为例,首先利用CMAC神经网络对连续状态空间泛化,然后在泛化后的状态上,采用Sarsa(λ)学习算法获取守门员的最优策略.通过在RoboCup仿真平台上进行仿真,实验结果表明,采用基于CMAC的Sarsa(λ)学习算法的守门员,经过一定时间的学习后,防守时间显著增长,防守效果明显优于其他算法,验证了本文所提方案的有效性. 展开更多
关键词 RoboCup仿真组足球比赛 CMAC神经网络 泛化 sarsa(λ)学习算法 最优策略
在线阅读 下载PDF
一种侧信道风险感知的虚拟节点迁移方法 被引量:6
5
作者 黄开枝 潘启润 +1 位作者 袁泉 游伟 《电子与信息学报》 EI CSCD 北大核心 2019年第9期2164-2171,共8页
为防御网络切片(NS)中的侧信道攻击(SCA),现有的基于动态迁移的防御方法存在不同虚拟节点共享物理资源的条件过于松弛的问题。该文提出一种侧信道风险感知的虚拟节点迁移方法。根据侧信道攻击的实施特点,结合熵值法对虚拟节点的侧信道... 为防御网络切片(NS)中的侧信道攻击(SCA),现有的基于动态迁移的防御方法存在不同虚拟节点共享物理资源的条件过于松弛的问题。该文提出一种侧信道风险感知的虚拟节点迁移方法。根据侧信道攻击的实施特点,结合熵值法对虚拟节点的侧信道风险进行评估,并将服务器上偏离平均风险程度大的虚拟节点进行迁移;采用马尔科夫决策过程描述网络切片虚拟节点的迁移问题,并使用Sarsa学习算法求解出最终的迁移结果。仿真结果表明,该方法将恶意网络切片实例与其他网络切片实例隔离开,达到防御侧信道攻击的目的。 展开更多
关键词 网络切片 安全隔离 侧信道攻击 马尔可夫决策过程 sarsa学习算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部