-
题名一种用于连续动作空间的最小二乘行动者-评论家方法
被引量:9
- 1
-
-
作者
朱斐
刘全
傅启明
伏玉琛
-
机构
苏州大学计算机科学与技术学院
苏州大学系统生物学研究中心
符号计算与知识工程教育部重点实验室(吉林大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第3期548-558,共11页
-
基金
国家自然科学基金项目(61303108
61373094
+3 种基金
61272005)
江苏省高校自然科学研究项目(13KJB520020)
江苏省自然科学基金项目(BK2012616)
吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172012K04)
-
文摘
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能.
-
关键词
强化学习
行动者-评论家算法
连续动作空间
最小二乘法
小车平衡杆问题
MOUNTAIN
car问题
-
Keywords
reinforcement learning
actor-critic algorithm
continuous action space
least squares method
cart pole balancing
mountain car
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于A3C的认知物联网通信干扰消除算法
被引量:1
- 2
-
-
作者
刘新梦
谢健骊
李翠然
王亦鸣
-
机构
兰州交通大学电子与信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第10期281-290,共10页
-
基金
国家自然科学基金(62161016)
甘肃省科技计划基金(20JR10RA273)
北京市高速铁路宽带移动通信工程技术研究中心(北京交通大学)开放课题基金资助(BHRC-2022-1)。
-
文摘
针对频谱资源干扰管理的智能化需求,提出一种基于异步优势行动者-评论家(A3C)的干扰消除算法,旨在应对认知物联网(CIoT)通信系统中由频谱资源共享引起的干扰问题。通过智能体的学习和优化,帮助次级用户(SU)在受到干扰影响时做出最优的决策,从而改善通信质量和系统性能。在该算法中,当SU遭受干扰影响通信质量时,智能体通过学习和优化,使SU能够根据当前的位置信息、发射功率、接收功率以及干扰程度选择最低干扰程度的行动,并执行该行动后获得的奖励。智能体通过尝试不同减少干扰的行动,并根据奖励的反馈调整策略,达到最大化定义干扰程度指标和信号质量指标的奖励函数的目的,从而最大程度地减少干扰对通信质量的影响。实验结果表明,与传统k-means算法以及深度递归Q网络(DRQN)和深度Q网络(DQN)优化算法相比,基于A3C的干扰消除算法具有更短的收敛时间、更高的执行效率以及更高的系统吞吐量,较3种基准方法在吞吐量性能上至少提高7%,能够有效地减少干扰对通信质量的不利影响。
-
关键词
认知物联网
干扰消除
异步优势行动者-评论家算法
干扰程度
信号质量
吞吐量
-
Keywords
Cognitive Internet of Things(CIoT)
interference cancellation
Asynchronous Advantage Actor-Critic(A3C)algorithm
interference level
signal quality
throughput
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-