-
题名加强学习主要算法的比较研究
被引量:4
- 1
-
-
作者
郭茂祖
刘扬
黄梯云
-
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学管理学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2001年第21期16-18,48,共4页
-
基金
国家自然科学基金项目(编号:70071008)
-
文摘
文章介绍了加强学习模型,分别给出了加强学习的四个主要算法:动态规划、蒙特卡罗算法、时序差分算法、Q-学习,并指出了它们之间的区别和联系。最后给出加强学习的两个应用以及今后的研究方向。
-
关键词
加强学习
蒙特卡罗算法
时序差分算法
Q-学习
机器学习
人工智能
-
Keywords
Reinforcement learning,Dynamic programming,monte carlo method,Temporal-difference,Q-learning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于生成模型的Q-learning二分类算法
被引量:1
- 2
-
-
作者
尚志刚
徐若灏
乔康加
杨莉芳
李蒙蒙
-
机构
郑州大学电气工程学院
河南省脑科学与脑机接口技术重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2020年第11期3326-3329,3333,共5页
-
基金
国家自然科学基金资助项目(U1304602)。
-
文摘
对于二分类问题,基于判别模型的分类器一般都是寻找一条最优判决边界,容易受到数据波动的影响。针对该问题提出一种基于生成模型的Q-learning二分类算法(BGQ-learning),将状态和动作分开编码,得到对应各类的判决函数,增加了决策空间的灵活性,同时在求解参数时,采用最小二乘时序差分(TD)算法和半梯度下降法的组合优化方法,加速了参数的收敛速度。设计实验对比了BGQ-learning算法与三种经典分类器以及一种新颖的分类器的分类性能,在UCI数据库七个数据集上的测试结果表明,该算法有着优良的稳定性以及良好的分类精确度。
-
关键词
Q-LEARNING
生成模型
二分类
最小二乘时序差分算法
半梯度下降法
-
Keywords
Q-learning
generative model
binary classification
least squares temporal-difference algorithm
semi-gradient descent
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于深度强化学习的动态装配算法
被引量:5
- 3
-
-
作者
王竣禾
姜勇
-
机构
中国科学院沈阳自动化研究所机器人学国家重点实验室
中国科学院机器人与智能制造创新研究院
中国科学院大学
-
出处
《智能系统学报》
CSCD
北大核心
2023年第1期2-11,共10页
-
基金
国家自然科学基金项目(52075531)。
-
文摘
针对动态装配环境中存在的复杂、动态的噪声扰动,提出一种基于深度强化学习的动态装配算法。将一段时间内的接触力作为状态,通过长短时记忆网络进行运动特征提取;定义序列贴现因子,对之前时刻的分奖励进行加权得到当前时刻的奖励值;模型输出的动作为笛卡尔空间位移,使用逆运动学调整机器人到达期望位置。与此同时,提出一种对带有资格迹的时序差分算法改进的神经网络参数更新方法,可缩短模型训练时间。在实验部分,首先在圆孔–轴的简单环境中进行预训练,随后在真实场景下继续训练。实验证明提出的方法可以很好地适应动态装配任务中柔性、动态的装配环境。
-
关键词
柔索模型
动态噪声
动态装配
深度强化学习
长短时记忆网络
序列贴现因子
带有资格迹的时序差分算法
预训练
-
Keywords
flexible cable model
dynamic noise
dynamic assembly
deep reinforcement learning
long short-term memory
sequential discount factor
temporal difference(λ)
pre-training
-
分类号
TP242.6
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于强化学习的过热汽温自适应PI控制器设计
被引量:3
- 4
-
-
作者
于来宝
谢兴旺
宋晶
袁博
-
机构
中国地质大学地球物理与空间信息学院
武汉城市职业学院机电学院
华中科技大学人工智能与自动化学院
-
出处
《江苏大学学报(自然科学版)》
CAS
北大核心
2022年第6期685-690,共6页
-
基金
国家自然科学基金资助项目(51228701)
2022年湖北省教育厅科学技术研究项目
武城职硕博士专项课题项目(2022whcvcB02)。
-
文摘
针对锅炉过热汽温模型结构和参数发生较大变化时常规PID控制效果难以令人满意的问题,提出一款基于actor-critic(AC)强化学习(reinforcement learning, RL)的自适应PI控制器.控制器采用径向基神经网络(RBF-NN)实现AC强化学习结构,其中actor网络输出为PI控制器参数,cri-tic网络对actor网络输出进行评判以生成时序差分(temporal difference, TD)误差信号,TD误差信号驱动RBF网络权值在线更新.介绍了锅炉过热汽温控制系统结构特点,给出了RL-PI控制器设计和算法执行步骤.完成了锅炉过热汽温控制系统的设计.以典型的非线性时变锅炉过热汽温系统为被控对象,进行了正常工况、增益增大、惯性增大、增益突变、惯性突变以及加扰动等6种工况下的仿真试验.结果表明:与模型预测控制、模糊控制以及常规PI串级控制方法相比,该RL-PI控制器具有明显的优势,能够极大提高系统适应工况变换的能力,且具有更强的自学习能力,收敛速度更快,鲁棒性更强.
-
关键词
过热汽温
actor-critic学习
强化学习
机器学习
径向基网络
时序差分算法
自适应控制
PI控制
-
Keywords
super-heated steam temperature
actor-critic learning
reinforcement learning
machine learning
RBF-NN
temporal difference algorithm
adaptive control
PI control
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名Q-learning强化学习制导律
被引量:30
- 5
-
-
作者
张秦浩
敖百强
张秦雪
-
机构
北京电子工程总体研究所
北华航天工业学院计算机学院
-
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2020年第2期414-419,共6页
-
基金
中国博士后科学基金(2017M620863)资助课题
-
文摘
在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行为空间,为导弹选择正确的制导指令。实验仿真验证了所提算法比传统的比例制导律拥有更好的制导精度,并使导弹拥有了自主决策能力。
-
关键词
比例制导
制导律
脱靶量
机动目标
强化学习
Q学习
时序差分算法
-
Keywords
proportional guidance
guidance law
miss distance
maneuvering target
reinforcement learning
Q-learning
timing difference algorithm
-
分类号
V448.133
[航空宇航科学与技术—飞行器设计]
-
-
题名风光储制氢下多台制氢机组优化调度研究
被引量:5
- 6
-
-
作者
董砚
卢禹
雷兆明
康学斌
-
机构
河北工业大学电气工程学院
-
出处
《高技术通讯》
CAS
2022年第1期77-83,共7页
-
基金
河北省重点研发计划(20314501D,19214501D)资助项目。
-
文摘
以风光储制氢系统中多台制氢机组和储能电池的优化调度为研究对象,目标是制氢的经济效益最大化。根据调度对象和目标函数的特征分别采用改进时序差分算法(TDA)和多目标粒子群优化算法(MOPSO)进行优化调度,其中储能电池的调度起辅助作用,用来使风光出力曲线匹配制氢出力曲线。算例分析表明,文中所述改进时序差分算法在解决多台制氢机组调度的问题上有更好的效果,对于时段扩大后的出力匹配问题,调度储能电池出力后也能很好地解决。风光储制氢系统在追求经济效益的同时也具备很好的消纳能力,能很好地适应风能和太阳能的间歇性和波动性。
-
关键词
风光储
制氢
调度
时序差分算法(TDA)
多目标粒子群优化算法(MOPSO)
-
Keywords
wind/photovoltaic/energy-storage
hydrogen production
scheduling
temporal-difference algo-rithm(TDA)
multi-objective particle swarm optimization algorithm(MOPSO)
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TK91
[动力工程及工程热物理]
-
-
题名基于自适应零行列式策略的区块链矿池合作演化方法
被引量:1
- 7
-
-
作者
范丽
郑红
黄建华
李忠诚
江亚慧
-
机构
华东理工大学信息科学与工程学院
-
出处
《计算机应用》
CSCD
北大核心
2019年第3期918-923,共6页
-
基金
国家自然科学基金资助项目(61473118)~~
-
文摘
矿工加入矿池是目前比特币挖矿最常见的方式。然而,比特币系统中存在矿池互相渗透攻击的现象,这将导致被攻击矿池的矿工收益减少,发起攻击的矿池算力降低,从而造成比特币系统的整体算力减小。针对矿池之间互相攻击,不合作挖矿的问题,提出自适应零行列式策略(AZD),采取"比较预期合作收益与背叛收益,选择促进高收益的策略"的思想促进矿池合作。首先,通过结合时序差分增强算法与零行列式策略的方法预测下一轮合作收益与背叛收益;其次,通过决策过程(DMP)选择策略进一步改变下一轮的合作概率和背叛概率;最后,通过迭代执行自适应零行列式策略,达到网络中矿池均互相合作、积极挖矿的目的。实验模拟表明,AZD策略与自适应策略相比,合作概率收敛为1的速度提高了36.54%;与零行列式策略相比,稳定度提高了50%。这个结果表明AZD策略能够有效促进矿工合作,提高合作收敛速率,保证矿池的稳定收益。
-
关键词
比特币
时序差分增强算法
自适应策略方法
零行列式策略
决策过程
-
Keywords
bitcoin
temporal difference learning method
adaptive strategy
zero-determinant strategy
Decision Making Process(DMP)
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-