期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
加强学习主要算法的比较研究 被引量:4
1
作者 郭茂祖 刘扬 黄梯云 《计算机工程与应用》 CSCD 北大核心 2001年第21期16-18,48,共4页
文章介绍了加强学习模型,分别给出了加强学习的四个主要算法:动态规划、蒙特卡罗算法、时序差分算法、Q-学习,并指出了它们之间的区别和联系。最后给出加强学习的两个应用以及今后的研究方向。
关键词 加强学习 蒙特卡罗算法 时序差分算法 Q-学习 机器学习 人工智能
在线阅读 下载PDF
基于生成模型的Q-learning二分类算法 被引量:1
2
作者 尚志刚 徐若灏 +2 位作者 乔康加 杨莉芳 李蒙蒙 《计算机应用研究》 CSCD 北大核心 2020年第11期3326-3329,3333,共5页
对于二分类问题,基于判别模型的分类器一般都是寻找一条最优判决边界,容易受到数据波动的影响。针对该问题提出一种基于生成模型的Q-learning二分类算法(BGQ-learning),将状态和动作分开编码,得到对应各类的判决函数,增加了决策空间的... 对于二分类问题,基于判别模型的分类器一般都是寻找一条最优判决边界,容易受到数据波动的影响。针对该问题提出一种基于生成模型的Q-learning二分类算法(BGQ-learning),将状态和动作分开编码,得到对应各类的判决函数,增加了决策空间的灵活性,同时在求解参数时,采用最小二乘时序差分(TD)算法和半梯度下降法的组合优化方法,加速了参数的收敛速度。设计实验对比了BGQ-learning算法与三种经典分类器以及一种新颖的分类器的分类性能,在UCI数据库七个数据集上的测试结果表明,该算法有着优良的稳定性以及良好的分类精确度。 展开更多
关键词 Q-LEARNING 生成模型 二分类 最小二乘时序差分算法 半梯度下降法
在线阅读 下载PDF
基于深度强化学习的动态装配算法 被引量:5
3
作者 王竣禾 姜勇 《智能系统学报》 CSCD 北大核心 2023年第1期2-11,共10页
针对动态装配环境中存在的复杂、动态的噪声扰动,提出一种基于深度强化学习的动态装配算法。将一段时间内的接触力作为状态,通过长短时记忆网络进行运动特征提取;定义序列贴现因子,对之前时刻的分奖励进行加权得到当前时刻的奖励值;模... 针对动态装配环境中存在的复杂、动态的噪声扰动,提出一种基于深度强化学习的动态装配算法。将一段时间内的接触力作为状态,通过长短时记忆网络进行运动特征提取;定义序列贴现因子,对之前时刻的分奖励进行加权得到当前时刻的奖励值;模型输出的动作为笛卡尔空间位移,使用逆运动学调整机器人到达期望位置。与此同时,提出一种对带有资格迹的时序差分算法改进的神经网络参数更新方法,可缩短模型训练时间。在实验部分,首先在圆孔–轴的简单环境中进行预训练,随后在真实场景下继续训练。实验证明提出的方法可以很好地适应动态装配任务中柔性、动态的装配环境。 展开更多
关键词 柔索模型 动态噪声 动态装配 深度强化学习 长短时记忆网络 序列贴现因子 带有资格迹的时序差分算法 预训练
在线阅读 下载PDF
基于强化学习的过热汽温自适应PI控制器设计 被引量:3
4
作者 于来宝 谢兴旺 +1 位作者 宋晶 袁博 《江苏大学学报(自然科学版)》 CAS 北大核心 2022年第6期685-690,共6页
针对锅炉过热汽温模型结构和参数发生较大变化时常规PID控制效果难以令人满意的问题,提出一款基于actor-critic(AC)强化学习(reinforcement learning, RL)的自适应PI控制器.控制器采用径向基神经网络(RBF-NN)实现AC强化学习结构,其中ac... 针对锅炉过热汽温模型结构和参数发生较大变化时常规PID控制效果难以令人满意的问题,提出一款基于actor-critic(AC)强化学习(reinforcement learning, RL)的自适应PI控制器.控制器采用径向基神经网络(RBF-NN)实现AC强化学习结构,其中actor网络输出为PI控制器参数,cri-tic网络对actor网络输出进行评判以生成时序差分(temporal difference, TD)误差信号,TD误差信号驱动RBF网络权值在线更新.介绍了锅炉过热汽温控制系统结构特点,给出了RL-PI控制器设计和算法执行步骤.完成了锅炉过热汽温控制系统的设计.以典型的非线性时变锅炉过热汽温系统为被控对象,进行了正常工况、增益增大、惯性增大、增益突变、惯性突变以及加扰动等6种工况下的仿真试验.结果表明:与模型预测控制、模糊控制以及常规PI串级控制方法相比,该RL-PI控制器具有明显的优势,能够极大提高系统适应工况变换的能力,且具有更强的自学习能力,收敛速度更快,鲁棒性更强. 展开更多
关键词 过热汽温 actor-critic学习 强化学习 机器学习 径向基网络 时序差分算法 自适应控制 PI控制
在线阅读 下载PDF
Q-learning强化学习制导律 被引量:30
5
作者 张秦浩 敖百强 张秦雪 《系统工程与电子技术》 EI CSCD 北大核心 2020年第2期414-419,共6页
在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行... 在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行为空间,为导弹选择正确的制导指令。实验仿真验证了所提算法比传统的比例制导律拥有更好的制导精度,并使导弹拥有了自主决策能力。 展开更多
关键词 比例制导 制导律 脱靶量 机动目标 强化学习 Q学习 时序差分算法
在线阅读 下载PDF
风光储制氢下多台制氢机组优化调度研究 被引量:5
6
作者 董砚 卢禹 +1 位作者 雷兆明 康学斌 《高技术通讯》 CAS 2022年第1期77-83,共7页
以风光储制氢系统中多台制氢机组和储能电池的优化调度为研究对象,目标是制氢的经济效益最大化。根据调度对象和目标函数的特征分别采用改进时序差分算法(TDA)和多目标粒子群优化算法(MOPSO)进行优化调度,其中储能电池的调度起辅助作用... 以风光储制氢系统中多台制氢机组和储能电池的优化调度为研究对象,目标是制氢的经济效益最大化。根据调度对象和目标函数的特征分别采用改进时序差分算法(TDA)和多目标粒子群优化算法(MOPSO)进行优化调度,其中储能电池的调度起辅助作用,用来使风光出力曲线匹配制氢出力曲线。算例分析表明,文中所述改进时序差分算法在解决多台制氢机组调度的问题上有更好的效果,对于时段扩大后的出力匹配问题,调度储能电池出力后也能很好地解决。风光储制氢系统在追求经济效益的同时也具备很好的消纳能力,能很好地适应风能和太阳能的间歇性和波动性。 展开更多
关键词 风光储 制氢 调度 时序差分算法(TDA) 多目标粒子群优化算法(MOPSO)
在线阅读 下载PDF
基于自适应零行列式策略的区块链矿池合作演化方法 被引量:1
7
作者 范丽 郑红 +2 位作者 黄建华 李忠诚 江亚慧 《计算机应用》 CSCD 北大核心 2019年第3期918-923,共6页
矿工加入矿池是目前比特币挖矿最常见的方式。然而,比特币系统中存在矿池互相渗透攻击的现象,这将导致被攻击矿池的矿工收益减少,发起攻击的矿池算力降低,从而造成比特币系统的整体算力减小。针对矿池之间互相攻击,不合作挖矿的问题,提... 矿工加入矿池是目前比特币挖矿最常见的方式。然而,比特币系统中存在矿池互相渗透攻击的现象,这将导致被攻击矿池的矿工收益减少,发起攻击的矿池算力降低,从而造成比特币系统的整体算力减小。针对矿池之间互相攻击,不合作挖矿的问题,提出自适应零行列式策略(AZD),采取"比较预期合作收益与背叛收益,选择促进高收益的策略"的思想促进矿池合作。首先,通过结合时序差分增强算法与零行列式策略的方法预测下一轮合作收益与背叛收益;其次,通过决策过程(DMP)选择策略进一步改变下一轮的合作概率和背叛概率;最后,通过迭代执行自适应零行列式策略,达到网络中矿池均互相合作、积极挖矿的目的。实验模拟表明,AZD策略与自适应策略相比,合作概率收敛为1的速度提高了36.54%;与零行列式策略相比,稳定度提高了50%。这个结果表明AZD策略能够有效促进矿工合作,提高合作收敛速率,保证矿池的稳定收益。 展开更多
关键词 比特币 时序差分增强算法 自适应策略方法 零行列式策略 决策过程
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部