检索结果-维普期刊中文期刊服务平台

加强学习主要算法的比较研究被引量：4: 1; 作者郭茂祖刘扬黄梯云《计算机工程与应用》 CSCD 北大核心 2001年第21期16-18,48,共4页; 文章介绍了加强学习模型,分别给出了加强学习的四个主要算法:动态规划、蒙特卡罗算法、时序差分算法、Q-学习,并指出了它们之间的区别和联系。最后给出加强学习的两个应用以及今后的研究方向。; 关键词加强学习蒙特卡罗算法时序差分算法 Q-学习机器学习人工智能; 在线阅读下载PDF 职称材料

基于生成模型的Q-learning二分类算法被引量：1: 2; 作者尚志刚徐若灏 +2 位作者乔康加杨莉芳李蒙蒙《计算机应用研究》 CSCD 北大核心 2020年第11期3326-3329,3333,共5页; 对于二分类问题,基于判别模型的分类器一般都是寻找一条最优判决边界,容易受到数据波动的影响。针对该问题提出一种基于生成模型的Q-learning二分类算法(BGQ-learning),将状态和动作分开编码,得到对应各类的判决函数,增加了决策空间的... 展开更多; 关键词 Q-LEARNING 生成模型二分类最小二乘时序差分算法半梯度下降法; 在线阅读下载PDF 职称材料

基于深度强化学习的动态装配算法被引量：5: 3; 作者王竣禾姜勇《智能系统学报》 CSCD 北大核心 2023年第1期2-11,共10页; 针对动态装配环境中存在的复杂、动态的噪声扰动,提出一种基于深度强化学习的动态装配算法。将一段时间内的接触力作为状态,通过长短时记忆网络进行运动特征提取;定义序列贴现因子,对之前时刻的分奖励进行加权得到当前时刻的奖励值;模... 展开更多; 关键词柔索模型动态噪声动态装配深度强化学习长短时记忆网络序列贴现因子带有资格迹的时序差分算法预训练; 在线阅读下载PDF 职称材料

基于强化学习的过热汽温自适应PI控制器设计被引量：3: 4; 作者于来宝谢兴旺 +1 位作者宋晶袁博《江苏大学学报（自然科学版）》 CAS 北大核心 2022年第6期685-690,共6页; 针对锅炉过热汽温模型结构和参数发生较大变化时常规PID控制效果难以令人满意的问题,提出一款基于actor-critic(AC)强化学习(reinforcement learning, RL)的自适应PI控制器.控制器采用径向基神经网络(RBF-NN)实现AC强化学习结构,其中ac... 展开更多; 关键词过热汽温 actor-critic学习强化学习机器学习径向基网络时序差分算法自适应控制 PI控制; 在线阅读下载PDF 职称材料

Q-learning强化学习制导律被引量：30: 5; 作者张秦浩敖百强张秦雪《系统工程与电子技术》 EI CSCD 北大核心 2020年第2期414-419,共6页; 在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行... 展开更多; 关键词比例制导制导律脱靶量机动目标强化学习 Q学习时序差分算法; 在线阅读下载PDF 职称材料

风光储制氢下多台制氢机组优化调度研究被引量：5: 6; 作者董砚卢禹 +1 位作者雷兆明康学斌《高技术通讯》 CAS 2022年第1期77-83,共7页; 以风光储制氢系统中多台制氢机组和储能电池的优化调度为研究对象,目标是制氢的经济效益最大化。根据调度对象和目标函数的特征分别采用改进时序差分算法(TDA)和多目标粒子群优化算法(MOPSO)进行优化调度,其中储能电池的调度起辅助作用... 展开更多; 关键词风光储制氢调度时序差分算法(TDA) 多目标粒子群优化算法(MOPSO); 在线阅读下载PDF 职称材料

基于自适应零行列式策略的区块链矿池合作演化方法被引量：1: 7; 作者范丽郑红 +2 位作者黄建华李忠诚江亚慧《计算机应用》 CSCD 北大核心 2019年第3期918-923,共6页; 矿工加入矿池是目前比特币挖矿最常见的方式。然而,比特币系统中存在矿池互相渗透攻击的现象,这将导致被攻击矿池的矿工收益减少,发起攻击的矿池算力降低,从而造成比特币系统的整体算力减小。针对矿池之间互相攻击,不合作挖矿的问题,提... 展开更多; 关键词比特币时序差分增强算法自适应策略方法零行列式策略决策过程; 在线阅读下载PDF 职称材料

题名加强学习主要算法的比较研究被引量：4: 1; 作者郭茂祖刘扬黄梯云; 机构哈尔滨工业大学计算机科学与技术学院哈尔滨工业大学管理学院; 出处《计算机工程与应用》 CSCD 北大核心 2001年第21期16-18,48,共4页; 基金国家自然科学基金项目(编号:70071008); 文摘文章介绍了加强学习模型,分别给出了加强学习的四个主要算法:动态规划、蒙特卡罗算法、时序差分算法、Q-学习,并指出了它们之间的区别和联系。最后给出加强学习的两个应用以及今后的研究方向。; 关键词加强学习蒙特卡罗算法时序差分算法 Q-学习机器学习人工智能; Keywords Reinforcement learning,Dynamic programming,monte carlo method,Temporal-difference,Q-learning; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于生成模型的Q-learning二分类算法被引量：1: 2; 作者尚志刚徐若灏乔康加杨莉芳李蒙蒙; 机构郑州大学电气工程学院河南省脑科学与脑机接口技术重点实验室; 出处《计算机应用研究》 CSCD 北大核心 2020年第11期3326-3329,3333,共5页; 基金国家自然科学基金资助项目(U1304602)。; 文摘对于二分类问题,基于判别模型的分类器一般都是寻找一条最优判决边界,容易受到数据波动的影响。针对该问题提出一种基于生成模型的Q-learning二分类算法(BGQ-learning),将状态和动作分开编码,得到对应各类的判决函数,增加了决策空间的灵活性,同时在求解参数时,采用最小二乘时序差分(TD)算法和半梯度下降法的组合优化方法,加速了参数的收敛速度。设计实验对比了BGQ-learning算法与三种经典分类器以及一种新颖的分类器的分类性能,在UCI数据库七个数据集上的测试结果表明,该算法有着优良的稳定性以及良好的分类精确度。; 关键词 Q-LEARNING 生成模型二分类最小二乘时序差分算法半梯度下降法; Keywords Q-learning generative model binary classification least squares temporal-difference algorithm semi-gradient descent; 分类号 TP301 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名基于深度强化学习的动态装配算法被引量：5: 3; 作者王竣禾姜勇; 机构中国科学院沈阳自动化研究所机器人学国家重点实验室中国科学院机器人与智能制造创新研究院中国科学院大学; 出处《智能系统学报》 CSCD 北大核心 2023年第1期2-11,共10页; 基金国家自然科学基金项目(52075531)。; 文摘针对动态装配环境中存在的复杂、动态的噪声扰动,提出一种基于深度强化学习的动态装配算法。将一段时间内的接触力作为状态,通过长短时记忆网络进行运动特征提取;定义序列贴现因子,对之前时刻的分奖励进行加权得到当前时刻的奖励值;模型输出的动作为笛卡尔空间位移,使用逆运动学调整机器人到达期望位置。与此同时,提出一种对带有资格迹的时序差分算法改进的神经网络参数更新方法,可缩短模型训练时间。在实验部分,首先在圆孔–轴的简单环境中进行预训练,随后在真实场景下继续训练。实验证明提出的方法可以很好地适应动态装配任务中柔性、动态的装配环境。; 关键词柔索模型动态噪声动态装配深度强化学习长短时记忆网络序列贴现因子带有资格迹的时序差分算法预训练; Keywords flexible cable model dynamic noise dynamic assembly deep reinforcement learning long short-term memory sequential discount factor temporal difference(λ) pre-training; 分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]; 在线阅读下载PDF 职称材料

题名基于强化学习的过热汽温自适应PI控制器设计被引量：3: 4; 作者于来宝谢兴旺宋晶袁博; 机构中国地质大学地球物理与空间信息学院武汉城市职业学院机电学院华中科技大学人工智能与自动化学院; 出处《江苏大学学报（自然科学版）》 CAS 北大核心 2022年第6期685-690,共6页; 基金国家自然科学基金资助项目(51228701) 2022年湖北省教育厅科学技术研究项目武城职硕博士专项课题项目(2022whcvcB02)。; 文摘针对锅炉过热汽温模型结构和参数发生较大变化时常规PID控制效果难以令人满意的问题,提出一款基于actor-critic(AC)强化学习(reinforcement learning, RL)的自适应PI控制器.控制器采用径向基神经网络(RBF-NN)实现AC强化学习结构,其中actor网络输出为PI控制器参数,cri-tic网络对actor网络输出进行评判以生成时序差分(temporal difference, TD)误差信号,TD误差信号驱动RBF网络权值在线更新.介绍了锅炉过热汽温控制系统结构特点,给出了RL-PI控制器设计和算法执行步骤.完成了锅炉过热汽温控制系统的设计.以典型的非线性时变锅炉过热汽温系统为被控对象,进行了正常工况、增益增大、惯性增大、增益突变、惯性突变以及加扰动等6种工况下的仿真试验.结果表明:与模型预测控制、模糊控制以及常规PI串级控制方法相比,该RL-PI控制器具有明显的优势,能够极大提高系统适应工况变换的能力,且具有更强的自学习能力,收敛速度更快,鲁棒性更强.; 关键词过热汽温 actor-critic学习强化学习机器学习径向基网络时序差分算法自适应控制 PI控制; Keywords super-heated steam temperature actor-critic learning reinforcement learning machine learning RBF-NN temporal difference algorithm adaptive control PI control; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名Q-learning强化学习制导律被引量：30: 5; 作者张秦浩敖百强张秦雪; 机构北京电子工程总体研究所北华航天工业学院计算机学院; 出处《系统工程与电子技术》 EI CSCD 北大核心 2020年第2期414-419,共6页; 基金中国博士后科学基金(2017M620863)资助课题; 文摘在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行为空间,为导弹选择正确的制导指令。实验仿真验证了所提算法比传统的比例制导律拥有更好的制导精度,并使导弹拥有了自主决策能力。; 关键词比例制导制导律脱靶量机动目标强化学习 Q学习时序差分算法; Keywords proportional guidance guidance law miss distance maneuvering target reinforcement learning Q-learning timing difference algorithm; 分类号 V448.133 [航空宇航科学与技术—飞行器设计]; 在线阅读下载PDF 职称材料

题名风光储制氢下多台制氢机组优化调度研究被引量：5: 6; 作者董砚卢禹雷兆明康学斌; 机构河北工业大学电气工程学院; 出处《高技术通讯》 CAS 2022年第1期77-83,共7页; 基金河北省重点研发计划(20314501D,19214501D)资助项目。; 文摘以风光储制氢系统中多台制氢机组和储能电池的优化调度为研究对象,目标是制氢的经济效益最大化。根据调度对象和目标函数的特征分别采用改进时序差分算法(TDA)和多目标粒子群优化算法(MOPSO)进行优化调度,其中储能电池的调度起辅助作用,用来使风光出力曲线匹配制氢出力曲线。算例分析表明,文中所述改进时序差分算法在解决多台制氢机组调度的问题上有更好的效果,对于时段扩大后的出力匹配问题,调度储能电池出力后也能很好地解决。风光储制氢系统在追求经济效益的同时也具备很好的消纳能力,能很好地适应风能和太阳能的间歇性和波动性。; 关键词风光储制氢调度时序差分算法(TDA) 多目标粒子群优化算法(MOPSO); Keywords wind/photovoltaic/energy-storage hydrogen production scheduling temporal-difference algo-rithm(TDA) multi-objective particle swarm optimization algorithm(MOPSO); 分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TK91 [动力工程及工程热物理]; 在线阅读下载PDF 职称材料

题名基于自适应零行列式策略的区块链矿池合作演化方法被引量：1: 7; 作者范丽郑红黄建华李忠诚江亚慧; 机构华东理工大学信息科学与工程学院; 出处《计算机应用》 CSCD 北大核心 2019年第3期918-923,共6页; 基金国家自然科学基金资助项目(61473118)~~; 文摘矿工加入矿池是目前比特币挖矿最常见的方式。然而,比特币系统中存在矿池互相渗透攻击的现象,这将导致被攻击矿池的矿工收益减少,发起攻击的矿池算力降低,从而造成比特币系统的整体算力减小。针对矿池之间互相攻击,不合作挖矿的问题,提出自适应零行列式策略(AZD),采取"比较预期合作收益与背叛收益,选择促进高收益的策略"的思想促进矿池合作。首先,通过结合时序差分增强算法与零行列式策略的方法预测下一轮合作收益与背叛收益;其次,通过决策过程(DMP)选择策略进一步改变下一轮的合作概率和背叛概率;最后,通过迭代执行自适应零行列式策略,达到网络中矿池均互相合作、积极挖矿的目的。实验模拟表明,AZD策略与自适应策略相比,合作概率收敛为1的速度提高了36.54%;与零行列式策略相比,稳定度提高了50%。这个结果表明AZD策略能够有效促进矿工合作,提高合作收敛速率,保证矿池的稳定收益。; 关键词比特币时序差分增强算法自适应策略方法零行列式策略决策过程; Keywords bitcoin temporal difference learning method adaptive strategy zero-determinant strategy Decision Making Process(DMP); 分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	加强学习主要算法的比较研究	郭茂祖刘扬黄梯云	《计算机工程与应用》 CSCD 北大核心	2001	4	在线阅读下载PDF 职称材料
2	基于生成模型的Q-learning二分类算法	尚志刚徐若灏乔康加杨莉芳李蒙蒙	《计算机应用研究》 CSCD 北大核心	2020	1	在线阅读下载PDF 职称材料
3	基于深度强化学习的动态装配算法	王竣禾姜勇	《智能系统学报》 CSCD 北大核心	2023	5	在线阅读下载PDF 职称材料
4	基于强化学习的过热汽温自适应PI控制器设计	于来宝谢兴旺宋晶袁博	《江苏大学学报（自然科学版）》 CAS 北大核心	2022	3	在线阅读下载PDF 职称材料
5	Q-learning强化学习制导律	张秦浩敖百强张秦雪	《系统工程与电子技术》 EI CSCD 北大核心	2020	30	在线阅读下载PDF 职称材料
6	风光储制氢下多台制氢机组优化调度研究	董砚卢禹雷兆明康学斌	《高技术通讯》 CAS	2022	5	在线阅读下载PDF 职称材料
7	基于自适应零行列式策略的区块链矿池合作演化方法	范丽郑红黄建华李忠诚江亚慧	《计算机应用》 CSCD 北大核心	2019	1	在线阅读下载PDF 职称材料