检索结果-维普期刊中文期刊服务平台

基于模型的强化学习中可学习的样本加权机制被引量：3: 1; 作者黄文振尹奇跃 +1 位作者张俊格黄凯奇《软件学报》 EI CSCD 北大核心 2023年第6期2765-2775,共11页; 基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练,因而有望提高样本效率.但由于训练样本不足等问题,构建的环境模型往往是不精确的,其生成的样本也会因携带的预测误差而对训练过程产... 展开更多; 关键词基于模型的强化学习模型误差元学习强化学习深度学习; 在线阅读下载PDF 职称材料

一种基于确定性环境模型的离线强化学习方法: 2; 作者汤瑞航黄初华秦进《计算机应用研究》北大核心 2025年第5期1352-1355,共4页; 现有的基于模型的离线强化学习方法中,大多着力于研究不同形式的保守主义应用,而忽略了对该类方法至关重要的部分——环境模型的研究。为了补充对环境模型影响的研究,提出了一种基于确定性模型的离线强化学习算法(deterministic model-b... 展开更多; 关键词离线强化学习基于模型的强化学习不确定性度量; 在线阅读下载PDF 职称材料

柠檬酸三钙中和过程的强化学习优化控制: 3; 作者祝丽娜苗茂栋 +4 位作者金赛赵忠盖孙福新石贵阳刘飞《化工学报》北大核心 2025年第6期2838-2847,共10页; 三钙中和过程是柠檬酸提取工艺的重要工序,是影响柠檬酸成品质量、产品收率的关键工段。该过程具有时滞、无参考轨迹、初始物料变化大、反应不可逆等特点,传统控制算法很难对其进行优化控制。针对上述问题,用强化学习算法深度确定性策略... 展开更多; 关键词三钙中和过程优化控制深度确定性策略基于模型的强化学习长短期记忆; 在线阅读下载PDF 职称材料

基于平均场内生奖励的多智能体强化学习算法: 4; 作者孙文绮李大鹏 +1 位作者田峰丁良辉《无线电通信技术》 2023年第3期556-565,共10页; 针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidenc... 展开更多; 关键词多智能体系统平均场控制基于模型的强化学习内生奖励; 在线阅读下载PDF 职称材料

基于高斯回归的连续空间多智能体跟踪学习被引量：2: 5; 作者陈鑫魏海军 +1 位作者吴敏曹卫华《自动化学报》 EI CSCD 北大核心 2013年第12期2021-2031,共11页; 提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟... 展开更多; 关键词连续状态空间多智能体系统基于模型的强化学习高斯回归; 在线阅读下载PDF 职称材料

题名基于模型的强化学习中可学习的样本加权机制被引量：3: 1; 作者黄文振尹奇跃张俊格黄凯奇; 机构中国科学院大学人工智能学院中国科学院自动化研究所智能系统与工程研究中心中国科学院脑科学与智能技术卓越创新中心; 出处《软件学报》 EI CSCD 北大核心 2023年第6期2765-2775,共11页; 基金国家自然科学基金(61876181,61673375) 北京市科技创新计划(Z19110000119043) +1 种基金中国科学院项目(QYZDB-SSW-JSC006)。; 文摘基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练,因而有望提高样本效率.但由于训练样本不足等问题,构建的环境模型往往是不精确的,其生成的样本也会因携带的预测误差而对训练过程产生干扰.针对这一问题,提出了一种可学习的样本加权机制,通过对生成样本重加权以减少它们对训练过程的负面影响.该影响的量化方法为,先使用待评估样本更新价值和策略网络,再在真实样本上计算更新前后的损失值,使用损失值的变化量来衡量待评估样本对训练过程的影响.实验结果表明,按照该加权机制设计的强化学习算法在多个任务上均优于现有的基于模型和无模型的算法.; 关键词基于模型的强化学习模型误差元学习强化学习深度学习; Keywords model-based reinforcement learning model-bias meta-learning reinforcement learning deep learning; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名一种基于确定性环境模型的离线强化学习方法: 2; 作者汤瑞航黄初华秦进; 机构贵州大学计算机科学与技术学院公共大数据国家重点实验室; 出处《计算机应用研究》北大核心 2025年第5期1352-1355,共4页; 基金国家自然科学基金资助项目(62162007)。; 文摘现有的基于模型的离线强化学习方法中,大多着力于研究不同形式的保守主义应用,而忽略了对该类方法至关重要的部分——环境模型的研究。为了补充对环境模型影响的研究,提出了一种基于确定性模型的离线强化学习算法(deterministic model-based offline reinforcement learning,DMO)。首先,DMO针对离线数据与在线模型算法中数据特性的不一致,提出了一种适合离线RL问题的确定性建模环境的方法。其次,DMO使用转移中状态动作对在分布内的程度来衡量整个转移的不确定性,进而提出了基于不确定性衡量的奖励调整和模拟轨迹截断控制方法。DMO在D4RL的十二个机器人控制任务中进行了评估。最终在所有的测试任务中,DMO在以TD3+BC、BEAR、COMBO等算法为基线的比较中实现了8.2%~38%的平均得分提升。; 关键词离线强化学习基于模型的强化学习不确定性度量; Keywords offline reinforcement learning model-base reinforcement learning uncertainty estimation; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名柠檬酸三钙中和过程的强化学习优化控制: 3; 作者祝丽娜苗茂栋金赛赵忠盖孙福新石贵阳刘飞; 机构江南大学轻工过程先进控制教育部重点实验室江苏国信协联能源有限公司江南大学粮食发酵工艺与技术国家工程研究中心; 出处《化工学报》北大核心 2025年第6期2838-2847,共10页; 基金国家自然科学基金项目(62473175)。; 文摘三钙中和过程是柠檬酸提取工艺的重要工序,是影响柠檬酸成品质量、产品收率的关键工段。该过程具有时滞、无参考轨迹、初始物料变化大、反应不可逆等特点,传统控制算法很难对其进行优化控制。针对上述问题,用强化学习算法深度确定性策略(DDPG)对实际的三钙中和过程进行优化控制。考虑到基于模型的强化学习方法可使智能体在学习的模型中进行无成本的探索,建立三钙中和过程的长短期记忆(LSTM)模型,并对其损失函数进行改进,减小了仿真模型与实际环境的差距,然后利用该模型进行强化学习训练,并将训练好的控制策略用于实际三钙中和过程。实验结果表明,该方法可以将仿真训练出的最优策略成功应用于实际三钙中和过程,并取得较好的结果。; 关键词三钙中和过程优化控制深度确定性策略基于模型的强化学习长短期记忆; Keywords tricalcium neutralization process optimal control DDPG model-based reinforcement learning LSTM; 分类号 TP29 [自动化与计算机技术—检测技术与自动化装置]; 在线阅读下载PDF 职称材料

题名基于平均场内生奖励的多智能体强化学习算法: 4; 作者孙文绮李大鹏田峰丁良辉; 机构南京邮电大学通信与信息工程学院上海交通大学电子工程系; 出处《无线电通信技术》 2023年第3期556-565,共10页; 基金国家重点研发计划(2021ZD0140405)。; 文摘针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3IR-UCRL)算法。该算法在奖励函数中增加了内生奖励模块,用生成的内生奖励与定义任务的外部奖励一起帮助代表智能体在用平均场控制(Mean-Field Control, MFC)化简的多智能体系统中学习策略。智能体学习时首先按照期望累积内外奖励加权和的梯度方向更新策略参数,然后按照期望累积外部奖励的梯度方向更新内生奖励参数。仿真结果表明,相比于只用简单外部奖励引导智能体学习的(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3-UCRL)算法,所提算法可以有效提高智能体在复杂的多智能体场景中的任务完成率,降低与周围环境的碰撞率,从而使算法的整体性能得到提升。; 关键词多智能体系统平均场控制基于模型的强化学习内生奖励; Keywords multiagent system MFC model-based reinforcement learning intrinsic reward; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于高斯回归的连续空间多智能体跟踪学习被引量：2: 5; 作者陈鑫魏海军吴敏曹卫华; 机构中南大学信息科学与工程学院先进控制与智能自动化湖南省工程实验室; 出处《自动化学报》 EI CSCD 北大核心 2013年第12期2021-2031,共11页; 基金国家自然科学基金(61074058)资助~~; 文摘提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟踪式学习机制和算法(MAS MBRL-CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程(Markov decision process,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型.MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点.; 关键词连续状态空间多智能体系统基于模型的强化学习高斯回归; Keywords Continuous state space, multi-agent systems （MAS）, model-based reinforcement learning （MBRL）, Gaussianregression （GR）; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于模型的强化学习中可学习的样本加权机制	黄文振尹奇跃张俊格黄凯奇	《软件学报》 EI CSCD 北大核心	2023	3	在线阅读下载PDF 职称材料
2	一种基于确定性环境模型的离线强化学习方法	汤瑞航黄初华秦进	《计算机应用研究》北大核心	2025	0	在线阅读下载PDF 职称材料
3	柠檬酸三钙中和过程的强化学习优化控制	祝丽娜苗茂栋金赛赵忠盖孙福新石贵阳刘飞	《化工学报》北大核心	2025	0	在线阅读下载PDF 职称材料
4	基于平均场内生奖励的多智能体强化学习算法	孙文绮李大鹏田峰丁良辉	《无线电通信技术》	2023	0	在线阅读下载PDF 职称材料
5	基于高斯回归的连续空间多智能体跟踪学习	陈鑫魏海军吴敏曹卫华	《自动化学报》 EI CSCD 北大核心	2013	2	在线阅读下载PDF 职称材料