期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于模型的强化学习中可学习的样本加权机制 被引量:3
1
作者 黄文振 尹奇跃 +1 位作者 张俊格 黄凯奇 《软件学报》 EI CSCD 北大核心 2023年第6期2765-2775,共11页
基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练,因而有望提高样本效率.但由于训练样本不足等问题,构建的环境模型往往是不精确的,其生成的样本也会因携带的预测误差而对训练过程产... 基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练,因而有望提高样本效率.但由于训练样本不足等问题,构建的环境模型往往是不精确的,其生成的样本也会因携带的预测误差而对训练过程产生干扰.针对这一问题,提出了一种可学习的样本加权机制,通过对生成样本重加权以减少它们对训练过程的负面影响.该影响的量化方法为,先使用待评估样本更新价值和策略网络,再在真实样本上计算更新前后的损失值,使用损失值的变化量来衡量待评估样本对训练过程的影响.实验结果表明,按照该加权机制设计的强化学习算法在多个任务上均优于现有的基于模型和无模型的算法. 展开更多
关键词 基于模型的强化学习 模型误差 学习 强化学习 深度学习
在线阅读 下载PDF
一种基于确定性环境模型的离线强化学习方法
2
作者 汤瑞航 黄初华 秦进 《计算机应用研究》 北大核心 2025年第5期1352-1355,共4页
现有的基于模型的离线强化学习方法中,大多着力于研究不同形式的保守主义应用,而忽略了对该类方法至关重要的部分——环境模型的研究。为了补充对环境模型影响的研究,提出了一种基于确定性模型的离线强化学习算法(deterministic model-b... 现有的基于模型的离线强化学习方法中,大多着力于研究不同形式的保守主义应用,而忽略了对该类方法至关重要的部分——环境模型的研究。为了补充对环境模型影响的研究,提出了一种基于确定性模型的离线强化学习算法(deterministic model-based offline reinforcement learning,DMO)。首先,DMO针对离线数据与在线模型算法中数据特性的不一致,提出了一种适合离线RL问题的确定性建模环境的方法。其次,DMO使用转移中状态动作对在分布内的程度来衡量整个转移的不确定性,进而提出了基于不确定性衡量的奖励调整和模拟轨迹截断控制方法。DMO在D4RL的十二个机器人控制任务中进行了评估。最终在所有的测试任务中,DMO在以TD3+BC、BEAR、COMBO等算法为基线的比较中实现了8.2%~38%的平均得分提升。 展开更多
关键词 离线强化学习 基于模型的强化学习 不确定性度量
在线阅读 下载PDF
柠檬酸三钙中和过程的强化学习优化控制
3
作者 祝丽娜 苗茂栋 +4 位作者 金赛 赵忠盖 孙福新 石贵阳 刘飞 《化工学报》 北大核心 2025年第6期2838-2847,共10页
三钙中和过程是柠檬酸提取工艺的重要工序,是影响柠檬酸成品质量、产品收率的关键工段。该过程具有时滞、无参考轨迹、初始物料变化大、反应不可逆等特点,传统控制算法很难对其进行优化控制。针对上述问题,用强化学习算法深度确定性策略... 三钙中和过程是柠檬酸提取工艺的重要工序,是影响柠檬酸成品质量、产品收率的关键工段。该过程具有时滞、无参考轨迹、初始物料变化大、反应不可逆等特点,传统控制算法很难对其进行优化控制。针对上述问题,用强化学习算法深度确定性策略(DDPG)对实际的三钙中和过程进行优化控制。考虑到基于模型的强化学习方法可使智能体在学习的模型中进行无成本的探索,建立三钙中和过程的长短期记忆(LSTM)模型,并对其损失函数进行改进,减小了仿真模型与实际环境的差距,然后利用该模型进行强化学习训练,并将训练好的控制策略用于实际三钙中和过程。实验结果表明,该方法可以将仿真训练出的最优策略成功应用于实际三钙中和过程,并取得较好的结果。 展开更多
关键词 三钙中和过程 优化控制 深度确定性策略 基于模型的强化学习 长短期记忆
在线阅读 下载PDF
基于平均场内生奖励的多智能体强化学习算法
4
作者 孙文绮 李大鹏 +1 位作者 田峰 丁良辉 《无线电通信技术》 2023年第3期556-565,共10页
针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidenc... 针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3IR-UCRL)算法。该算法在奖励函数中增加了内生奖励模块,用生成的内生奖励与定义任务的外部奖励一起帮助代表智能体在用平均场控制(Mean-Field Control, MFC)化简的多智能体系统中学习策略。智能体学习时首先按照期望累积内外奖励加权和的梯度方向更新策略参数,然后按照期望累积外部奖励的梯度方向更新内生奖励参数。仿真结果表明,相比于只用简单外部奖励引导智能体学习的(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3-UCRL)算法,所提算法可以有效提高智能体在复杂的多智能体场景中的任务完成率,降低与周围环境的碰撞率,从而使算法的整体性能得到提升。 展开更多
关键词 多智能体系统 平均场控制 基于模型的强化学习 内生奖励
在线阅读 下载PDF
基于高斯回归的连续空间多智能体跟踪学习 被引量:2
5
作者 陈鑫 魏海军 +1 位作者 吴敏 曹卫华 《自动化学报》 EI CSCD 北大核心 2013年第12期2021-2031,共11页
提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟... 提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟踪式学习机制和算法(MAS MBRL-CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程(Markov decision process,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型.MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点. 展开更多
关键词 连续状态空间 多智能体系统 基于模型的强化学习 高斯回归
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部