期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于二阶价值梯度模型强化学习的工业过程控制方法 被引量:1
1
作者 张博 潘福成 +1 位作者 周晓锋 李帅 《计算机应用研究》 CSCD 北大核心 2024年第8期2434-2440,共7页
为了实现对高延时、非线性和强耦合的复杂工业过程稳定准确的连续控制,提出了一种基于二阶价值梯度模型强化学习的控制方法。首先,该方法在模型训练过程中加入了状态价值函数的二阶梯度信息,具备更精确的函数逼近能力和更高的鲁棒性,学... 为了实现对高延时、非线性和强耦合的复杂工业过程稳定准确的连续控制,提出了一种基于二阶价值梯度模型强化学习的控制方法。首先,该方法在模型训练过程中加入了状态价值函数的二阶梯度信息,具备更精确的函数逼近能力和更高的鲁棒性,学习迭代效率更高;其次,通过采用新的状态采样策略,可以更高效地利用模型进行策略学习。最后,通过在OpenAI的Gym公共实验环境和两个工业场景的仿真环境的实验表明:基于二阶价值梯度模型对比传统的基于最大似然估计模型,环境模型预测误差显著降低;基于二阶价值梯度模型的强化学习方法学习效率优于现有的基于模型的策略优化方法,具备更好的控制性能,并减小了控制过程中的振荡现象。可见该方法能有效地提升训练效率,同时提高工业过程控制的稳定性和准确性。 展开更多
关键词 工业过程控制 模型强化学习 二阶价值梯度 状态价值函数 状态采样策略
在线阅读 下载PDF
无模型强化学习研究综述 被引量:36
2
作者 秦智慧 李宁 +3 位作者 刘晓彤 刘秀磊 佟强 刘旭红 《计算机科学》 CSCD 北大核心 2021年第3期180-187,共8页
强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)... 强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning)。模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互。在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广。文中对无模型强化学习的最新研究进展与发展动态进行了综述。首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望。 展开更多
关键词 人工智能 强化学习 深度强化学习 模型强化学习 马尔可夫决策过程
在线阅读 下载PDF
一种基于确定性环境模型的离线强化学习方法
3
作者 汤瑞航 黄初华 秦进 《计算机应用研究》 北大核心 2025年第5期1352-1355,共4页
现有的基于模型的离线强化学习方法中,大多着力于研究不同形式的保守主义应用,而忽略了对该类方法至关重要的部分——环境模型的研究。为了补充对环境模型影响的研究,提出了一种基于确定性模型的离线强化学习算法(deterministic model-b... 现有的基于模型的离线强化学习方法中,大多着力于研究不同形式的保守主义应用,而忽略了对该类方法至关重要的部分——环境模型的研究。为了补充对环境模型影响的研究,提出了一种基于确定性模型的离线强化学习算法(deterministic model-based offline reinforcement learning,DMO)。首先,DMO针对离线数据与在线模型算法中数据特性的不一致,提出了一种适合离线RL问题的确定性建模环境的方法。其次,DMO使用转移中状态动作对在分布内的程度来衡量整个转移的不确定性,进而提出了基于不确定性衡量的奖励调整和模拟轨迹截断控制方法。DMO在D4RL的十二个机器人控制任务中进行了评估。最终在所有的测试任务中,DMO在以TD3+BC、BEAR、COMBO等算法为基线的比较中实现了8.2%~38%的平均得分提升。 展开更多
关键词 离线强化学习 基于模型强化学习 不确定性度量
在线阅读 下载PDF
柠檬酸三钙中和过程的强化学习优化控制
4
作者 祝丽娜 苗茂栋 +4 位作者 金赛 赵忠盖 孙福新 石贵阳 刘飞 《化工学报》 北大核心 2025年第6期2838-2847,共10页
三钙中和过程是柠檬酸提取工艺的重要工序,是影响柠檬酸成品质量、产品收率的关键工段。该过程具有时滞、无参考轨迹、初始物料变化大、反应不可逆等特点,传统控制算法很难对其进行优化控制。针对上述问题,用强化学习算法深度确定性策略... 三钙中和过程是柠檬酸提取工艺的重要工序,是影响柠檬酸成品质量、产品收率的关键工段。该过程具有时滞、无参考轨迹、初始物料变化大、反应不可逆等特点,传统控制算法很难对其进行优化控制。针对上述问题,用强化学习算法深度确定性策略(DDPG)对实际的三钙中和过程进行优化控制。考虑到基于模型的强化学习方法可使智能体在学习的模型中进行无成本的探索,建立三钙中和过程的长短期记忆(LSTM)模型,并对其损失函数进行改进,减小了仿真模型与实际环境的差距,然后利用该模型进行强化学习训练,并将训练好的控制策略用于实际三钙中和过程。实验结果表明,该方法可以将仿真训练出的最优策略成功应用于实际三钙中和过程,并取得较好的结果。 展开更多
关键词 三钙中和过程 优化控制 深度确定性策略 基于模型强化学习 长短期记忆
在线阅读 下载PDF
潜在空间中的策略搜索强化学习方法
5
作者 赵婷婷 王莹 +3 位作者 孙威 陈亚瑞 王嫄 杨巨成 《计算机科学与探索》 CSCD 北大核心 2024年第4期1032-1046,共15页
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的... 策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。 展开更多
关键词 模型强化学习 策略模型 状态表示 动作表示 连续动作空间 策略搜索强化学习方法
在线阅读 下载PDF
模型化强化学习研究综述 被引量:14
6
作者 赵婷婷 孔乐 +2 位作者 韩雅杰 任德华 陈亚瑞 《计算机科学与探索》 CSCD 北大核心 2020年第6期918-927,共10页
深度强化学习(DRL)作为机器学习的重要分支,在AlphaGo击败人类后受到了广泛关注。DRL以一种试错机制与环境进行交互,并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习和模型化强化学习。无模型强化学习方法的训练... 深度强化学习(DRL)作为机器学习的重要分支,在AlphaGo击败人类后受到了广泛关注。DRL以一种试错机制与环境进行交互,并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习和模型化强化学习。无模型强化学习方法的训练过程需要大量样本,当采样预算不足,无法收集大量样本时,很难达到预期效果。然而,模型化强化学习可以充分利用环境模型,降低真实样本需求量,在一定程度上提高样本效率。将以模型化强化学习为核心,介绍该领域的研究现状,分析其经典算法,并探讨未来的发展趋势和应用前景。 展开更多
关键词 深度强化学习(DRL) 模型强化学习 状态转移模型 样本利用率
在线阅读 下载PDF
一种基于Agent团队的强化学习模型与应用研究 被引量:31
7
作者 蔡庆生 张波 《计算机研究与发展》 EI CSCD 北大核心 2000年第9期1087-1093,共7页
多 Agent学习是近年来受到较多关注的研究方向 .以单 Agent强化学习 Q - learning算法为基础 ,提出了一种基于 Agent团队的强化学习模型 ,这个模型的最大特点是引入主导 Agent作为团队学习的主角 ,并通过主导Agent的角色变换实现整个团... 多 Agent学习是近年来受到较多关注的研究方向 .以单 Agent强化学习 Q - learning算法为基础 ,提出了一种基于 Agent团队的强化学习模型 ,这个模型的最大特点是引入主导 Agent作为团队学习的主角 ,并通过主导Agent的角色变换实现整个团队的学习 .结合仿真机器人足球领域 ,设计了具体的应用模型 ,在几个方面对 Q -learning进行了扩充 ,并进行了实验 . 展开更多
关键词 AGENT团队 机器人足球 强化学习模型 人工智能
在线阅读 下载PDF
基于模型的强化学习中可学习的样本加权机制 被引量:3
8
作者 黄文振 尹奇跃 +1 位作者 张俊格 黄凯奇 《软件学报》 EI CSCD 北大核心 2023年第6期2765-2775,共11页
基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练,因而有望提高样本效率.但由于训练样本不足等问题,构建的环境模型往往是不精确的,其生成的样本也会因携带的预测误差而对训练过程产... 基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练,因而有望提高样本效率.但由于训练样本不足等问题,构建的环境模型往往是不精确的,其生成的样本也会因携带的预测误差而对训练过程产生干扰.针对这一问题,提出了一种可学习的样本加权机制,通过对生成样本重加权以减少它们对训练过程的负面影响.该影响的量化方法为,先使用待评估样本更新价值和策略网络,再在真实样本上计算更新前后的损失值,使用损失值的变化量来衡量待评估样本对训练过程的影响.实验结果表明,按照该加权机制设计的强化学习算法在多个任务上均优于现有的基于模型和无模型的算法. 展开更多
关键词 基于模型强化学习 模型误差 学习 强化学习 深度学习
在线阅读 下载PDF
基于强化学习的机器人曲面恒力跟踪研究 被引量:8
9
作者 张铁 肖蒙 +1 位作者 邹焱飚 肖佳栋 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2019年第10期1865-1873,1882,共10页
针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与... 针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与接触状态的关系进行学习,对部分接触状态进行预测,强化学习根据预测的状态优化机器人位移输入参数,得到期望跟踪力信号.实验中,将强化学习的输入状态改为一段时间内的状态平均值以减少接触状态下信号的干扰.实验结果表明,利用PILCO算法在迭代8次后能够得到较稳定的力,相比于模糊迭代算法收敛速度较快,力误差绝对值的平均值减少了29%. 展开更多
关键词 机器人 曲面跟踪 力控制 基于概率动力学模型强化学习(PILCO) 强化学习
在线阅读 下载PDF
基于平均场内生奖励的多智能体强化学习算法
10
作者 孙文绮 李大鹏 +1 位作者 田峰 丁良辉 《无线电通信技术》 2023年第3期556-565,共10页
针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidenc... 针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3IR-UCRL)算法。该算法在奖励函数中增加了内生奖励模块,用生成的内生奖励与定义任务的外部奖励一起帮助代表智能体在用平均场控制(Mean-Field Control, MFC)化简的多智能体系统中学习策略。智能体学习时首先按照期望累积内外奖励加权和的梯度方向更新策略参数,然后按照期望累积外部奖励的梯度方向更新内生奖励参数。仿真结果表明,相比于只用简单外部奖励引导智能体学习的(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3-UCRL)算法,所提算法可以有效提高智能体在复杂的多智能体场景中的任务完成率,降低与周围环境的碰撞率,从而使算法的整体性能得到提升。 展开更多
关键词 多智能体系统 平均场控制 基于模型强化学习 内生奖励
在线阅读 下载PDF
基于无模型深度强化学习的煤泥浮选智能控制研究
11
作者 秦新凯 王然风 +2 位作者 付翔 窦治衡 李品钰 《工矿自动化》 2025年第8期25-33,58,共10页
在煤泥浮选工业现场中,传统基于机理模型的控制方法因其依赖近似模型,存在控制精度受限与泛化能力不足的问题。而经典无模型深度强化学习算法如深度确定性策略梯度(DDPG),在处理高维时变状态时易受无关变量干扰,难以精准捕捉核心特征,... 在煤泥浮选工业现场中,传统基于机理模型的控制方法因其依赖近似模型,存在控制精度受限与泛化能力不足的问题。而经典无模型深度强化学习算法如深度确定性策略梯度(DDPG),在处理高维时变状态时易受无关变量干扰,难以精准捕捉核心特征,导致策略稳定性下降。针对上述问题,提出一种基于融合注意力机制(AS)的无模型深度强化学习(AS−DDPG)的煤泥浮选智能控制方法。该方法采用AS−DDPG算法构建浮选智能控制器:以尾煤灰分为控制目标,在Actor−Critic网络基础上引入AS以精准捕捉核心特征,通过在线学习优化控制策略,建立了包含矿浆浓度、灰分、流量等关键参数的多维状态空间,设计了兼顾产品质量与药剂回收率的多目标奖励函数,直接通过智能体与环境的实时交互学习控制策略,能自适应捕捉过程动态特性,在实际浮选过程中保持稳定的控制效果。采集浮选工业现场的实时数据,经预处理后进行仿真实验,结果表明:相较于DDPG算法,AS−DDPG算法的训练误差降低27%,其奖励曲线收敛更快且波动幅度更小,有效策略比例提升2倍以上,表明其对高效药剂组合的探索更具方向性。工业性试验结果表明:相较于模糊PID与DDPG算法,AS−DDPG算法控制下的灰分标准差降至0.66,有效降低了浮选产品质量波动;捕收剂与起泡剂消耗分别优化至0.56,0.25 kg/t,表明基于AS−DDPG算法的智能控制器能以更低的药剂投入达到稳定分选的效果。 展开更多
关键词 煤泥浮选过程控制 模型深度强化学习 深度确定性策略梯度 注意力机制 Actor−Critic AS−DDPG
在线阅读 下载PDF
基于高斯回归的连续空间多智能体跟踪学习 被引量:2
12
作者 陈鑫 魏海军 +1 位作者 吴敏 曹卫华 《自动化学报》 EI CSCD 北大核心 2013年第12期2021-2031,共11页
提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟... 提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟踪式学习机制和算法(MAS MBRL-CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程(Markov decision process,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型.MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点. 展开更多
关键词 连续状态空间 多智能体系统 基于模型强化学习 高斯回归
在线阅读 下载PDF
基于时序差分学习的充电站有序充电方法 被引量:11
13
作者 江明 许庆强 季振亚 《电力工程技术》 北大核心 2021年第1期181-187,共7页
电动汽车有序充电是智能用电领域的重要议题。传统的模型驱动方法需对充电行为建模,但受相关参数的强随机性等影响,相关模型不能完全反映充电行为的不确定性。考虑到数据驱动下的无模型强化学习(MFRL)具有不依赖先验建模、适应强非线性... 电动汽车有序充电是智能用电领域的重要议题。传统的模型驱动方法需对充电行为建模,但受相关参数的强随机性等影响,相关模型不能完全反映充电行为的不确定性。考虑到数据驱动下的无模型强化学习(MFRL)具有不依赖先验建模、适应强非线性关系样本数据的优势,提出将其应用于充电站的有序充电负荷优化。针对性地构建以用户充电需求能否获得满足为状态的马尔可夫决策过程(MDP),并利用充电完成度指标和满意度惩罚项改进代价函数。具体采用增量式的时序差分学习(TDL)算法训练历史数据,以保证数据规模下的计算性能。算例以充电站实测数据为环境,结果表明,在无需对充电行为进行先验建模的情况下,所提方法能够准确、快速地制定充电站有序充电计划。 展开更多
关键词 电动汽车 有序充电 模型强化学习 数据驱动方法 马尔可夫决策过程(MDP)
在线阅读 下载PDF
一类供应链中考虑公平关切的学习效应行为实验研究 被引量:5
14
作者 陈俊霖 赵晓波 +1 位作者 宋亚楠 陈建铭 《运筹与管理》 CSSCI CSCD 北大核心 2015年第2期20-28,共9页
大量经济学实验研究证实了公平关切和学习效应对决策者行为的影响力。本文研究三人组供应链系统,通过区别设计个体自我学习以及社会学习的实验环境,对比考察备用供应商的公平关切程度,以及制造商和备用供应商学习曲线的特点。实验结果... 大量经济学实验研究证实了公平关切和学习效应对决策者行为的影响力。本文研究三人组供应链系统,通过区别设计个体自我学习以及社会学习的实验环境,对比考察备用供应商的公平关切程度,以及制造商和备用供应商学习曲线的特点。实验结果支持了学习效应存在的假设:随着实验期数的增加,单期决策时间逐渐减少,备用供应商的整体拒绝率逐渐降低,制造商的策略逐渐集中。进一步构建了引入公平关切的强化学习模型。通过参数估计发现在个体自我学习和社会学习实验环境下,备用供应商的横向公平关切程度均较为显著,信息共享对备用供应商的横向公平关切偏好无明显影响。 展开更多
关键词 管理科学与工程 学习效应 公平关切 斯坦克伯格博弈 强化学习模型
在线阅读 下载PDF
基于模型的功能磁共振成像方法研究综述 被引量:1
15
作者 陈富琴 张俊然 杨冰 《中国生物医学工程学报》 CAS CSCD 北大核心 2016年第3期340-347,共8页
基于模型的功能磁共振成像(f MRI)方法是新世纪以来在神经影像领域兴起的极具发展潜力的研究方法。相比传统的影像学方法,它可以深入探究特定的认知过程是如何在一个特定的脑区以及脑区环路中实现的,而不仅仅是标识某个任务活动的最终... 基于模型的功能磁共振成像(f MRI)方法是新世纪以来在神经影像领域兴起的极具发展潜力的研究方法。相比传统的影像学方法,它可以深入探究特定的认知过程是如何在一个特定的脑区以及脑区环路中实现的,而不仅仅是标识某个任务活动的最终激活脑区,并能揭示模型内部变量与神经影像数据之间的关联,为有效探测大脑功能活动提供重要手段。重点综述基于模型的f MRI方法的两类常用计算模型框架(单脑区建模包括强化学习模型和主观价值模型,脑区交互作用建模采用心理-生理交互作用模型),简述近年来该方法的应用状况和最新进展,并讨论该方法的不足及未来发展趋势。 展开更多
关键词 基于模型的功能磁共振成像方法 计算模型 强化学习模型 主观价值模型 心理-生理交互作用模型
在线阅读 下载PDF
人际互动中社会学习的计算神经机制 被引量:6
16
作者 黎穗卿 陈新玲 +3 位作者 翟瑜竹 张怡洁 章植鑫 封春亮 《心理科学进展》 CSSCI CSCD 北大核心 2021年第4期677-696,共20页
人类在社会互动中通过他人的行为对他人特质、意图及特定情境下的社会规范进行学习,是优化决策、维护积极社会互动的重要条件。近年来,越来越多的研究通过结合计算模型与神经影像技术对社会学习的认知计算机制及其神经基础进行了深入考... 人类在社会互动中通过他人的行为对他人特质、意图及特定情境下的社会规范进行学习,是优化决策、维护积极社会互动的重要条件。近年来,越来越多的研究通过结合计算模型与神经影像技术对社会学习的认知计算机制及其神经基础进行了深入考察。已有研究发现,人类的社会学习过程能够较好地被强化学习模型与贝叶斯模型刻画,主要涉及的认知计算过程包括主观期望、预期误差和不确定性的表征以及信息整合的过程。大脑对这些计算过程的执行主要涉及奖惩加工相关脑区(如腹侧纹状体与腹内侧前额叶)、社会认知加工相关脑区(如背内侧前额叶和颞顶联合区)及认知控制相关脑区(如背外侧前额叶)。需要指出的是,计算过程与大脑区域之间并不是一一映射的关系,提示未来研究可借助多变量分析与脑网络分析等技术从系统神经科学的角度来考察大尺度脑网络如何执行不同计算过程。此外,将来研究应注重生态效度,利用超扫描技术考察真实互动下的社会学习过程,并更多地关注内隐社会学习的计算与神经机制。 展开更多
关键词 社会学习 计算模型 神经影像 强化学习模型 贝叶斯模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部