检索结果-维普期刊中文期刊服务平台

无模型强化学习研究综述被引量：36: 1; 作者秦智慧李宁 +3 位作者刘晓彤刘秀磊佟强刘旭红《计算机科学》 CSCD 北大核心 2021年第3期180-187,共8页; 强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)... 展开更多; 关键词人工智能强化学习深度强化学习无模型强化学习马尔可夫决策过程; 在线阅读下载PDF 职称材料

基于无模型深度强化学习的煤泥浮选智能控制研究: 2; 作者秦新凯王然风 +2 位作者付翔窦治衡李品钰《工矿自动化》北大核心 2025年第8期25-33,58,共10页; 在煤泥浮选工业现场中,传统基于机理模型的控制方法因其依赖近似模型,存在控制精度受限与泛化能力不足的问题。而经典无模型深度强化学习算法如深度确定性策略梯度(DDPG),在处理高维时变状态时易受无关变量干扰,难以精准捕捉核心特征,... 展开更多; 关键词煤泥浮选过程控制无模型深度强化学习深度确定性策略梯度注意力机制 Actor−Critic AS−DDPG; 在线阅读下载PDF 职称材料

潜在空间中的策略搜索强化学习方法被引量：1: 3; 作者赵婷婷王莹 +3 位作者孙威陈亚瑞王嫄杨巨成《计算机科学与探索》 CSCD 北大核心 2024年第4期1032-1046,共15页; 策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的... 展开更多; 关键词无模型强化学习策略模型状态表示动作表示连续动作空间策略搜索强化学习方法; 在线阅读下载PDF 职称材料

基于时序差分学习的充电站有序充电方法被引量：11: 4; 作者江明许庆强季振亚《电力工程技术》北大核心 2021年第1期181-187,共7页; 电动汽车有序充电是智能用电领域的重要议题。传统的模型驱动方法需对充电行为建模,但受相关参数的强随机性等影响,相关模型不能完全反映充电行为的不确定性。考虑到数据驱动下的无模型强化学习(MFRL)具有不依赖先验建模、适应强非线性... 展开更多; 关键词电动汽车有序充电无模型强化学习数据驱动方法马尔可夫决策过程(MDP); 在线阅读下载PDF 职称材料

题名无模型强化学习研究综述被引量：36: 1; 作者秦智慧李宁刘晓彤刘秀磊佟强刘旭红; 机构北京材料基因工程高精尖创新中心(北京信息科技大学) 北京信息科技大学数据与科学情报分析实验室中国科学院煤炭化学研究所煤转化国家重点实验室中科合成油技术有限公司国家能源煤基液体燃料研发中心中国科学院大学; 出处《计算机科学》 CSCD 北大核心 2021年第3期180-187,共8页; 基金国家重点研发计划(2018YFC0830202) 北京信息科技大学“勤信人才”培育计划项目(2020) +2 种基金北京市自然基金(4204100)。; 文摘强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning)。模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互。在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广。文中对无模型强化学习的最新研究进展与发展动态进行了综述。首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望。; 关键词人工智能强化学习深度强化学习无模型强化学习马尔可夫决策过程; Keywords Artificial intelligence Reinforcement learning Deep reinforcement learning Model-free reinforcement learning Mar-kov decision process; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于无模型深度强化学习的煤泥浮选智能控制研究: 2; 作者秦新凯王然风付翔窦治衡李品钰; 机构太原理工大学矿业工程学院; 出处《工矿自动化》北大核心 2025年第8期25-33,58,共10页; 基金国家自然科学基金项目(52274157) “科技兴蒙”行动重点专项项目(2022EEDSKJXM010)。; 文摘在煤泥浮选工业现场中,传统基于机理模型的控制方法因其依赖近似模型,存在控制精度受限与泛化能力不足的问题。而经典无模型深度强化学习算法如深度确定性策略梯度(DDPG),在处理高维时变状态时易受无关变量干扰,难以精准捕捉核心特征,导致策略稳定性下降。针对上述问题,提出一种基于融合注意力机制(AS)的无模型深度强化学习(AS−DDPG)的煤泥浮选智能控制方法。该方法采用AS−DDPG算法构建浮选智能控制器:以尾煤灰分为控制目标,在Actor−Critic网络基础上引入AS以精准捕捉核心特征,通过在线学习优化控制策略,建立了包含矿浆浓度、灰分、流量等关键参数的多维状态空间,设计了兼顾产品质量与药剂回收率的多目标奖励函数,直接通过智能体与环境的实时交互学习控制策略,能自适应捕捉过程动态特性,在实际浮选过程中保持稳定的控制效果。采集浮选工业现场的实时数据,经预处理后进行仿真实验,结果表明:相较于DDPG算法,AS−DDPG算法的训练误差降低27%,其奖励曲线收敛更快且波动幅度更小,有效策略比例提升2倍以上,表明其对高效药剂组合的探索更具方向性。工业性试验结果表明:相较于模糊PID与DDPG算法,AS−DDPG算法控制下的灰分标准差降至0.66,有效降低了浮选产品质量波动;捕收剂与起泡剂消耗分别优化至0.56,0.25 kg/t,表明基于AS−DDPG算法的智能控制器能以更低的药剂投入达到稳定分选的效果。; 关键词煤泥浮选过程控制无模型深度强化学习深度确定性策略梯度注意力机制 Actor−Critic AS−DDPG; Keywords coal slime flotation process control model-free deep reinforcement learning Deep Deterministic Policy Gradient Attention State Actor-Critic AS-DDPG; 分类号 TD923 [矿业工程—选矿]; 在线阅读下载PDF 职称材料

题名潜在空间中的策略搜索强化学习方法被引量：1: 3; 作者赵婷婷王莹孙威陈亚瑞王嫄杨巨成; 机构天津科技大学人工智能学院; 出处《计算机科学与探索》 CSCD 北大核心 2024年第4期1032-1046,共15页; 基金国家自然科学基金(61976156) 天津市企业科技特派员项目(20YDTPJC00560)。; 文摘策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。; 关键词无模型强化学习策略模型状态表示动作表示连续动作空间策略搜索强化学习方法; Keywords model-free reinforcement learning policy model state representations action representations continuous action space policy search reinforcement learning method; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于时序差分学习的充电站有序充电方法被引量：11: 4; 作者江明许庆强季振亚; 机构国网江苏省电力有限公司南京师范大学电气与自动化工程学院; 出处《电力工程技术》北大核心 2021年第1期181-187,共7页; 基金江苏省自然科学青年基金资助项目(BK20190710)。; 文摘电动汽车有序充电是智能用电领域的重要议题。传统的模型驱动方法需对充电行为建模,但受相关参数的强随机性等影响,相关模型不能完全反映充电行为的不确定性。考虑到数据驱动下的无模型强化学习(MFRL)具有不依赖先验建模、适应强非线性关系样本数据的优势,提出将其应用于充电站的有序充电负荷优化。针对性地构建以用户充电需求能否获得满足为状态的马尔可夫决策过程(MDP),并利用充电完成度指标和满意度惩罚项改进代价函数。具体采用增量式的时序差分学习(TDL)算法训练历史数据,以保证数据规模下的计算性能。算例以充电站实测数据为环境,结果表明,在无需对充电行为进行先验建模的情况下,所提方法能够准确、快速地制定充电站有序充电计划。; 关键词电动汽车有序充电无模型强化学习数据驱动方法马尔可夫决策过程(MDP); Keywords electric vehicle coordinated charging model-free reinforcement learning data-driven approach Markov decision process(MDP); 分类号 TM76 [电气工程—电力系统及自动化]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	无模型强化学习研究综述	秦智慧李宁刘晓彤刘秀磊佟强刘旭红	《计算机科学》 CSCD 北大核心	2021	36	在线阅读下载PDF 职称材料
2	基于无模型深度强化学习的煤泥浮选智能控制研究	秦新凯王然风付翔窦治衡李品钰	《工矿自动化》北大核心	2025	0	在线阅读下载PDF 职称材料
3	潜在空间中的策略搜索强化学习方法	赵婷婷王莹孙威陈亚瑞王嫄杨巨成	《计算机科学与探索》 CSCD 北大核心	2024	1	在线阅读下载PDF 职称材料
4	基于时序差分学习的充电站有序充电方法	江明许庆强季振亚	《电力工程技术》北大核心	2021	11	在线阅读下载PDF 职称材料