期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于逆向强化学习的舰载机甲板调度优化方案生成方法 被引量:21
1
作者 李耀宇 朱一凡 +1 位作者 杨峰 贾全 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第4期171-175,共5页
针对计算机辅助指挥调度舰载机甲板作业的决策过程无法脱离人参与这一特点,引入基于逆向学习的强化学习方法,将指挥员或专家的演示作为学习对象,通过分析舰载机的甲板活动,建立舰载机甲板调度的马尔可夫决策模型(MDP)框架;经线性近似,... 针对计算机辅助指挥调度舰载机甲板作业的决策过程无法脱离人参与这一特点,引入基于逆向学习的强化学习方法,将指挥员或专家的演示作为学习对象,通过分析舰载机的甲板活动,建立舰载机甲板调度的马尔可夫决策模型(MDP)框架;经线性近似,采用逆向学习方法计算得到回报函数,从而能够通过强化学习方法得到智能优化策略,生成舰载机甲板调度方案。经仿真实验验证,本文所提方法能够较好地学习专家演示,结果符合调度方案优化需求,为形成辅助决策提供了基础。 展开更多
关键词 逆向强化学习 强化学习 舰载机甲板调度 优化方案生成
在线阅读 下载PDF
基于逆向强化学习的纵向自动驾驶决策方法 被引量:10
2
作者 高振海 闫相同 高菲 《汽车工程》 EI CSCD 北大核心 2022年第7期969-975,共7页
基于人类驾驶员数据获得自动驾驶决策策略是当前自动驾驶技术研究的热点。经典的强化学习决策方法大多通过设计安全性、舒适性、经济性相关公式人为构建奖励函数,决策策略与人类驾驶员相比仍然存在较大差距。本文中使用最大边际逆向强... 基于人类驾驶员数据获得自动驾驶决策策略是当前自动驾驶技术研究的热点。经典的强化学习决策方法大多通过设计安全性、舒适性、经济性相关公式人为构建奖励函数,决策策略与人类驾驶员相比仍然存在较大差距。本文中使用最大边际逆向强化学习算法,将驾驶员驾驶数据作为专家演示数据,建立相应的奖励函数,并实现仿驾驶员的纵向自动驾驶决策。仿真测试结果表明:相比于强化学习方法,逆向强化学习方法的奖励函数从驾驶员的数据中自动化的提取,降低了奖励函数的建立难度,得到的决策策略与驾驶员的行为具有更高的一致性。 展开更多
关键词 自动驾驶 决策算法 强化学习 逆向强化学习
在线阅读 下载PDF
基于深度逆向强化学习的城市车辆路径链重构 被引量:1
3
作者 王福建 程慧玲 +1 位作者 马东方 王殿海 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第7期120-128,共9页
随着城市交通监测系统的完善,大量车牌识别数据被存储下来,该类数据具有时间连续性强、空间范围广、样本类型多的优点,为研究城市交通提供了信息基础。但受制于成本和技术,信息采集过程中采集的车牌数据在时空上并不连续,导致车牌识别... 随着城市交通监测系统的完善,大量车牌识别数据被存储下来,该类数据具有时间连续性强、空间范围广、样本类型多的优点,为研究城市交通提供了信息基础。但受制于成本和技术,信息采集过程中采集的车牌数据在时空上并不连续,导致车牌识别数据的应用受限。有鉴于此,文中提出一套路径链提取方案,对单次出行的完整路径链和缺失路径链加以区分,并提出了一种基于深度逆向强化学习的城市车辆出行路径链重构算法。该算法对完整路径链进行采样获得专家示例,利用深度逆向强化学习挖掘专家示例,以非线性回报函数的形式拟合出潜藏的路径选择特性,指导智能体自主补全缺失的路径链,实现车辆出行缺失路径链的重构。将该算法在杭州市萧山区的局部路网中进行实验验证,结果表明,所提出的重构算法具有良好的稳定性能,其平均准确度可达95%,且在缺失程度较大的情况下准确度仍能保持在92%以上,相比传统算法具有较大优势。文中还分析了专家示例的位置分布和数量对算法性能的影响,验证了所提出的重构算法的泛化能力。 展开更多
关键词 城市道路网络 车牌识别 深度逆向强化学习 数据处理 路径链重构
在线阅读 下载PDF
基于逆向强化学习的装船时堆场翻箱智能决策 被引量:8
4
作者 张艳伟 蔡梦蝶 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第10期1417-1425,共9页
集装箱码头装船时堆场翻箱具有时序性与动态性,属于NP(non-deterministic polynomial)难问题。针对常见的顺岸式集装箱码头堆场,以最小化总翻箱次数为优化目标,考虑翻箱对装船连续性及效率的影响,基于马尔科夫决策过程构建装船时堆场翻... 集装箱码头装船时堆场翻箱具有时序性与动态性,属于NP(non-deterministic polynomial)难问题。针对常见的顺岸式集装箱码头堆场,以最小化总翻箱次数为优化目标,考虑翻箱对装船连续性及效率的影响,基于马尔科夫决策过程构建装船时堆场翻箱模型,设计逆向强化学习算法。为验证算法的有效性,以随机决策为基准,将设计的逆向强化学习算法与码头常见规则决策、随机决策对比。结果表明,贝位堆存状态不佳时,常见的规则决策不一定优于随机决策;逆向强化学习算法可有效挖掘隐含专家经验,收敛至最小翻箱次数的概率更高,且不同堆存状态下均能更好地限制单次发箱的翻箱次数,可实现装船时堆场翻箱智能决策。 展开更多
关键词 集装箱码头 堆场翻箱 智能决策 马尔科夫决策过程 逆向强化学习
在线阅读 下载PDF
基于逆向强化学习的铁路线路方案优选研究 被引量:8
5
作者 马青松 朱颖 +3 位作者 高天赐 罗圆 何庆 王平 《铁道建筑》 北大核心 2023年第7期1-7,共7页
铁路线路方案评价及比选多采用组合赋权法,其主观赋权过程计算冗杂。选取具备一定程度普适性的专家案例,采用最大熵逆向强化学习方法从专家案例中学习主观赋权“知识”,得到专家案例隐藏的“奖励”,从而获取可解释性的主观权重。将此主... 铁路线路方案评价及比选多采用组合赋权法,其主观赋权过程计算冗杂。选取具备一定程度普适性的专家案例,采用最大熵逆向强化学习方法从专家案例中学习主观赋权“知识”,得到专家案例隐藏的“奖励”,从而获取可解释性的主观权重。将此主观权重与离差法所得客观权重组合并投入后续TOPSIS(Technique for Order Preference by Similarity to Ideal Solution)评价流程,对线路方案进行最终评价。结合具体实例,建立设计阶段绿色铁路的评价指标体系。结果表明:该方法可以有效计算铁路线路方案评价的量化指标,减小现有赋权方法的计算复杂度,取得较好的评价效果,与真实案例比选结果一致。通过讨论该方法的适用性、局限性及原因,确定该方法在初步评价和泛用性评价中的定位。 展开更多
关键词 铁路选线 方案决策 评价模型 最大熵逆向强化学习 TOPSIS 绿色铁路
在线阅读 下载PDF
逆向强化学习研究综述 被引量:2
6
作者 张立华 刘全 +1 位作者 黄志刚 朱斐 《软件学报》 EI CSCD 北大核心 2023年第10期4772-4803,共32页
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家... 逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向. 展开更多
关键词 逆向强化学习 模仿学习 生成对抗模仿学习 逆向最优控制 强化学习
在线阅读 下载PDF
结合逆向强化学习与强化学习的晶圆批处理设备调度方法 被引量:3
7
作者 王卓君 张朋 张洁 《计算机集成制造系统》 EI CSCD 北大核心 2023年第11期3738-3749,共12页
针对晶圆批处理设备调度问题,以最小化生产周期为优化目标,考虑晶圆动态到达、重入加工与不兼容性约束等特点,提出了结合逆向强化学习与强化学习(combine Inverse Reinforcement Learning and Reinforcement Learning,IRL-RL)的晶圆批... 针对晶圆批处理设备调度问题,以最小化生产周期为优化目标,考虑晶圆动态到达、重入加工与不兼容性约束等特点,提出了结合逆向强化学习与强化学习(combine Inverse Reinforcement Learning and Reinforcement Learning,IRL-RL)的晶圆批处理设备调度优化方法。根据批处理设备的加工特性,将问题分解为组批和批次指派两个子问题;由于子问题内部复杂的关联特性使晶圆批处理设备调度内部机理不明,且全局奖励函数设计困难,引入逆向强化学习指导奖励函数的设计;针对晶圆lot的重入加工特性,设计期望流动时间与剩余等待时间关键状态变量;批次指派智能体兼顾考虑任务的紧急程度与工艺类型切换带来的差异生产准备时间进行综合决策,满足批处理设备工艺类型的不兼容性约束;通过设计奖励函数关键参数的非线性特征,解释晶圆lot剩余加工层数与期望流动时间之间的复杂流变关系。24组标准算例的实验数据表明,IRL-RL算法的优化结果与计算效率优于一般强化学习算法和较优规则等方法;经企业实例数据验证,晶圆的生产周期缩短了15%。 展开更多
关键词 晶圆批处理调度 并行批处理机 动态调度 逆向强化学习 强化学习 生产周期 重入加工
在线阅读 下载PDF
深度逆向强化学习研究综述 被引量:19
8
作者 陈希亮 曹雷 +2 位作者 何明 李晨溪 徐志雄 《计算机工程与应用》 CSCD 北大核心 2018年第5期24-35,共12页
深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学... 深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法;然后对深度逆向强化学习的一些前沿方向进行了综述,包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。 展开更多
关键词 深度学习 强化学习 深度逆向强化学习
在线阅读 下载PDF
基于逆向强化学习的无人机路径规划 被引量:3
9
作者 杨秀霞 王晨蕾 +2 位作者 张毅 于浩 姜子劼 《电光与控制》 CSCD 北大核心 2023年第8期1-7,共7页
为了解决深度确定性策略梯度(DDPG)算法在规划无人机(UAV)安全避障路径时收敛速度慢、奖励函数设置困难等问题,基于逆向强化学习提出了一种融合专家演示轨迹的UAV路径规划算法。首先,基于模拟器软件采集专家操纵UAV避障的演示轨迹数据集... 为了解决深度确定性策略梯度(DDPG)算法在规划无人机(UAV)安全避障路径时收敛速度慢、奖励函数设置困难等问题,基于逆向强化学习提出了一种融合专家演示轨迹的UAV路径规划算法。首先,基于模拟器软件采集专家操纵UAV避障的演示轨迹数据集;其次,采用混合采样机制,在自探索数据中融合高质量专家演示轨迹数据更新网络参数,以降低算法探索成本;最后,根据最大熵逆向强化学习算法求解专家经验中隐含的最优奖励函数,解决了复杂任务中奖励函数设置困难的问题。对比实验结果表明,改进后的算法能有效提升算法训练效率且避障性能更优。 展开更多
关键词 无人机 路径规划 逆向强化学习 深度确定性策略梯度
在线阅读 下载PDF
基于逆强化学习的混合动力汽车能量管理策略研究 被引量:7
10
作者 齐春阳 宋传学 +3 位作者 宋世欣 靳立强 王达 肖峰 《汽车工程》 EI CSCD 北大核心 2023年第10期1954-1964,1974,共12页
能量管理策略是混合动力汽车关键技术之一。随着计算能力与硬件设备的不断升级,越来越多的学者逐步开展了基于学习的能量管理策略的研究。在基于强化学习的混合动力汽车能量管理策略研究中,智能体与环境相互作用的导向是由奖励函数决定... 能量管理策略是混合动力汽车关键技术之一。随着计算能力与硬件设备的不断升级,越来越多的学者逐步开展了基于学习的能量管理策略的研究。在基于强化学习的混合动力汽车能量管理策略研究中,智能体与环境相互作用的导向是由奖励函数决定。然而,目前的奖励函数设计多数是主观决定或者根据经验得来的,很难客观地描述专家的意图,所以在该条件不能保证智能体在给定奖励函数下学习到最优驾驶策略。针对这些问题,本文提出了一种基于逆向强化学习的能量管理策略,通过逆向强化学习的方法获取专家轨迹下的奖励函数权值,并用于指导发动机智能体和电池智能体的行为。之后将修改后的权重重新输入正向强化学习训练。从油耗值、SOC变化曲线、奖励训练过程、动力源转矩等方面,验证该权重值的准确性以及在节油能力方面具有一定的优势。综上所述,该算法的节油效果提高了5%~10%。 展开更多
关键词 混合动力汽车 最大熵逆向强化学习 能量管理策略 正向强化学习
在线阅读 下载PDF
深度强化学习研究综述 被引量:66
11
作者 杨思明 单征 +1 位作者 丁煜 李刚伟 《计算机工程》 CAS CSCD 北大核心 2021年第12期19-29,共11页
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究... 深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。 展开更多
关键词 深度学习 强化学习 深度强化学习 逆向强化学习 基于模型的元学习
在线阅读 下载PDF
基于余弦相似度的多模态模仿学习方法 被引量:9
12
作者 郝少璞 刘全 +2 位作者 徐平安 张立华 黄志刚 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1358-1372,共15页
生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而... 生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用.针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法(multi-modal imitation learning method with cosine similarity,MCS-GAIL).该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略.此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略.在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛性.为了验证方法的有效性,将MCS-GAIL用于格子世界和MuJoCo平台上,并与现有模式塌缩方法进行比较.实验结果表明,MCS-GAIL在所有环境中均能有效学习到多个模态策略,且具有较高的准确性和稳定性. 展开更多
关键词 逆向强化学习 生成对抗模仿学习 多模态 模式塌缩 余弦相似度
在线阅读 下载PDF
基于创意序列学习的艺术风格学习与绘制系统 被引量:3
13
作者 谢宁 赵婷婷 +2 位作者 杨阳 魏琴 Heng Tao SHEN 《软件学报》 EI CSCD 北大核心 2018年第4期1071-1084,共14页
在众多传统艺术绘画形式中,笔触是被现代计算机绘画工具(GIMP、Photoshop和Painter)普遍采用的形式之一.创新性地提出了服务于非真实感渲染AI辅助艺术创作系统(A4).系统能够实现自动生成特定艺术家风格的笔触效果.该系统在强化学习框架... 在众多传统艺术绘画形式中,笔触是被现代计算机绘画工具(GIMP、Photoshop和Painter)普遍采用的形式之一.创新性地提出了服务于非真实感渲染AI辅助艺术创作系统(A4).系统能够实现自动生成特定艺术家风格的笔触效果.该系统在强化学习框架下,主要进行以下研究工作:(1)提出基于PGPE的正则化策略学习方法以提高风格学习过程的稳定性;(2)利用IRL(inverse reinforcement learning)算法实现了艺术风格行为的模型化及其数字化保护方法.实验结果表明,所提方法行之有效地实现了针对具体个性风格的照片水墨画艺术风格转化. 展开更多
关键词 多媒体信息处理 序列数据分析 图像风格化 基于笔触的合成 逆向强化学习 策略探索
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部