期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于近端策略优化算法的带批处理机的混合流水车间在线调度方法
1
作者 柳再为 王明伟 +2 位作者 袁媛 刘齐浩 李新宇 《工业工程》 2025年第2期78-90,共13页
批处理机实现了连续的重叠操作,这对缩短生产周期、减少不必要的等待时间、提高生产能力具有重要意义。然而面对车间动态事件时,批处理机的工件类型加工选择会导致各工件完成时间产生不可避免的变化。因此,根据实时车间生产加工特征,自... 批处理机实现了连续的重叠操作,这对缩短生产周期、减少不必要的等待时间、提高生产能力具有重要意义。然而面对车间动态事件时,批处理机的工件类型加工选择会导致各工件完成时间产生不可避免的变化。因此,根据实时车间生产加工特征,自适应为批处理机选择合适的工件加工类型,以达到全部工件的拖期成本最小化是研究重点。本文研究一个带批处理机的混合流水车间调度问题,将其建模为马尔科夫决策过程,设计了结合工件加工信息和车间资源信息的工件资源多重实时特征,制定了工件选择规则和批处理机批处理选择规则。智能体根据决策点的实时特征,通过复合调度规则决定机器的加工工件及批处理的工件类型,构造了以工件拖期成本为基准的智能体奖励回报函数,通过近端策略优化算法对智能体的网络进行训练。在大量不同生产配置的实例上进行了数值实验。结果证实了所提算法与启发式方法相比的优越性和通用性。 展开更多
关键词 混合流水车间调度 策略优化算法 批处理机 马尔科夫决策
在线阅读 下载PDF
基于改进近端策略优化算法控制的应急无人机飞行控制系统研究
2
作者 王进月 尹存珍 +1 位作者 佀庆民 付帅 《科学技术创新》 2024年第14期27-30,共4页
为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准... 为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准确率均大于90%,最高准确率为92%,而k-NN算法的准确率在不同迭代次数上存在一定波动,最高准确率为90%,最低准确率仅为80%。且改进PPO算法和PPO算法的总计算时间成本基本相同,均为1 932.4 s,但改进PPO算法在训练过程中能使损失值收敛得更快。 展开更多
关键词 策略优化算法 维度裁剪技术 准确率 控制性能
在线阅读 下载PDF
基于改进型PPO算法的公寓安全预警模型
3
作者 周亚凤 崔艳春 《信息化研究》 2023年第6期15-20,共6页
随着城市化的加速和公寓建筑的快速增长,确保居民的安全已成为当务之急。本文深入探讨了基于改进型近端策略优化(PPO)算法的公寓安全预警模型的开发。引入了一种新的深度学习架构,作为实时分析和预测潜在安全威胁的核心技术。实验结果表... 随着城市化的加速和公寓建筑的快速增长,确保居民的安全已成为当务之急。本文深入探讨了基于改进型近端策略优化(PPO)算法的公寓安全预警模型的开发。引入了一种新的深度学习架构,作为实时分析和预测潜在安全威胁的核心技术。实验结果表明,改进后的PPO算法在准确性、效率和响应时间方面明显优于传统方法。此外,该系统能够及时提供警报,确保公寓居民的安全。本文不仅强调了深度学习在安全和安防应用中的潜力,而且为智能生活环境领域的未来发展奠定了基础。 展开更多
关键词 改进型近端策略优化算法 算法优化 公寓安全 预警
在线阅读 下载PDF
基于分布式近端策略优化的热力站优化控制
4
作者 谭梦媛 李琦 孟祥然 《信息技术与信息化》 2022年第9期28-31,共4页
随着科学技术的发展,人们的生活水平越来越高,在追求物质基础的同时,也越来越重视生活品质,因而对建筑冬季供暖的质量提出了越来越高的要求。基于此,根据供热站的需求分布和均匀性,提出了基于分布式近端策略优化(distributed proximal p... 随着科学技术的发展,人们的生活水平越来越高,在追求物质基础的同时,也越来越重视生活品质,因而对建筑冬季供暖的质量提出了越来越高的要求。基于此,根据供热站的需求分布和均匀性,提出了基于分布式近端策略优化(distributed proximal policy optimization,DPPO)的供热站一次侧优化控制方法。结合集中供热系统运行机制,采用长短时记忆算法(long short-term memory,LSTM)对供热站进行建模,采用DPPO算法求解供热站的一次水流序列。通过利用包头市供热站历史数据进行模拟实验,并检验其效率,在一定程度上掌握了供热站的供热需求,提高了供热利用率。 展开更多
关键词 分布式策略 热力站建模 集中供热系统 优化控制 长短时记忆算法
在线阅读 下载PDF
基于近端优化的永磁同步电机温度预测方法 被引量:2
5
作者 岑岗 张晨光 +2 位作者 岑跃峰 马伟锋 赵澄 《汽车技术》 CSCD 北大核心 2021年第3期26-32,共7页
为了精准有效地实现永磁同步电机的温度预测,提出了一种基于近端策略优化(PPO)算法和强化学习(RL)网络的永磁同步电机温度预测模型,即PPO-RL模型,利用PPO算法定义模型训练的损失目标函数,选择Nadam算法作为模型优化器,通过强化学习的Act... 为了精准有效地实现永磁同步电机的温度预测,提出了一种基于近端策略优化(PPO)算法和强化学习(RL)网络的永磁同步电机温度预测模型,即PPO-RL模型,利用PPO算法定义模型训练的损失目标函数,选择Nadam算法作为模型优化器,通过强化学习的Actor-Critic框架最小化损失目标函数,进而完成模型的迭代训练。采用Kaggle公开的永磁同步电机测量数据集进行试验,结果表明,与指数加权移动平均法、循环神经网络和长短期记忆网络相比,PPO-RL模型具有更高的预测精度和可靠性。 展开更多
关键词 永磁同步电机 温度预测 策略优化算法 强化学习
在线阅读 下载PDF
面向OODA作战流程的防空火力网端对端智能构建算法 被引量:1
6
作者 罗雨雨 丁伟 +4 位作者 明振军 李传浩 王国新 阎艳 王玉茜 《兵工学报》 EI CAS CSCD 北大核心 2024年第12期4231-4245,共15页
针对防空战场环境下目标数量多、装备协同难、体系反应拙的问题,提出一种面向侦测-整编-决策-打击(Observe-Orient-Decide-Act,OODA)作战流程的防空火力网端对端智能构建算法。围绕OODA作战流程,构建由情报网、指控网和火力网组成的防... 针对防空战场环境下目标数量多、装备协同难、体系反应拙的问题,提出一种面向侦测-整编-决策-打击(Observe-Orient-Decide-Act,OODA)作战流程的防空火力网端对端智能构建算法。围绕OODA作战流程,构建由情报网、指控网和火力网组成的防空体系框架,并基于此框架着力解决影响战场胜负关键的火力网智能构建;将拦截武器损毁目标建模为马尔可夫决策过程,并给出相应的状态空间、动作空间与奖励策略等;在此基础上,通过对标准端对端近端策略优化算法进行改进,提高模型精度和减少训练时间。以某防空反导联合区域作战场景为例,开展所提算法的评估验证。实验结果表明:所提方法相比于规则和启发式算法能够快速准确地生成防空火力网设计方案,尤其在同等大规模作战场景中的计算效率和作战成本方面具有更突出的优势,为作战体系全流程的杀伤网构建提供了基础。 展开更多
关键词 防空火力网 改进策略优化算法 OODA作战流程 战场态势 训练
在线阅读 下载PDF
信息年龄约束下的无人机数据采集能耗优化路径规划算法
7
作者 高思华 刘宝煜 +3 位作者 惠康华 徐伟峰 李军辉 赵炳阳 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第10期4024-4034,共11页
信息年龄(AoI)是评价无线传感器网络(WSN)数据时效性的重要指标,无人机辅助WSN数据采集过程中采用优化飞行轨迹、提升速度等运动策略保障卸载至基站的数据满足各节点AoI限制。然而,不合理的运动策略易导致无人机因飞行距离过长、速度过... 信息年龄(AoI)是评价无线传感器网络(WSN)数据时效性的重要指标,无人机辅助WSN数据采集过程中采用优化飞行轨迹、提升速度等运动策略保障卸载至基站的数据满足各节点AoI限制。然而,不合理的运动策略易导致无人机因飞行距离过长、速度过快产生非必要能耗,造成数据采集任务失败。针对该问题,该文首先提出信息年龄约束的无人机数据采集能耗优化路径规划问题并进行数学建模;其次,设计一种协同混合近端策略优化(CH-PPO)强化学习算法,同时规划无人机对传感器节点或基站的访问次序、悬停位置和飞行速度,在满足各传感器节点信息年龄约束的同时,最大限度地减少无人机能量消耗。再次,设计一种融合离散和连续策略的损失函数,增强CH-PPO算法动作的合理性,提升其训练效果。仿真实验结果显示,CH-PPO算法在无人机能量消耗以及影响该指标因素的比较中均优于对比的3种强化学习算法,并具有良好的收敛性、稳定性和鲁棒性。 展开更多
关键词 无线传感器网络 信息年龄约束 协同混合策略优化算法 无人机路径规划 深度强化学习
在线阅读 下载PDF
基于深度强化学习的离散状态转移算法求解柔性作业车间调度问题
8
作者 朱家政 王聪 +2 位作者 李新凯 董颖超 张宏立 《北京航空航天大学学报》 北大核心 2025年第4期1385-1394,共10页
柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到... 柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到FJSP需要同时对工序排序、机器分配同时进行调度安排,结合工序编码和机器编码,设计了一种能够充分表达当前调度问题的状态特征;针对工序排序、机器分配设计了多种基于关键路径的搜索操作;通过强化学习的训练,能够有效地引导智能体选择正确的搜索操作优化当前的调度序列。通过基于不同数据集的仿真实验,验证了算法各环节的有效性,同时在相同算例上以最小化最大完工时间为对比指标与现有算法进行了比较,对比结果表明了所提算法能够在多数算例上以更短的完工时间对算例完成求解,有效地求解了柔性作业车间调度问题。 展开更多
关键词 深度学习 强化学习 离散状态转移算法 策略优化算法 柔性作业车间调度
在线阅读 下载PDF
面向无人机集群察打场景的PPO算法设计 被引量:1
9
作者 李俊慧 张振华 +2 位作者 边疆 聂天常 车博山 《火力与指挥控制》 CSCD 北大核心 2024年第3期25-34,共10页
无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任... 无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任务决策的复杂性与战场环境不确定性。设计通用性较强的状态空间、奖励函数、动作空间和策略网络,其中,为捕捉多元态势信息,设计并处理了多种类型特征作为状态空间,同时设计与察打任务紧密相关的多种类型奖励;动作策略输出采取主谓宾的形式,更好表达复杂操作;策略网络设计了编码器-时序聚合-注意力机制-解码器结构,充分融合特征信息,促进了训练效果。基于近端策略优化算法(proximal policy optimization,PPO)的深度强化学习(deep reinforcement learning,DRL)进行求解。最后,通过仿真环境实验验证了无人机集群在复杂不确定条件下实现察打任务决策的可行性和有效性,展现了集群任务分配与运动规划的智能性。 展开更多
关键词 策略优化算法设计 任务分配 运动规划 侦察打击 决策
在线阅读 下载PDF
基于PPO的异构UUV集群任务分配算法 被引量:2
10
作者 董经纬 姚尧 +2 位作者 冯景祥 李亚哲 尤岳 《舰船科学技术》 北大核心 2024年第12期84-89,共6页
无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,... 无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,针对水下信息缺失、奖励稀少的问题,在近端策略优化算法的基础上加入Curiosity模块,给智能体一种减小环境中不确定性的期望,鼓励UUV探索环境中不可预测的部分,实现UUV集群的最优任务分配。最后的仿真实验表明,相较于传统智能算法,该方法收敛更快,可靠性更强。 展开更多
关键词 任务分配 策略优化算法 集群
在线阅读 下载PDF
强化学习算法在超视距空战辅助决策上的应用研究 被引量:15
11
作者 吴宜珈 赖俊 +2 位作者 陈希亮 曹雷 徐鹏 《航空兵器》 CSCD 北大核心 2021年第2期55-61,共7页
针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近... 针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近端策略分层优化算法能够驱动智能体在对抗过程中产生迂回攻击等战术行为,达到提升传统算法性能和提高空战博弈决策效率的目的。 展开更多
关键词 超视距空战 智能决策 人工智能 强化学习 策略优化算法 分层强化学习
在线阅读 下载PDF
基于深度强化学习的尾旋改出技术
12
作者 谭健美 王君秋 《航空兵器》 CSCD 北大核心 2024年第1期77-88,共12页
本文搭建了飞机仿真环境,基于近端策略优化(PPO)算法建立了尾旋改出算法测试模型,设计了基准版单阶段、基准版双阶段、加深版单阶段、加深版双阶段四种网络结构,用于探究网络结构和改出阶段对尾旋改出效果的影响,设置了鲁棒性测试试验,... 本文搭建了飞机仿真环境,基于近端策略优化(PPO)算法建立了尾旋改出算法测试模型,设计了基准版单阶段、基准版双阶段、加深版单阶段、加深版双阶段四种网络结构,用于探究网络结构和改出阶段对尾旋改出效果的影响,设置了鲁棒性测试试验,从时延、误差和高度等方面进行了算法测试和结果分析。 展开更多
关键词 尾旋改出 深度学习 强化学习 策略优化 算法测试 飞机
在线阅读 下载PDF
基于强化学习的空间机械臂控制方法 被引量:9
13
作者 李鹤宇 林廷宇 +1 位作者 曾贲 施国强 《航天控制》 CSCD 北大核心 2020年第6期38-43,共6页
针对现有空间机械臂控制方法在实际应用中调试时间长、稳定性差的问题,提出一种基于深度强化学习的控制算法。构建仿真环境用于产生数据,通过状态变量实现仿真环境与深度强化学习算法的交互,通过奖励函数实现对神经网络参数的训练,最终... 针对现有空间机械臂控制方法在实际应用中调试时间长、稳定性差的问题,提出一种基于深度强化学习的控制算法。构建仿真环境用于产生数据,通过状态变量实现仿真环境与深度强化学习算法的交互,通过奖励函数实现对神经网络参数的训练,最终实现使用近端策略优化算法(Proximal Policy Optimization,PPO)控制空间机械臂将抓手移动至物体下方特定位置的目的。实验结果表明,本文提出的控制算法能够快速收敛,实现控制空间机械臂完成特定目标,并且有效降低抖动现象,提升控制的稳定性。 展开更多
关键词 空间机械臂 神经网络 深度强化学习 策略优化算法(PPO)
在线阅读 下载PDF
信息非完备下多航天器轨道博弈强化学习方法 被引量:2
14
作者 王英杰 袁利 +2 位作者 汤亮 黄煌 耿远卓 《宇航学报》 EI CAS CSCD 北大核心 2023年第10期1522-1533,共12页
针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输... 针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输出结构进行设计,并引入具有记忆功能的长短期记忆网络(LSTM),根据航天器轨道运动在时间、空间连续的属性,补偿位置、速度测量信息的非完备性。然后采用近端策略优化(PPO)算法开展红蓝左右互搏式学习训练。最后通过三组对比训练实验,验证了所提出的方法在信息非完备约束下能够有效增强学习训练过程的稳定性,并提升任务完成率和降低燃料消耗。 展开更多
关键词 航天器 信息非完备 轨道博弈 多智能体强化学习 长短期记忆网络 策略优化算法
在线阅读 下载PDF
基于深度强化学习潜艇攻防对抗训练指挥决策研究 被引量:4
15
作者 郭洪宇 初阳 +1 位作者 刘志 周玉芳 《指挥控制与仿真》 2022年第1期103-111,共9页
潜艇和水面舰艇编队间的攻防对抗是潜艇作战研究的重点内容,如何确保潜艇在舰艇编队、反潜直升机等兵力的联合封锁下存活和突围,是对潜艇指挥决策的考验。为此,针对潜舰机博弈对抗场景,从深度强化学习和规则推理两个方面构建潜艇智能体... 潜艇和水面舰艇编队间的攻防对抗是潜艇作战研究的重点内容,如何确保潜艇在舰艇编队、反潜直升机等兵力的联合封锁下存活和突围,是对潜艇指挥决策的考验。为此,针对潜舰机博弈对抗场景,从深度强化学习和规则推理两个方面构建潜艇智能体,提出两种近端策略优化(Proximal Policy Optimization,PPO)算法改进机制,开展互博弈对抗和分布式训练,最终实现潜艇在对抗过程中的智能决策,相关技术路线和算法在兵棋对战平台上得到实施和验证,算法改进后的收敛速度和稳定性有了较大提升,可为潜艇智能指挥决策的研究提供技术参考。 展开更多
关键词 智能指挥决策 深度强化学习 策略优化算法 互博弈
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部