期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于在线强化学习算法的救护车智能调控模型
1
作者 张雷 张雪超 +1 位作者 王超 薄祥雷 《系统仿真学报》 北大核心 2025年第3期584-594,共11页
在利用救护车开展伤员后送的应急场景中,需要充分协调救护车的救援能力和场景中伤员的实时状态才能取得最佳的救援效果。此类问题一般是非确定性多项式问题,采用传统的确定性调度算法效果较差,针对此场景建立了一套在线强化学习DQN算法... 在利用救护车开展伤员后送的应急场景中,需要充分协调救护车的救援能力和场景中伤员的实时状态才能取得最佳的救援效果。此类问题一般是非确定性多项式问题,采用传统的确定性调度算法效果较差,针对此场景建立了一套在线强化学习DQN算法框架,并训练了对应的智能体用于实时在线调度。为解决应急场景可重复性差,学习样本积累速度低导致智能体训练缓慢的问题,在传统DQN算法的基础上提出了结合数据增强方法的DA-DQN方法。结果表明:几种经典的DQN方法都可以在线训练获得一个智能体,取得比确定性算法更优的调度效果。经典“先到先得”算法调度取得的救治失败率大约为45.4%,而DQN智能体收敛后的救治失败率大约为25%,且DA-DQN方法的智能体训练速度远快于传统DQN类方法,展现了此方法用于实际应急救援场景的潜力。 展开更多
关键词 应急场景 救护车后送 在线强化学习 数据增强 行动调控优化
在线阅读 下载PDF
基于在线强化学习的风电系统自适应负荷频率控制 被引量:24
2
作者 杨丽 孙元章 +2 位作者 徐箭 廖思阳 彭刘阳 《电力系统自动化》 EI CSCD 北大核心 2020年第12期74-83,共10页
大规模风电接入给系统带来新的不确定性,影响系统频率响应特性,从数据驱动的角度出发,提出了一种基于自适应动态模型的在线强化学习方法,用于系统的负荷频率控制。建立低秩自编码器特征提取网络,从所量测的低维数据中发现隐藏特征;基于... 大规模风电接入给系统带来新的不确定性,影响系统频率响应特性,从数据驱动的角度出发,提出了一种基于自适应动态模型的在线强化学习方法,用于系统的负荷频率控制。建立低秩自编码器特征提取网络,从所量测的低维数据中发现隐藏特征;基于特征网络,建立非线性动态系统稀疏辨识学习模型,感知系统动态模型的潜在物理状态,提升模型在线学习效率;通过结合模型预测控制,进行实时决策控制。所提出方法能够有效解决传统模型预测控制对系统全局模型准确性的依赖问题,加强控制器对系统动态模型的自适应性,且能有效跟踪风电输出功率的随机波动。最后,以接入四型风机的负荷频率控制模型为例,验证所提方法的有效性。 展开更多
关键词 负荷频率控制 低秩自编码器 非线性动态系统稀疏辨识 模型预测控制 在线强化学习
在线阅读 下载PDF
齿轮表面的在线强化研究 被引量:2
3
作者 蒋松 程西云 +2 位作者 余红华 陈国需 陈波水 《润滑与密封》 EI CAS CSCD 北大核心 2000年第6期30-32,共3页
根据现有的齿轮表面处理技术 ,提出了齿轮表面的在线强化新构思 ,进而得出齿轮在线强化设计的方法。按此方法 ,在CL - 10 0齿轮实验机上实现了齿轮表面的在线强化 。
关键词 在线强化 齿轮表面 摩擦化学 摩擦扩散
在线阅读 下载PDF
齿轮传动副在线强化的实验研究 被引量:1
4
作者 曹兴进 韦云隆 谢江华 《现代制造工程》 CSCD 北大核心 2003年第2期7-9,共3页
齿轮试件的模数为 1.75 ,齿数分别为 3 2和 17,材料为 2 0CrMo ,分别选用平均粒径在 2 μm以下的超细无机硼酸盐添加剂配制的润滑油及普通矿物油ISOVG68润滑齿轮副 ,由自制的齿轮实验台上的实验结果表明 ,选用加有超细无机硼酸盐添加剂... 齿轮试件的模数为 1.75 ,齿数分别为 3 2和 17,材料为 2 0CrMo ,分别选用平均粒径在 2 μm以下的超细无机硼酸盐添加剂配制的润滑油及普通矿物油ISOVG68润滑齿轮副 ,由自制的齿轮实验台上的实验结果表明 ,选用加有超细无机硼酸盐添加剂的润滑油时 ,齿轮副抗剥落能力大大提高。 展开更多
关键词 齿轮传动副 在线强化 实验研究 硼酸盐 渗透 改性层 齿轮油
在线阅读 下载PDF
摩擦表面在线强化的实验研究
5
作者 李晓涛 陈国需 蒋松 《润滑与密封》 CAS CSCD 北大核心 2003年第5期22-24,共3页
本文用纯的硼酸三丙酯在四球机摩擦磨损试验机上进行了摩擦表面在线强化的实验 。
关键词 摩擦表面 在线强化 硼酸三丙酯 四球机摩擦磨损试验机 实验研究 渗透层 摩擦化学
在线阅读 下载PDF
DPC-DQRL:动态行为克隆约束的离线-在线双Q值强化学习
6
作者 闫雷鸣 刘健 朱永昕 《计算机应用研究》 北大核心 2025年第4期1003-1010,共8页
离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃;后者由于保留离线约束导致性能提升缓慢,影响训练效率。为了改善上述问题,可视... 离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃;后者由于保留离线约束导致性能提升缓慢,影响训练效率。为了改善上述问题,可视化对比分析两类方法的微调过程,发现不准确的Q值估计是影响性能的主要原因,并提出了一种动态策略约束的双Q值强化学习算法(DPC-DQRL)。首先,该算法设计了遵循记忆遗忘规律的动态行为克隆约束,在微调过程中动态调整约束强度;其次,构建离线-在线双Q值网络,引入离线动作价值网络参与Q值估计,提高微调过程中Q值的准确性。在Gym仿真平台使用MuJoCo物理引擎进行了Halfcheetah、Hopper、Walker2D三个经典仿真任务,使用DPC-DQRL算法微调后性能比原预训练模型分别提升47%、63%、20%,所有任务的平均归一化得分比最优基线算法提升10%。实验结果表明,DPC-DQRL在提升模型性能的同时保证了模型的稳定,与其他算法相比具有一定的优越性。 展开更多
关键词 深度强化学习 离线-在线强化学习 动态策略约束 Q值估计
在线阅读 下载PDF
界面摩擦渗透的数学模型
7
作者 李晓涛 陈国需 郭小川 《石油学报(石油加工)》 EI CAS CSCD 北大核心 2009年第B09期32-38,共7页
以100%的硼酸三丙酯作为强化剂,通过分析强化剂功能元素的扩散和渗透的条件、过程和机理,建立了扩散渗透的数学模型,并对数学模型进行了分析,从而得到有利于摩擦渗透的各种条件、摩擦副强化剂的选择、强化剂浓度的确定以及进行强化的工... 以100%的硼酸三丙酯作为强化剂,通过分析强化剂功能元素的扩散和渗透的条件、过程和机理,建立了扩散渗透的数学模型,并对数学模型进行了分析,从而得到有利于摩擦渗透的各种条件、摩擦副强化剂的选择、强化剂浓度的确定以及进行强化的工况,为以后的理论和实验研究建立起桥梁,使摩擦副有可能实现在线强化,并在此基础上完善在线强化理论。 展开更多
关键词 表面膜 摩擦渗透 摩擦化学反应 数学模型 在线强化
在线阅读 下载PDF
多伺服电机智能化协调容错轨迹跟踪控制系统设计 被引量:5
8
作者 朱俊威 顾曹源 +2 位作者 王鼎 张文安 王鑫 《控制理论与应用》 EI CAS CSCD 北大核心 2021年第7期1023-1032,共10页
针对一类具有执行器、传感器故障的多伺服电机控制系统,设计了相应的多伺服电机智能化协调容错轨迹跟踪控制系统.首先,提出了一种新结构的分布式中间估计器,修改了其设计结构,提高了估计方案的可行性.其次,通过在线强化学习估计策略,可... 针对一类具有执行器、传感器故障的多伺服电机控制系统,设计了相应的多伺服电机智能化协调容错轨迹跟踪控制系统.首先,提出了一种新结构的分布式中间估计器,修改了其设计结构,提高了估计方案的可行性.其次,通过在线强化学习估计策略,可以显著提高估计性能,其核心是自适应切换机制与源故障模式定位功能块的集成,并根据估计值设计了协调容错轨迹跟踪控制器.同时,设计了可视化人机交互操作界面,可将伺服电机的实时位置、速度、相应的位置、速度估计值及控制性能等信息反馈至监控中心.操作人员可随时调节伺服输入,完成任务调整,可有效提升系统实用性.多伺服电机控制系统的实验结果验证了所提方法的有效性及优越性. 展开更多
关键词 多伺服电机 协调容错轨迹跟踪控制 智能化 在线强化学习估计策略 人机交互
在线阅读 下载PDF
水面无人艇自适应危险规避决策过程收敛性分析 被引量:7
9
作者 张汝波 唐平鹏 +2 位作者 杨歌 李雪耀 史长亭 《计算机研究与发展》 EI CSCD 北大核心 2014年第12期2644-2652,共9页
水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法... 水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法为基础,提出了USV在复杂海况下的自适应危险规避决策模型,并以渐进贪心策略作为行为探索策略,证明了USV自适应危险规避决策过程能够以概率1收敛到最优行为策略.论证结果表明,采用在线策略强化学习算法提升USV在复杂海况下的危险规避性能是可行的. 展开更多
关键词 水面无人艇 复杂海况 Sarsa在线策略强化学习 自适应危险规避决策过程 渐进贪心策略
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部