期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于改进H-AC算法的冷源系统节能优化控制策略 被引量:1
1
作者 周璇 莫浩华 闫军威 《华南理工大学学报(自然科学版)》 北大核心 2025年第1期21-31,共11页
中央空调冷源设备台数与运行参数的优化是一类离散与连续变量的协同优化问题,而经典强化学习算法难以优化此类问题。为此,该文提出了一种结合选项-评论者与演员-评论者框架的中央空调冷源系统节能优化控制策略。首先,采用分层演员-评论... 中央空调冷源设备台数与运行参数的优化是一类离散与连续变量的协同优化问题,而经典强化学习算法难以优化此类问题。为此,该文提出了一种结合选项-评论者与演员-评论者框架的中央空调冷源系统节能优化控制策略。首先,采用分层演员-评论者(H-AC)算法分层优化设备台数与运行参数,且高层和底层模型共用Q网络评估状态价值,以解决多时间尺度下的优化难题;然后,在智能体架构、策略与网络更新方式等方面对H-AC算法进行改进,以加速智能体的收敛;最后,以夏热冬暖地区某科研办公建筑中央空调冷源系统为研究对象,基于冷源系统TRNSYS仿真平台进行实验。结果表明:在平均室内舒适时间占比分别增加14.08、11.23、29.70、9.07个百分比的前提下,基于改进H-AC算法的系统能耗分别比其他4种常规深度强化学习算法减少了32.28%、28.55%、28.63%、11.53%;虽然基于改进H-AC算法的系统能耗比基于选项-评论者框架的算法增加了0.27%,但获得了更平稳的学习过程且平均室内舒适时间占比增加了4.8个百分点。该文算法可为各类建筑中央空调冷源系统节能优化提供有效的技术手段,助力建筑“双碳”目标的实现。 展开更多
关键词 冷源系统 TRNSYS仿真平台 深度分层强化学习 选项-评论者框架 协同优化
在线阅读 下载PDF
基于KP-DDPG的矿山运载机器人路径规划实验平台设计 被引量:1
2
作者 杨健健 程琪 +2 位作者 章腾 黄先诚 韩子毅 《实验技术与管理》 北大核心 2025年第1期143-151,共9页
针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改... 针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改变了随机采样经验池策略,建立积极经验重放缓冲区,优先采样时序差分误差大的样本进行训练。在仿真平台上比较了传统路径规划算法与所提算法的性能,结果表明KP-DDPG算法可以有效地克服DDPG方法训练周期长、路径规划技术差等缺点。同时设计了基于数字孪生的矿山无人运输仿真系统,在数字孪生仿真平台上验证了规划路径转角的合理性。 展开更多
关键词 路径规划 强化学习 KP-DDPG 数字孪生仿真平台
在线阅读 下载PDF
深度强化学习在导弹弹道规划中的应用
3
作者 张敬 李彤 +2 位作者 李建锋 谭立国 张士峰 《国防科技大学学报》 北大核心 2025年第3期109-118,共10页
针对导弹弹道规划问题,搭建了适用性的Gym训练环境,基于双延迟深度确定性策略梯度框架设计了智能体网络结构,根据终端约束和过程约束设计奖励函数,形成了智能弹道规划方法。通过部署于嵌入式GPU计算加速平台,进行了拉偏仿真和对比测试,... 针对导弹弹道规划问题,搭建了适用性的Gym训练环境,基于双延迟深度确定性策略梯度框架设计了智能体网络结构,根据终端约束和过程约束设计奖励函数,形成了智能弹道规划方法。通过部署于嵌入式GPU计算加速平台,进行了拉偏仿真和对比测试,结果表明:该方法在不同射程任务要求下能够满足导弹能力和过程约束,有效克服环境干扰,具有针对不同对象模型的适应性。同时,该方法计算速度极快,远超流行的GPOPS-Ⅱ工具箱,单步弹道指令计算用时在ms以下,能够支持实时在线弹道生成,为工程应用提供了有效实现途径和技术支撑。 展开更多
关键词 弹道规划 深度强化学习 导弹 嵌入式GPU平台
在线阅读 下载PDF
基于多智能体深度强化学习的无人平台箔条干扰末端防御动态决策方法
4
作者 李传浩 明振军 +4 位作者 王国新 阎艳 丁伟 万斯来 丁涛 《兵工学报》 北大核心 2025年第3期19-33,共15页
无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应... 无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应能力差和决策速度慢等问题,提出基于多智能体深度强化学习的箔条干扰末端防御动态决策方法:对多平台协同进行箔条干扰末端防御的问题进行定义并构建仿真环境,建立导弹制导与引信模型、无人干扰平台机动模型、箔条扩散模型和质心干扰模型;将质心干扰决策问题转化为马尔科夫决策问题,构建决策智能体,定义状态、动作空间并设置奖励函数;通过多智能体近端策略优化算法对决策智能体进行训练。仿真结果显示,使用训练后的智能体进行决策,相比多智能体深度确定性策略梯度算法,训练时间减少了85.5%,资产保护成功率提升了3.84倍,相比遗传算法,决策时长减少了99.96%,资产保护成功率增加了1.12倍。 展开更多
关键词 无人平台 质心干扰 箔条干扰 末端防御 多智能体强化学习 电子对抗
在线阅读 下载PDF
分布式强化学习实践教学平台
5
作者 董帅 梁晓滢 李悦乔 《实验技术与管理》 北大核心 2025年第3期161-166,共6页
强化学习是一种通过智能体与环境交互来学习策略的机器学习方法,在自动驾驶、机器人控制、游戏智能NPC等多个领域展现出强大的应用潜力。针对这些强化学习实践教学中存在的算法理解难度大、硬件需求高、训练时间长等问题,该文开发了一... 强化学习是一种通过智能体与环境交互来学习策略的机器学习方法,在自动驾驶、机器人控制、游戏智能NPC等多个领域展现出强大的应用潜力。针对这些强化学习实践教学中存在的算法理解难度大、硬件需求高、训练时间长等问题,该文开发了一个分布式强化学习实践教学平台,分别在教师机和学生机上进行策略模型更新和策略采样。该平台具有三个方面的优点:首先,基于Lanstar教学软件和FTP协议建立主从式数据交换机制,对电脑硬件和网络要求低,能够部署在现有的编程教学实验室;其次,训练框架基于Gym库和PyTorch进行二次开发,统一state和action接口,整合训练数据采样接口,可以兼容DQN、PPO等多种强化学习算法;最后,可以兼容强化学习和逆强化学习两种学习范式。在三个典型任务上的对比实验表明,该平台能够有效降低任务训练时间,能够在算力资源不足情况下支撑强化学习的实践教学。 展开更多
关键词 模型训练 强化学习范式 编程实践 分布式平台 多级模型发布
在线阅读 下载PDF
不完全信息下云制造平台动态匹配时域与稳定匹配研究 被引量:1
6
作者 晏鹏宇 蒋琪琪 +1 位作者 杨柳 孔祥天瑞 《计算机集成制造系统》 EI CSCD 北大核心 2024年第10期3658-3672,共15页
鉴于现有研究侧重于构建云制造平台供需匹配模型并开发求解算法,批处理匹配时域长度在不确定环境下对云制造平台运营的影响关注不足,针对云制造平台产能供需双方随机到达并可随时离开的复杂情景,建立了基于动态二部图的Markov决策模型,... 鉴于现有研究侧重于构建云制造平台供需匹配模型并开发求解算法,批处理匹配时域长度在不确定环境下对云制造平台运营的影响关注不足,针对云制造平台产能供需双方随机到达并可随时离开的复杂情景,建立了基于动态二部图的Markov决策模型,并提出基于状态和动作重塑技术的Q-learning动态时域匹配决策方法。该方法根据平台订单和共享产能的聚合信息,自适应地决策匹配时域长度,并产生考虑了供需双方偏好的稳定匹配方案。数值实验表明,在多种情景和问题参数下,该方法的综合平台运营指标优于常用的随机事件触发和固定匹配时域方法。实验结果为云制造平台供需匹配运营提供了管理启示。 展开更多
关键词 云制造 共享制造 供需匹配 强化学习 匹配时域
在线阅读 下载PDF
基于深度强化学习技术的算力服务平台革新——以中国东数西算重大工程为案例 被引量:1
7
作者 李泰新 刘锋 徐健 《运筹与管理》 CSSCI CSCD 北大核心 2024年第9期160-167,共8页
算力服务平台负责为海量并发业务提供算力调度支撑。在算力资源有限的条件下,面临时延敏感业务处理负担重但算力资源有限的挑战。为解决这一问题,提出基于深度强化学习的算力资源供给策略。首先将能耗、时延和带宽占用作为多目标,基于... 算力服务平台负责为海量并发业务提供算力调度支撑。在算力资源有限的条件下,面临时延敏感业务处理负担重但算力资源有限的挑战。为解决这一问题,提出基于深度强化学习的算力资源供给策略。首先将能耗、时延和带宽占用作为多目标,基于隐马尔科夫模型建立算力链供给模型,但网络环境动态变化以及调度动作空间极大导致难以直接求解。因此,使用改进的列表维特比(Viterbi)算法提供较优解集,进而使用改进的优先级回放双深度Q网络算法进一步求解,从而根据网络环境变化自适应制定供给方案。以中国东数西算重大工程作为案例背景,选取京津冀枢纽中两个城市的算力资源供给作为仿真场景。仿真结果表明,所提策略可帮助算力服务平台提升算力供给性能以及经济性。最后,从城市间算力协作、信息管理和区域任务规划三个方面为算力服务平台建设提供对策建议。 展开更多
关键词 算力服务平台 东数西算 深度强化学习
在线阅读 下载PDF
基于深度强化学习的二进制代码模糊测试方法
8
作者 王栓奇 赵健鑫 +2 位作者 刘驰 武伟 刘钊 《计算机科学》 CSCD 北大核心 2024年第S01期852-858,共7页
漏洞挖掘是计算机软件安全领域的主要研究方向,其中模糊测试是重要的动态挖掘方法。为解决二进制代码漏洞挖掘中汇编代码体积庞大导致检测既困难又耗时、模糊测试效率低下等问题,提出基于深度强化学习的二进制代码模糊测试方法。首先将... 漏洞挖掘是计算机软件安全领域的主要研究方向,其中模糊测试是重要的动态挖掘方法。为解决二进制代码漏洞挖掘中汇编代码体积庞大导致检测既困难又耗时、模糊测试效率低下等问题,提出基于深度强化学习的二进制代码模糊测试方法。首先将模糊测试过程建模为面向强化学习的多步马尔可夫决策过程,通过构建深度强化学习模型辅助模糊测试变异策略选择,实现对变异策略的动态优化。然后设计和搭建基于深度强化学习的二进制代码模糊测试平台,利用AFL实现模糊测试环境,并使用Keras-RL2库和OpenAI Gym框架实现深度强化学习算法和强化学习环境。最后通过实验分析来验证所提方法和测试平台的有效性和适用性,实验结果显示深度强化学习模型能够辅助模糊测试过程快速覆盖更多路径,能够暴露更多漏洞缺陷,显著提高二进制代码漏洞挖掘和定位的效率。 展开更多
关键词 二进制代码 漏洞挖掘 模糊测试 深度强化学习 测试平台
在线阅读 下载PDF
基于强化学习的木工送料平台误差控制研究 被引量:1
9
作者 朱莉 王猛 +2 位作者 孟兆新 李博 乔际冰 《林产工业》 北大核心 2023年第11期38-45,共8页
研究了木工带锯机送料平台误差产生的主要原因。通过深度确定性策略梯度算法,对各轴的跟踪误差进行控制,以实现对送料平台末端夹具及木料运动轨迹误差的控制。使用Adams运动学仿真平台对送料平台进行动力学分析,通过与MATLAB进行联合仿... 研究了木工带锯机送料平台误差产生的主要原因。通过深度确定性策略梯度算法,对各轴的跟踪误差进行控制,以实现对送料平台末端夹具及木料运动轨迹误差的控制。使用Adams运动学仿真平台对送料平台进行动力学分析,通过与MATLAB进行联合仿真完成强化学习过程。由于送料平台各轴间耦合关系复杂,所以使用最小安全距离限制和积分法加快仿真学习过程。最后进行数据迁移,使用Codesys实现对送料平台实体机的虚轴控制进行仿真。结果表明,加入约束条件和优化方法后,强化学习过程更加稳定且收敛速度更快,深度确定性策略梯度算法减小误差可达63.97%,为后续锯切加工奠定了基础。 展开更多
关键词 送料平台 误差控制 强化学习 DDPG 动力学
在线阅读 下载PDF
基于PPO的移动平台自主导航 被引量:3
10
作者 徐国艳 熊绎维 +1 位作者 周彬 陈冠宏 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第11期2138-2145,共8页
为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的... 为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的输出动作连续性问题。设计了一种改进的人工势场算法作为自身位置评价,有效提高强化学习模型在自主导航场景中的收敛速度。针对导航场景设计了模型的网络框架和奖励函数,并在Gazebo仿真环境中进行模型训练,结果表明,引入自身位置评价的模型收敛速度明显提高。将收敛模型移植入真实环境中,验证了所提方法的有效性。 展开更多
关键词 近似策略优化算法 移动平台 自主导航 强化学习 人工势场
在线阅读 下载PDF
RoboCup仿真2D实验平台 被引量:3
11
作者 李学俊 陈士洋 《实验室研究与探索》 CAS 北大核心 2014年第4期58-61,76,共5页
机器人足球世界杯是国际上级别最高、规模最大、影响最广泛的机器人足球赛事,其举办目的是促进人工智能和机器人学的研究。RoboCup 2D项目提供了一个优秀的仿真平台,它既是适于学生进行高科技对抗的竞赛平台,又是适合研究者进行人工智... 机器人足球世界杯是国际上级别最高、规模最大、影响最广泛的机器人足球赛事,其举办目的是促进人工智能和机器人学的研究。RoboCup 2D项目提供了一个优秀的仿真平台,它既是适于学生进行高科技对抗的竞赛平台,又是适合研究者进行人工智能理论研究的实验平台。本文首先介绍RoboCup 2D的系统框架,包括总体框架、服务器端和球队客户端,其次基于示例球队agent2d设计实现了DreamWing2D球队的规划模块,最后展示RoboCup 2D平台的搭建和实验方法。改进后的球队水平大幅度提升,并在国内公开赛中获得很好成绩。 展开更多
关键词 机器人足球世界杯 决策规划 强化学习 实验平台
在线阅读 下载PDF
基于深度强化学习的软件定义安全中台QoS实时优化算法 被引量:1
12
作者 李元诚 秦永泰 《通信学报》 EI CSCD 北大核心 2023年第5期181-192,共12页
针对软件定义安全场景中的服务质量(QoS)实时优化方案因安全防护手段与业务场景不匹配而导致的适用困难和性能下降的问题,提出了基于深度强化学习的软件定义安全中台QoS实时优化算法。首先,将碎片化的安全需求与安全基础设施统一到软件... 针对软件定义安全场景中的服务质量(QoS)实时优化方案因安全防护手段与业务场景不匹配而导致的适用困难和性能下降的问题,提出了基于深度强化学习的软件定义安全中台QoS实时优化算法。首先,将碎片化的安全需求与安全基础设施统一到软件定义安全中台云模型中;然后,通过深度强化学习结合云计算技术提高安全中台的实时匹配和动态适应能力;最后,生成满足QoS目标的安全中台资源实时调度策略。实验结果表明,与现有实时算法相比,所提算法不但保证负载均衡,还提高了18.7%的作业调度成功率以提高服务质量,降低了34.2%的平均响应时间,具有很好的稳健性,更适用于实时环境。 展开更多
关键词 软件定义安全 深度强化学习 安全中台 服务质量
在线阅读 下载PDF
一种全局供需感知的均值场多智能体强化学习订单分配算法 被引量:1
13
作者 宋旺 胡祥 +3 位作者 张玉辉 卫文江 周雅诗 康傲 《数据采集与处理》 CSCD 北大核心 2023年第3期652-664,共13页
提出一种具备全局供需动态感知能力、基于均值场多智能体强化学习的网约车平台订单分配算法。该算法通过将多智能体强化学习与均值场理论相结合,提升了智能体在局部空间上相互之间的协作性;通过注入全局空间上供需的动态分布信息,提升... 提出一种具备全局供需动态感知能力、基于均值场多智能体强化学习的网约车平台订单分配算法。该算法通过将多智能体强化学习与均值场理论相结合,提升了智能体在局部空间上相互之间的协作性;通过注入全局空间上供需的动态分布信息,提升了智能体对全局供需分布的感知和优化能力。本文构建了真实历史数据驱动的模拟器,用于算法的训练和评估。实验表明,在全天时段和高峰期时段两个不同场景下,本文提出的算法在网约车司机累计收益及订单应答率两个重要指标上均显著优于现有的订单分配算法。实验结果充分验证了本文提出算法的有效性。 展开更多
关键词 多智能体强化学习 均值场 全局供需动态感知 网约车平台 订单分配
在线阅读 下载PDF
基于模型的强化学习在无人机路径规划中的应用 被引量:9
14
作者 杨思明 单征 +6 位作者 曹江 郭佳郁 高原 郭洋 王平 王景 王晓楠 《计算机工程》 CAS CSCD 北大核心 2022年第12期255-260,269,共7页
针对当前强化学习算法在无人机升空平台路径规划任务中样本效率低、算法鲁棒性较差的问题,提出一种基于模型的内在奖励强化学习算法。采用并行架构将数据收集操作和策略更新操作完全解耦,提升算法学习效率,并运用内在奖励的方法提高智... 针对当前强化学习算法在无人机升空平台路径规划任务中样本效率低、算法鲁棒性较差的问题,提出一种基于模型的内在奖励强化学习算法。采用并行架构将数据收集操作和策略更新操作完全解耦,提升算法学习效率,并运用内在奖励的方法提高智能体对环境的探索效率,避免收敛到次优策略。在策略学习过程中,智能体针对模拟环境的动态模型进行学习,从而在有限步内更好地预测状态、奖励等信息。在此基础上,通过结合有限步的规划计算以及神经网络的预测,提升价值函数的预测精准度,以利用较少的经验数据完成智能体的训练。实验结果表明,相比同样架构的无模型强化学习算法,该算法达到相同训练水平所需的经验数据量减少近600幕数据,样本效率和算法鲁棒性都有大幅提升,相比传统的非强化学习启发类算法,分数提升接近8000分,与MVE等主流的基于模型的强化学习算法相比,平均分数可以提升接近2000分,且在样本效率和稳定性上都有明显提高。 展开更多
关键词 无人机 升空平台 路径规划 强化学习 深度学习
在线阅读 下载PDF
多智能体强化学习在直升机机场调度中的应用 被引量:4
15
作者 刘志飞 董强 +1 位作者 赖俊 陈希亮 《计算机工程与应用》 CSCD 北大核心 2023年第16期285-294,共10页
快速高效的直升机机场调度是现代直升机机场调度系统面临的主要挑战。设计了一个直升机机场调度试验平台,使用二维网格环境,供多种算法进行快速试验。机场调度试验平台根据机场实际地形进行地图编辑,提供了传统的集中式规划算法和基于... 快速高效的直升机机场调度是现代直升机机场调度系统面临的主要挑战。设计了一个直升机机场调度试验平台,使用二维网格环境,供多种算法进行快速试验。机场调度试验平台根据机场实际地形进行地图编辑,提供了传统的集中式规划算法和基于多智能体强化学习算法来进行快速高效的模拟调度实验。实验表明,基于多智能体强化学习方法的可扩展性和实时规划效果较好。试验平台为进一步研究机场调度提供了良好的起点,对未来多智能体路径规划问题应用于实际场景将会产生有益影响。 展开更多
关键词 机场调度 试验平台 多智能体路径规划 强化学习
在线阅读 下载PDF
基于Gym与Flight Gear的AI模拟飞行训练平台搭建
16
作者 刘剑超 董斐 +2 位作者 林亚军 俞艺涵 姚杰 《兵工自动化》 2023年第6期38-40,共3页
针对AI模拟飞行研究,提出应用平台Gym与Flightgear模拟飞行软件相结合,构建AI模拟飞行训练平台。通过平台优化,可不断增加飞行动作的难度系数,重新设计奖励机制与神经网络,实现由AI操控模拟飞行软件向AI反馈训练数据的交互闭环。训练结... 针对AI模拟飞行研究,提出应用平台Gym与Flightgear模拟飞行软件相结合,构建AI模拟飞行训练平台。通过平台优化,可不断增加飞行动作的难度系数,重新设计奖励机制与神经网络,实现由AI操控模拟飞行软件向AI反馈训练数据的交互闭环。训练结果验证了该训练平台的有效性。 展开更多
关键词 模拟飞行 强化学习 Flight Gear Gym平台
在线阅读 下载PDF
基于云端可视化交互的强化学习平台
17
作者 姚铁锤 王珏 +2 位作者 王彦棡 迟学斌 王晓光 《计算机工程》 CAS CSCD 北大核心 2021年第5期316-320,共5页
强化学习是一个与环境交互的学习过程,在实验场景中,训练环境部署的可扩展性和算法验证的便捷性常受限于物理引擎和渲染模块的高耦合性。为对物理引擎和渲染模块进行解耦,构建一种面向物理引擎和渲染模块的云端交互式模型,其中包括操作... 强化学习是一个与环境交互的学习过程,在实验场景中,训练环境部署的可扩展性和算法验证的便捷性常受限于物理引擎和渲染模块的高耦合性。为对物理引擎和渲染模块进行解耦,构建一种面向物理引擎和渲染模块的云端交互式模型,其中包括操作字典、元素字典和对应的算法接口,并基于该模型实现模拟器。通过集成模拟器、可视化工具和知识管理等组件,搭建支持云端可视化交互的强化学习平台,并以MuJoCo物理引擎为例,验证Web模拟器接入自定义物理引擎的便捷性。实验和分析结果验证了该模型的有效性,其可方便接入平台,实现云端渲染并提高所属集群的利用率。 展开更多
关键词 强化学习平台 物理引擎 渲染模块 云端可视化交互 接口标准
在线阅读 下载PDF
导向钻井稳定平台的DDPG深度强化学习控制
18
作者 霍爱清 姜雪 张书涵 《西安石油大学学报(自然科学版)》 2025年第5期49-56,共8页
针对导向钻井稳定平台工作时,系统存在干扰所带来的跟踪效果不理想、鲁棒性较差等问题,提出了一种基于DDPG的深度强化学习控制方法。以旋转导向钻井稳定平台为研究对象,建立了稳定平台被控对象模型和摩擦模型。从状态向量、奖励函数和... 针对导向钻井稳定平台工作时,系统存在干扰所带来的跟踪效果不理想、鲁棒性较差等问题,提出了一种基于DDPG的深度强化学习控制方法。以旋转导向钻井稳定平台为研究对象,建立了稳定平台被控对象模型和摩擦模型。从状态向量、奖励函数和网络结构3个方面设计了稳定平台DDPG深度强化学习控制器,构建了Actor-Critic双网络结构并进行参数更新,通过建立控制器输入与实际输出之间的非线性关系,提高稳定平台的控制精度、响应速度和抗干扰能力。分别将所提控制方法与PID、PIDDOB控制方法进行仿真实验对比,实验结果表明所提方法跟踪误差在±10%范围之内,能够有效抑制参数摄动和摩擦干扰,有较强的鲁棒性,满足钻井工程的需求。 展开更多
关键词 旋转导向钻井 稳定平台 深度强化学习 深度确定性策略梯度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部