期刊文献+
共找到4,466篇文章
< 1 2 224 >
每页显示 20 50 100
基于安全强化学习的交叉口多车协同决策方法
1
作者 黄亚飞 石晴 +2 位作者 田浩 张云龙 胡伟 《重庆理工大学学报(自然科学)》 北大核心 2026年第1期54-61,共8页
针对城市路口多车驾驶场景中,如何准确表征自动驾驶车辆之间的动态交互,优化通行顺序,确保驾驶安全,提出一种基于多智能体安全强化学习的协同控制方法,旨在避免因缺乏安全约束引发的不安全行为。将约束马尔可夫博弈与多智能体强化学习... 针对城市路口多车驾驶场景中,如何准确表征自动驾驶车辆之间的动态交互,优化通行顺序,确保驾驶安全,提出一种基于多智能体安全强化学习的协同控制方法,旨在避免因缺乏安全约束引发的不安全行为。将约束马尔可夫博弈与多智能体强化学习相结合,利用拉格朗日乘子法与多智能体深度确定性策略梯度算法,在最大化奖励的同时最小化安全成本,以限制危险行为;提出安全经验回放机制,避免决策空间受限带来适应性下降和局部最优问题。仿真结果表明,所提方法在安全性方面优于基准算法,可使碰撞率下降至8.6%,能有效提升该场景下自动驾驶车辆的协同决策能力。 展开更多
关键词 多智能体强化学习 安全强化学习 协同通行策略 自动驾驶
在线阅读 下载PDF
基于多头注意力机制通信的多智能体强化学习算法
2
作者 董仁智 黄继风 +2 位作者 杜渂 王聚全 何之栋 《计算机应用与软件》 北大核心 2026年第1期280-287,309,共9页
对于多智能体视野受限场景下的合作任务,传统强化学习算法很难取得满意表现,而采用消息通信的算法可以有效提高协作水平,因此提出一种基于多头注意力机制通信的多智能体强化学习算法。智能体结合注意力机制与多头注意力机制聚合消息,达... 对于多智能体视野受限场景下的合作任务,传统强化学习算法很难取得满意表现,而采用消息通信的算法可以有效提高协作水平,因此提出一种基于多头注意力机制通信的多智能体强化学习算法。智能体结合注意力机制与多头注意力机制聚合消息,达成高效的信息交流;采用中心化训练分布式执行架构,从全局角度评估策略价值,提升决策质量。在经典仿真环境Traffic-Junction上的实验结果表明,该算法能有效提高多智能体的合作水平,性能优于现有算法。 展开更多
关键词 多智能体强化学习 多智能体协同 深度强化学习 多头注意力机制
在线阅读 下载PDF
基于多智能体深度强化学习的智能网联汽车服务迁移优化方法
3
作者 芮兰兰 邓淑予 +3 位作者 陈子轩 高志鹏 邱雪松 郭少勇 《通信学报》 北大核心 2026年第1期141-155,共15页
为应对智能网联汽车在高动态车联网环境中服务迁移所面临的多用户资源竞争与边缘节点可用性动态变化等挑战,提出了一种基于多智能体组相对策略优化(MAGRPO)的服务迁移方法,将服务迁移问题形式化为带资源约束的长期多用户联合优化问题,... 为应对智能网联汽车在高动态车联网环境中服务迁移所面临的多用户资源竞争与边缘节点可用性动态变化等挑战,提出了一种基于多智能体组相对策略优化(MAGRPO)的服务迁移方法,将服务迁移问题形式化为带资源约束的长期多用户联合优化问题,并设计了一种不需要显式Critic网络的MAGRPO算法。基于组内折扣回报的相对排序构建策略更新信号,有效缓解由强约束惩罚(如节点过载或故障)引起的训练不稳定问题,并降低训练开销。仿真结果表明,所提方法在服务总时延、迁移能耗及迁移成功率等关键指标上均优于现有基线方法,尤其在边缘节点资源受限且可用性动态变化的场景下,展现出更强的鲁棒性与可扩展性。 展开更多
关键词 移动边缘计算 智能网联汽车 服务迁移 多智能体深度强化学习 组相对策略优化
在线阅读 下载PDF
结合深度强化学习的多弹协同弹道凸优化方法
4
作者 李炯 李万礼 +1 位作者 李宁 刘斌 《宇航学报》 北大核心 2026年第1期103-115,共13页
针对当前多拦截弹的协同弹道规划算法精度和效率不高的问题,提出一种结合深度强化学习的多弹协同弹道凸优化方法,该算法能够实现协同弹道的在线优化,并提高协同弹道的优化性能。首先,依据横向距离域的概念,将多拦截弹的运动模型从时间... 针对当前多拦截弹的协同弹道规划算法精度和效率不高的问题,提出一种结合深度强化学习的多弹协同弹道凸优化方法,该算法能够实现协同弹道的在线优化,并提高协同弹道的优化性能。首先,依据横向距离域的概念,将多拦截弹的运动模型从时间域转换至横向距离域,并对运动模型以及约束条件进行凸化和离散化处理,在横向距离域上建立离散后的协同弹道凸优化问题模型;其次,利用深度强化学习算法对协同弹道规划任务进行学习训练,得出高质量的协同弹道初始解,并以此为基础实现对多弹协同弹道凸优化迭代求解。最后,仿真实验表明,所提方法在保证弹道可行性的前提下,提高了算法精度和效率,且具有更强的优化能力。 展开更多
关键词 多拦截弹 协同弹道 横向距离域 深度强化学习 凸优化
在线阅读 下载PDF
基于动态注意力强化学习的可解释学习路径推荐
5
作者 张晓明 冯泽嘉 +1 位作者 王会勇 张晓静 《应用科学学报》 北大核心 2026年第1期110-133,共24页
大规模在线教育的普及使得学习者面临课程选择困难,个性化学习路径推荐面临依赖单一模态数据导致语义表征局限,以及静态知识图谱难以生成动态可解释推荐逻辑的挑战。为解决上述问题,提出一种基于动态注意力强化学习的可解释学习路径推荐... 大规模在线教育的普及使得学习者面临课程选择困难,个性化学习路径推荐面临依赖单一模态数据导致语义表征局限,以及静态知识图谱难以生成动态可解释推荐逻辑的挑战。为解决上述问题,提出一种基于动态注意力强化学习的可解释学习路径推荐(explainable learning path recommendation based on dynamic attention reinforcement learning,ELPRDARL)框架。首先,构建了异构协同知识图谱,集成课程文本、视觉内容及知识依赖关系,增强跨模态语义对齐能力;其次,设计了邻接节点动态注意力聚合机制,通过偏置修正策略调整实体关系权重,并利用双向交互聚合器融合多阶邻域特征,提升知识推理的细粒度表达能力;最后,提出知识图谱感知的强化学习策略,基于路径连通性奖励函数显式建模用户行为与知识拓扑的关联,生成包含全局奖励与局部注意力权重的可解释路径。基于MOOC数据集上的实验表明,本方法在NDCG、Recall、HR和Precision指标上分别达到22.85%、33.81%、52.01%和6.34%,较次优模型提升2.88%、3.55%、2.42%和3.26%。用户调研显示,80.36%的学习者认为路径解释显著提升了推荐透明度。本研究验证了动态注意力机制与强化学习的协同优化能有效平衡推荐精度与可解释性。 展开更多
关键词 协同知识图谱 学习路径推荐 可解释推荐 动态注意力机制 强化学习 推荐系统
在线阅读 下载PDF
混合交通环境下基于动态决策间隔的强化学习信号控制方法
6
作者 王福建 马佳豪 +1 位作者 李廷浩 马东方 《交通运输系统工程与信息》 北大核心 2026年第1期45-54,共10页
智能网联车辆(Connected and Automated Vehicle,CAV)为交通信号控制提供了新的数据源与优化机遇。然而,现有方法普遍存在两大局限:其一,多采用固定决策间隔,难以适应交通流的动态变化,导致控制策略的全局最优性不足;其二,缺乏对低渗透... 智能网联车辆(Connected and Automated Vehicle,CAV)为交通信号控制提供了新的数据源与优化机遇。然而,现有方法普遍存在两大局限:其一,多采用固定决策间隔,难以适应交通流的动态变化,导致控制策略的全局最优性不足;其二,缺乏对低渗透率场景下混合交通流复杂交互特征的深入建模,限制了实际应用的鲁棒性。为此,本文提出一种基于近端策略优化(Proximal Policy Optimization,PPO)的动态决策间隔信号控制方法。首先,利用卷积神经网络与多头注意力机制,构建融合CAV与常规车辆(Regular Vehicle,RV)的多源交通状态表征;进而,设计融合动态决策间隔与相位选择的多离散动作空间,自适应生成信号控制策略,平衡决策效率与控制灵活性。在奖励函数设计中,引入累计延误、排队长度与延误标准差的多目标自适应加权机制,协同优化通行效率与公平性。基于实际路网仿真测试模型控制效果,结果表明:在不同交通需求下,本文方法相较于传统离散控制方法,平均等待时间和平均排队长度均降低8.50%以上;尤其在CAV渗透率低至20%时,本文方法仍能保持稳定的控制性能,验证了其在混合交通环境中的有效性与强适应性。 展开更多
关键词 智能交通 交通工程 深度强化学习 混合交通环境 动态决策间隔 交通信号控制
在线阅读 下载PDF
基于深度强化学习的电液伺服系统位置控制及跨系统适应性验证
7
作者 陆振宇 孙守迪 +4 位作者 金陆乔 查万荣 纵怀志 蔡存 刘国平 《机床与液压》 北大核心 2026年第2期146-154,共9页
电液伺服技术具有控制精准度高、动态响应迅捷、功率密度大等特性,能够达到高精密、高性能的运动调控目标。针对液阻全桥网络比例阀控缸系统建模复杂、传统控制方法调参繁琐的问题,提出深度强化学习(DRL)的跨系统迁移控制策略。利用AME... 电液伺服技术具有控制精准度高、动态响应迅捷、功率密度大等特性,能够达到高精密、高性能的运动调控目标。针对液阻全桥网络比例阀控缸系统建模复杂、传统控制方法调参繁琐的问题,提出深度强化学习(DRL)的跨系统迁移控制策略。利用AMESim搭建传统阀控缸液压系统与液阻全桥网络比例阀控缸系统模型,提供强化学习算法的选择依据,提出一种创新的研究策略:利用DRL无模型自适应特性,采用结构简单的传统阀控缸系统训练智能体,使其掌握应对非线性与耦合问题的控制能力;随后,将训练成熟的智能体直接迁移至复杂的液阻全桥网络比例阀控缸系统,无需重新建模或大量调参。仿真结果表明:迁移后的智能体方波跟踪静态误差不大于0.35 mm,正弦跟踪相对误差不大于8.3%,方波上升时间为0.13 s,调整时间为0.23 s,显著优于传统系统;6000 N超越负载下智能体的相对误差仅8.217%,均方根误差1.039 mm。迁移后的智能体仍保持良好的动态响应与抗干扰能力,有效缩短调参时间,验证了DRL跨系统迁移在液压控制中的可行性,为复杂液压系统的智能控制提供了高效解决方案。 展开更多
关键词 阀控缸系统 深度强化学习 位置控制 智能体跨系统迁移
在线阅读 下载PDF
基于TD3强化学习的光储微网双向DC-DC变换器自抗扰控制研究
8
作者 马幼捷 胡钰 +3 位作者 周雪松 闫凤祥 白鑫 陶珑 《太阳能学报》 北大核心 2026年第1期202-213,共12页
考虑到高比例新能源接入带来的不确定性问题会导致微电网直流母线电压的大幅波动难以平抑,该文提出一种基于双延迟深度确定性策略梯度算法(TD3)强化学习的双向DC-DC变换器的自抗扰控制策略。首先,利用线性扩张状态观测器进行系统重构来... 考虑到高比例新能源接入带来的不确定性问题会导致微电网直流母线电压的大幅波动难以平抑,该文提出一种基于双延迟深度确定性策略梯度算法(TD3)强化学习的双向DC-DC变换器的自抗扰控制策略。首先,利用线性扩张状态观测器进行系统重构来实现对总扰动的估计补偿,并就控制策略的跟踪性和抗扰性进行频域分析。接着,通过大量的仿真交互自学习获得观测器参数来智能调节神经网络的权值更新方式,优化奖励函数形式,并在线利用网络进行参数实时调度,使其充分训练以实现近似最优控制律。最后,利用数字仿真平台和小功率实验验证了在多工况下所提控制策略较双闭环PI控制和传统线性自抗扰控制具有更小的电压偏差及更快的响应速度等优越的动稳态性能,有效提升了直流母线电压的抗扰能力。 展开更多
关键词 双向DC-DC变换器 光储微电网 自抗扰控制 TD3深度强化学习算法
在线阅读 下载PDF
基于模型反演的深度强化学习黑盒迁移攻击
9
作者 陈晋音 翟建乐 +1 位作者 陈思毅 王诚熠 《小型微型计算机系统》 北大核心 2026年第3期743-750,共8页
近年来,深度强化学习(Deep Reinforcement Learning,DRL)技术在自动驾驶、智能机器人、金融交易等领域得到了广泛应用.然而,针对DRL智能体的黑盒对抗攻击仍然面临诸多挑战,例如计算成本高和迁移性有限等问题.为了解决上述问题,本文提出... 近年来,深度强化学习(Deep Reinforcement Learning,DRL)技术在自动驾驶、智能机器人、金融交易等领域得到了广泛应用.然而,针对DRL智能体的黑盒对抗攻击仍然面临诸多挑战,例如计算成本高和迁移性有限等问题.为了解决上述问题,本文提出了一种新型的黑盒迁移攻击方法.首先,通过行为克隆技术对目标智能体进行模型反演,得到影子智能体;随后,针对影子智能体设计并生成对抗样本;最后,将这些对抗样本应用于目标智能体,实现对目标的高效攻击.相比现有方法,本文的攻击方法具有以下显著优势:1)计算成本低:通过专家轨迹数据集训练影子智能体,无需复杂模型生成伪装数据;2)迁移性优越:生成的对抗样本可直接作用于未知目标模型,在不同任务和环境中均表现出稳定的攻击效果.通过在自动驾驶网络场景和OpenAI Gym仿真环境中进行大量实验,验证了所提方法的有效性和鲁棒性.本研究不仅揭示了DRL智能体潜在的安全威胁,也为提升黑盒攻击技术提供了新的思路和方向. 展开更多
关键词 深度强化学习 模仿学习 对抗攻击 黑盒攻击
在线阅读 下载PDF
需求响应下基于深度强化学习的综合能源系统能量管理策略
10
作者 唐昊 张庆虎 +2 位作者 方道宏 朱虹 吴寅涛 《控制理论与应用》 北大核心 2026年第1期205-215,共11页
含光伏、储能及燃气轮机等分布式能源的综合能源系统(IES)具有多能协调、互补共济的能源利用形式,能够在参与电网需求响应时发挥重要作用.针对IES如何有效响应电网调峰需求的问题,文中将多能耦合转化与内部用户负荷响应作为IES的能量管... 含光伏、储能及燃气轮机等分布式能源的综合能源系统(IES)具有多能协调、互补共济的能源利用形式,能够在参与电网需求响应时发挥重要作用.针对IES如何有效响应电网调峰需求的问题,文中将多能耦合转化与内部用户负荷响应作为IES的能量管理手段,提出了考虑多能互补与内部用户响应特性的IES日内调度优化方法.首先,在IES多能耦合运行架构的基础上分析了内部用户的响应特性,分别通过补贴价格与负荷削减量来改变内部用户的电负荷需求,进而,构建了光伏出力与负荷不确定下IES参与电网需求响应的能量管理策略优化模型;然后,运用基于TD3的深度强化学习算法实现了IES能量管理策略的求解;最后,通过算例表明,所提能量管理策略优化模型与策略优化方法能够合理制订系统内部的能量转换控制和需求响应方案以充分挖掘系统的响应潜力,从而,有效完成电网的调峰需求响应目标. 展开更多
关键词 综合能源系统 多能互补 需求响应 调度优化 深度强化学习
在线阅读 下载PDF
摩托车转向自平衡的深度强化学习控制
11
作者 但远宏 邹松 刘琳峰 《重庆理工大学学报(自然科学)》 北大核心 2026年第1期203-211,共9页
针对前轮转向摩托车变工况下侧向自平衡控制中PD参数需反复整定的问题,提出一种基于深度强化学习(deep reinforcement learning, DRL)的PD参数在线自适应优化方法。该方法以牛顿-欧拉法建立的侧倾动力学模型为基础,构建DDPG-PD协同控制... 针对前轮转向摩托车变工况下侧向自平衡控制中PD参数需反复整定的问题,提出一种基于深度强化学习(deep reinforcement learning, DRL)的PD参数在线自适应优化方法。该方法以牛顿-欧拉法建立的侧倾动力学模型为基础,构建DDPG-PD协同控制架构:上层深度确定性策略梯度(DDPG)网络依据实时车身状态动态生成比例系数kp与微分系数kd,下层PD控制器输出前轮转向角速度。设计含参数调节惩罚项奖励函数,在Matlab/Simulink中搭建集成自适应PD模块的强化学习训练环境,实现参数的动态整定。实验表明:该方法在速度变化与外界干扰下具有更优的适应性和稳定性,相比固定参数PD控制,动态性能指标提升显著。解决了传统PD控制在工况变化时参数重复调整的工程难题,验证了DRL驱动参数自优化策略的有效性与工程实用性。 展开更多
关键词 摩托车 平衡控制 深度强化学习 PD控制 DDPG算法
在线阅读 下载PDF
进口集装箱堆存决策的两阶段强化学习方法
12
作者 宋丽英 邓琨琦 +2 位作者 宁武 宋海涛 李四维 《交通运输系统工程与信息》 北大核心 2026年第1期283-294,共12页
进口集装箱堆存问题因卸船顺序与提箱顺序的矛盾以及堆场资源约束而呈现高度复杂性。针对这一挑战,本文面向自动化垂直布局堆场,提出一种基于深度强化学习的两阶段堆存决策方法。该方法将堆存过程建模为马尔可夫决策过程,在框架上引入... 进口集装箱堆存问题因卸船顺序与提箱顺序的矛盾以及堆场资源约束而呈现高度复杂性。针对这一挑战,本文面向自动化垂直布局堆场,提出一种基于深度强化学习的两阶段堆存决策方法。该方法将堆存过程建模为马尔可夫决策过程,在框架上引入“堆区决策-堆位决策”的分阶段结构,有效降低状态与动作空间的维度,并结合差异化奖励函数,将均衡堆区利用率、翻箱次数和提箱移动距离作为优化目标。算法设计上,第1阶段采用深度Q网络(DQN)实现堆区选择,第2阶段引入对偶深度Q网络(Dueling DQN)提升复杂状态下的堆位选择效率。实验结果表明,该方法能够在全堆场范围内形成均衡的堆存策略:在不同堆场密度和集装箱批量场景下均表现出稳定适应性,平均翻箱率控制在15%~27%,平均移动贝位数最大值为3.84贝·箱^(-1),分别较实际数据降低约61.5%与38.7%。与单阶段DQN、两阶段近端策略优化(PPO)和启发式算法相比,本文方法在收敛效率、决策效果和鲁棒性方面均具有明显优势。本文不仅验证了分阶段建模与差异化奖励机制在复杂堆存问题中的有效性,还为大规模自动化堆场的调度与资源优化提供了具有推广性的解决方案。 展开更多
关键词 物流工程 堆存决策 强化学习 进口集装箱 两阶段方法
在线阅读 下载PDF
基于指导反馈强化学习的算法选择技术
13
作者 陈亮 王通通 +1 位作者 王璇 刘昌宏 《计算机工程与设计》 北大核心 2026年第2期351-358,共8页
为解决现有算法选择方法需要复杂流程和专业知识的问题,提出了一种基于大语言模型的强化学习策略。该方法通过参数高效微调对大语言模型进行初始化,为后续的强化学习训练提供高质量的基础。利用指导策略对微调后的模型进行强化学习训练... 为解决现有算法选择方法需要复杂流程和专业知识的问题,提出了一种基于大语言模型的强化学习策略。该方法通过参数高效微调对大语言模型进行初始化,为后续的强化学习训练提供高质量的基础。利用指导策略对微调后的模型进行强化学习训练,完成算法选择任务。实验结果表明,在图形类、回归类和控制图类3个场景中,AS-LLM(algorithm selection-large language model)的准确率分别比其它方法的平均准确率高2.23、6.22和5.57个百分点。该方法显著提升了算法选择性能和有效性,且更易于用户操作。 展开更多
关键词 算法选择 强化学习 指导反馈 大语言模型 专家反馈 监督微调 自然语言处理
在线阅读 下载PDF
基于深度强化学习的高速铁路监控视频MEC智能卸载方法
14
作者 陈永 刘骅驹 张冰旺 《铁道学报》 北大核心 2026年第2期96-104,共9页
针对高速铁路沿线视频任务卸载到MEC边缘计算服务器过程中,存在时延和能耗开销大的问题,提出一种高速铁路监控视频MEC智能卸载方法。首先,将高速铁路视频监控处理任务的时延和能耗作为优化目标,构建系统累计时延和能耗最小化卸载模型。... 针对高速铁路沿线视频任务卸载到MEC边缘计算服务器过程中,存在时延和能耗开销大的问题,提出一种高速铁路监控视频MEC智能卸载方法。首先,将高速铁路视频监控处理任务的时延和能耗作为优化目标,构建系统累计时延和能耗最小化卸载模型。然后,将该任务卸载模型转化为马尔科夫决策过程模型,采用动作空间搜索因子,实现对动作决策的自适应搜索。最后,设计一种基于深度强化学习的MEC卸载方法得到最优卸载策略,降低了高速铁路视频处理任务的时延和能耗。仿真结果表明,所提算法相比Q学习算法时延降低了21.59%,能耗降低了9.93%,且QoE指标提高了9.65%,具有更低的时延和能耗开销,能够满足铁路视频传输控制的需求。 展开更多
关键词 移动边缘计算 高速铁路监控视频 视频处理任务 任务卸载 深度强化学习
在线阅读 下载PDF
离线强化学习研究综述 被引量:5
15
作者 乌兰 刘全 +1 位作者 黄志刚 张立华 《计算机学报》 北大核心 2025年第1期156-187,共32页
离线强化学习也称为批量强化学习,是深度强化学习领域的一项重要研究内容。它利用行为策略生成静态数据集,无需在线和环境交互,成功地将大规模数据集转变成强大的决策引擎。近年来,离线强化学习方法得到了广泛关注和深入研究,并在实际... 离线强化学习也称为批量强化学习,是深度强化学习领域的一项重要研究内容。它利用行为策略生成静态数据集,无需在线和环境交互,成功地将大规模数据集转变成强大的决策引擎。近年来,离线强化学习方法得到了广泛关注和深入研究,并在实际应用中取得了瞩目的成绩。目前,该方法已经用于推荐系统、导航驾驶、自然语言处理、机器人控制以及医疗与能源等应用领域,并被看作是现实世界应用强化学习最具潜力的技术途径之一。该文首先介绍了离线强化学习的背景与理论基础。随后从求解思路出发,将离线强化学习方法分为无模型、基于模型和基于Transformer模型3大类,并对各类方法的研究现状与发展趋势进行分析。同时,对比了目前3个最流行的实验环境D4RL、RL Unplugged和NeoRL。进而介绍了离线强化学习技术在现实世界诸多领域的应用。最后,对离线强化学习进行总结与展望,以此推动更多该领域的研究工作。 展开更多
关键词 人工智能 强化学习 深度强化学习 离线强化学习 批量强化学习
在线阅读 下载PDF
基于深度强化学习的多约束舰载机动态路径规划研究
16
作者 贺硕 徐高欢 +6 位作者 靳远远 李亚飞 李甜田 王华 郭毅博 李璐璐 徐明亮 《中国舰船研究》 北大核心 2026年第1期374-384,共11页
[目的]现有的舰载机路径规划方法普遍忽略了舰载机转运过程中的实际空间约束,且难以满足高度动态变化的甲板环境,因此,提出一种综合考虑位姿约束和运动约束的舰载机动态路径规划算法。[方法]首先,利用多边形法对舰载机外形进行几何建模... [目的]现有的舰载机路径规划方法普遍忽略了舰载机转运过程中的实际空间约束,且难以满足高度动态变化的甲板环境,因此,提出一种综合考虑位姿约束和运动约束的舰载机动态路径规划算法。[方法]首先,利用多边形法对舰载机外形进行几何建模,并基于舰载机转运速度、朝向角等参数构建舰载机运动学模型;然后,将舰载机路径规划问题建模为马尔可夫决策过程,并根据舰载机的运动特征来确定动作空间和状态空间,综合考虑位姿、安全、效率等多种因素来设计奖励函数,进而提出基于深度强化学习的舰载机路径规划算法;最后,通过仿真实验验证所提算法的有效性。[结果]结果表明,相较于传统算法,该算法的调度时间平均减少9.2%,目标朝向角误差平均减少98.7%。[结论]研究成果有效提高了舰载机的转运效率,可为航空母舰甲板舰载机的调运决策提供参考。 展开更多
关键词 位姿约束 路径规划 强化学习 舰载机
在线阅读 下载PDF
基于改进人类反馈强化学习的端到端自动驾驶决策模型
17
作者 曹吴鸿 蔡英凤 +4 位作者 刘泽 刘擎超 王海 陈龙 张晓东 《汽车工程》 北大核心 2026年第1期24-36,共13页
端到端自动驾驶是智能汽车领域的最新研究热点,现有研究大多采用人工设计的强化学习奖励函数,在复杂驾驶环境中存在学习效率和泛化能力提升的瓶颈。针对该问题,本文提出了一种基于改进人类反馈强化学习的端到端自动驾驶建模方法。首先,... 端到端自动驾驶是智能汽车领域的最新研究热点,现有研究大多采用人工设计的强化学习奖励函数,在复杂驾驶环境中存在学习效率和泛化能力提升的瓶颈。针对该问题,本文提出了一种基于改进人类反馈强化学习的端到端自动驾驶建模方法。首先,构建了采用响应比估计方法简化人类偏好的自动化奖励反馈,提高了驾驶策略的逻辑性、降低了人工设计成本;其次,设计了奖励函数预训练优化方法,通过学习初期对先验知识的嵌入加速了模型收敛过程;最后,提出了基于扩散模型的全新数据增强技术,建立了动态增强的奖励替代机制,解决了奖励函数的过拟合问题和切换平顺性问题,提升了复杂场景下强化学习智能体的适应性和鲁棒性。基于CARLA模拟器对所提方法进行验证,在最常用的LeaderBoard基准上,取得了87±2的驾驶得分,相比现有方法,本文所提模型具有更好的泛化性与学习效率。 展开更多
关键词 端到端自动驾驶 人类反馈强化学习 响应比 扩散模型
在线阅读 下载PDF
基于强化学习的服务功能链部署综述
18
作者 爱因坦 阮宏玮 +1 位作者 刘翰林 李华 《计算机研究与发展》 北大核心 2026年第2期505-524,共20页
在软件定义网络和网络功能虚拟化范式下,服务功能链(service function chaining,SFC)技术通过灵活编排虚拟网络功能实现了网络服务的定制化部署。然而,动态网络环境下SFC部署面临着决策空间大、环境复杂多变等挑战。强化学习因其自适应... 在软件定义网络和网络功能虚拟化范式下,服务功能链(service function chaining,SFC)技术通过灵活编排虚拟网络功能实现了网络服务的定制化部署。然而,动态网络环境下SFC部署面临着决策空间大、环境复杂多变等挑战。强化学习因其自适应学习复杂环境特征并动态决策的能力,在解决SFC部署问题上展现出显著优势。该研究首先阐述了SFC部署的基本概念与技术架构,并具体介绍了基于强化学习的SFC部署框架。随后,从算法设计、应用场景和优化策略等角度,梳理并深入分析了强化学习在SFC放置、调度和重配置3个关键阶段中的研究进展与创新应用。最后,总结了现有研究在算法设计、性能优化和实际部署方面的优势与局限,并分析了该领域的技术挑战与未来发展趋势。 展开更多
关键词 服务功能链 强化学习 资源优化 虚拟网络功能 智能部署
在线阅读 下载PDF
基于深度强化学习的相位补偿型自抗扰控制策略
19
作者 李苏扬 邵宝福 +3 位作者 周雪松 马幼捷 陶珑 问虎龙 《太阳能学报》 北大核心 2026年第1期288-300,共13页
针对光储直流微电网母线电压控制过程存在的相位滞后问题,以储能双向DC-DC变换器为研究对象,提出一种含相位补偿网络的深度强化学习自抗扰控制策略。在该策略中,首先,将线性扩张状态观测器降阶处理,在其总和扰动作用通道串联相位补偿网... 针对光储直流微电网母线电压控制过程存在的相位滞后问题,以储能双向DC-DC变换器为研究对象,提出一种含相位补偿网络的深度强化学习自抗扰控制策略。在该策略中,首先,将线性扩张状态观测器降阶处理,在其总和扰动作用通道串联相位补偿网络,以提供扰动估计所需的超前相角;其次,分析补偿环节改善扰动抑制性能的机理,配置补偿参数取值区间,评估改进后观测器对于典型时变扰动信号的跟踪特性;然后,基于深度强化学习算法建立控制变量优化模型,通过训练智能体与环境不断交互,探索变换器最优策略参数空间,实现观测器带宽和校正系数的自适应调整;最后,仿真对比典型工况下不同控制方式对于母线电压扰动的跟踪能力和控制精度。结果表明,所提控制策略有效可行。 展开更多
关键词 储能 微电网 功率变换器 深度强化学习 马尔科夫过程 抗扰
在线阅读 下载PDF
融合SDN与目标导向分层强化学习的覆盖组播路由方法
20
作者 叶苗 李繁有 +4 位作者 文鹏 蒋秋香 王勇 何倩 叶聪 《通信学报》 北大核心 2026年第1期106-123,共18页
针对传统网络架构下覆盖组播缺乏对底层网络状态的感知、难以适应网络动态变化,以及现有强化学习方法因覆盖组播树路径耦合、面临问题规模大、动作空间维度高导致学习不稳定、收敛缓慢等问题,提出一种基于目标导向分层强化学习的智能覆... 针对传统网络架构下覆盖组播缺乏对底层网络状态的感知、难以适应网络动态变化,以及现有强化学习方法因覆盖组播树路径耦合、面临问题规模大、动作空间维度高导致学习不稳定、收敛缓慢等问题,提出一种基于目标导向分层强化学习的智能覆盖组播路由方法GOHRL-OM。首先,利用SDN的全局感知能力,构建动态流量矩阵为路由决策提供全局信息支撑。其次,GOHRL-OM结合目标导向强化学习与分层强化学习优化覆盖组播树:目标导向机制引入任务目标,增强策略学习方向性;分层学习将任务分解为上下层子任务,通过协同策略和分层奖励实现任务解耦与分层优化,从而降低动作维度并提升学习稳定性。仿真实验表明,相较于现有方法,GOHRL-OM在优化吞吐量、时延与丢包率的同时,具备更加灵活的路由决策和网络适应能力。 展开更多
关键词 软件定义网络 目标导向 分层强化学习 覆盖组播
在线阅读 下载PDF
上一页 1 2 224 下一页 到第
使用帮助 返回顶部