期刊文献+
共找到102篇文章
< 1 2 6 >
每页显示 20 50 100
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:1
1
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 dqn算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于DQN的智能农机路径跟踪控制研究 被引量:1
2
作者 杨琰 张瑞瑞 +4 位作者 张林焕 陈立平 伊铜川 吴明齐 岳晓龙 《农机化研究》 北大核心 2025年第3期28-34,共7页
针对复杂路面条件下无人化农业作业车辆路径跟踪控制精度低、控制器参数整定困难的问题,设计了一种基于深度强化学习的路径跟踪控制算法。基于五层BP神经网络构建了DQN(Deep Q-Network)路径跟踪控制器,实现了网络的轻量化和高度的可移... 针对复杂路面条件下无人化农业作业车辆路径跟踪控制精度低、控制器参数整定困难的问题,设计了一种基于深度强化学习的路径跟踪控制算法。基于五层BP神经网络构建了DQN(Deep Q-Network)路径跟踪控制器,实现了网络的轻量化和高度的可移植性。控制器网络的输入状态在采用车辆当前舵角、车辆与目标路径上控制点间横向距离偏差的基础上,引入车辆前方设定距离内的平均路径曲率,实现了车辆转向性能的提高。分别开展了仿真和田间试验,验证了所设计深度强化学习网络算法的收敛性,并对比了有路径曲率输入和无路径曲率输入两种网络的路径跟踪控制性能。仿真试验中,基于正弦曲线对两种路径跟踪控制方法进行训练,两种路径跟踪控制网络收敛后的平均跟踪距离误差为0.008 4、0.017 7 m。在间隔6 m的U型路径上进行田间测试试验,结果显示:有路径曲率输入的模型性能显著优于无路径曲率输入的模型,两种路径跟踪控制方法在路径上平均跟踪距离误差为0.038 9、0.068 4 m。验证了该路径跟踪控制方法有效性,可满足农业作业车辆路径跟踪控制需求。 展开更多
关键词 路径跟踪 深度强化学习 dqn 路径曲率 智能农机
在线阅读 下载PDF
基于DQN的快速路合流区CAV换道决策方法 被引量:1
3
作者 程国柱 王文志 +1 位作者 陈永胜 徐亮 《哈尔滨工业大学学报》 北大核心 2025年第3期98-109,共12页
为解决快速路合流区的交通拥堵和安全问题,保障智能网联车辆(connected and automated vehicle,CAV)在快速路合流区高效、安全、舒适、稳定地行驶,采用深度强化学习方法之DQN(deep q-network)算法,综合考虑车辆行驶安全性、高效性与舒... 为解决快速路合流区的交通拥堵和安全问题,保障智能网联车辆(connected and automated vehicle,CAV)在快速路合流区高效、安全、舒适、稳定地行驶,采用深度强化学习方法之DQN(deep q-network)算法,综合考虑车辆行驶安全性、高效性与舒适性等因素,建立了用于神经网络训练的奖励函数模型,提出了快速路合流区CAV换道决策方法。应用开源自动驾驶仿真场景highway-env,搭建快速路合流区仿真环境,对其主线路段及匝道进行仿真试验。仿真试验结果表明:相比于智能驾驶人模型(intelligent driver model,IDM)和highway-env中换道决策方法,采用所提出的快速路合流区CAV换道决策方法时,CAV能够快速达到22.22 m/s行驶的稳定状态,同时避免频繁换道及加减速行为,并优化了车头时距,很大程度上提高了交通流运行效率和乘车舒适性。研究成果在智能交通领域中,可为智能网联环境下城市快速路合流区的车辆通行提供了一种新方法,为未来智能网联车辆的换道提供了决策方法。 展开更多
关键词 智能交通 CAV换道决策方法 dqn 智能网联车辆 深度强化学习 快速路合流区
在线阅读 下载PDF
基于改进DQN的直升机CGF突防路径规划 被引量:1
4
作者 许强强 李克奇 +2 位作者 岳忠奇 杨艳良 岳晋忠 《火力与指挥控制》 北大核心 2025年第1期104-112,共9页
针对直升机CGF突防雷达阵地时的路径规划问题,提出了一种基于改进DQN的直升机CGF的突防路径规划方法。结合了人工势场原理和专家经验,对传统的深度强化学习DQN算法进行了多方面的改进,以适应动态和不可预知的战场环境。通过在MetaSim仿... 针对直升机CGF突防雷达阵地时的路径规划问题,提出了一种基于改进DQN的直升机CGF的突防路径规划方法。结合了人工势场原理和专家经验,对传统的深度强化学习DQN算法进行了多方面的改进,以适应动态和不可预知的战场环境。通过在MetaSim仿真作战平台中进行实验,证明该方法在路径规划的平均所需时间上比传统A*和DIJKSTRA算法以及传统DQN算法有所提高,同时在路径长度和成功率上也显示出显著的改进。 展开更多
关键词 路径规划 计算机生成兵力 深度强化学习 人工势场 dqn
在线阅读 下载PDF
一种基于DQN的卫星通信车载站中频功率智能控制方法
5
作者 黄启明 袁正林 +1 位作者 龚正伟 宋军 《电讯技术》 北大核心 2025年第7期1120-1128,共9页
针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(... 针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(Channel Terminal,CT)参数构建状态空间,以终端链路操作和禁呼时间构建动作空间,设计了基于业务价值的奖励函数和基于物理特性的状态转移函数。提出的控制策略实现了中频信号功率控制智能化,算法收敛状态平均回报可以达到主流深度强化学习算法水平,平均回合训练时间仅为对照组最长时间的6.45%。 展开更多
关键词 卫星通信车载站 中频功率控制 深度Q学习网络(dqn)
在线阅读 下载PDF
基于联合DQN的定向能系统火力智能决策建模仿真方法
6
作者 屈长虹 王俊杰 +3 位作者 王坤 崔清勇 陈蒋洋 王鑫鹏 《系统仿真学报》 北大核心 2025年第5期1256-1265,共10页
针对利用定向能系统反无人机集群作战中如何兼容多种部署方案动态解决火力智能决策的问题,建立了一个深度强化学习模型,并针对该模型多智能体状态和动作空间维度高的特点,提出了一种基于联合深度Q网络(DQN)的定向能系统火力智能决策建... 针对利用定向能系统反无人机集群作战中如何兼容多种部署方案动态解决火力智能决策的问题,建立了一个深度强化学习模型,并针对该模型多智能体状态和动作空间维度高的特点,提出了一种基于联合深度Q网络(DQN)的定向能系统火力智能决策建模仿真方法。以定向能系统的状态、无人机集群的状态和定向能系统部署区域的状态构造状态空间,利用联合机制共享各个装备的状态信息以及同类型装备的网络参数,设计威胁评估机制提高泛化性,并建立动作屏蔽机制屏蔽无效动作,有效解决了多智能体因状态和动作维度灾难引起的训练发散、收敛缓慢等问题,提高基于联合DQN网络学习效率和泛化性。根据仿真实验结果,该方法优于传统基于规则的方法,验证了该方法的可行性与实用性,为兼容多种部署方案的定向能系统反无人机集群火力智能决策提供一个新思路。 展开更多
关键词 定向能系统 反无人机集群 深度Q网络 联合机制 威胁评估机制 动作屏蔽机制
在线阅读 下载PDF
基于DQN的改进NSGA-Ⅱ求解多目标柔性作业车间调度问题
7
作者 郑国梁 张朝阳 +1 位作者 吉卫喜 于俊杰 《现代制造工程》 北大核心 2025年第9期1-11,共11页
提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexi... 提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexible Job shop Scheduling Problem,MO-FJSP)。通过在DQN算法中定义马尔可夫决策过程和奖励函数,考虑选定设备对完工时间和能源消耗的局部及全局影响,提高了NSGA-Ⅱ初始种群的质量。改进的NSGA-Ⅱ通过精英保留策略确保运行过程中的种群多样性,并保留了进化过程中优质的个体。将DQN算法生成的初始解与贪婪算法生成的初始解进行对比,验证了DQN算法在生成初始解方面的有效性。此外,将基于DQN算法的改进NSGA-Ⅱ与其他启发式算法在标准案例和仿真案例上进行对比,证明了其在解决MO-FJSP方面的有效性。 展开更多
关键词 深度Q网络算法 多目标柔性作业车间调度问题 奖励函数 非支配排序遗传算法
在线阅读 下载PDF
一种基于DQN的去中心化优先级卸载策略 被引量:1
8
作者 张俊娜 李天泽 +1 位作者 赵晓焱 袁培燕 《计算机工程》 CAS CSCD 北大核心 2024年第9期235-245,共11页
边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故... 边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故障的影响,且会产生较多的能耗和较高的时延。针对以上问题,提出一种基于深度Q网络(DQN)的去中心化优先级(DP-DQN)卸载策略。首先,设置通信矩阵模拟现实中边缘服务器有限的通信状态;其次,通过对任务设定优先级,使任务可以在不同边缘服务器之间跳转,保证各边缘服务器均可以自主制定卸载策略,完成任务卸载的去中心化;最后,根据任务的跳转次数为任务分配更多的计算资源,提高资源利用效率和优化效果。为了验证所提策略的有效性,针对不同DQN下参数的收敛性能进行了研究对比,实验结果表明,在不同测试情景下,DP-DQN的性能均优于本地算法、完全贪婪算法和多目标任务卸载算法,性能可提升约11%~19%。 展开更多
关键词 边缘计算 任务卸载 资源分配 去中心化 优先级 深度Q网络
在线阅读 下载PDF
基于集成DQN的自适应边缘缓存算法
9
作者 张雷 李亚文 王晓军 《南京邮电大学学报(自然科学版)》 北大核心 2024年第6期97-107,共11页
工业应用中,动态多变的流式数据特性使强化学习算法在训练过程中很难在模型收敛性与知识遗忘之间实现很好的平衡。考虑工业现场内容请求与当前生产任务具有高度相关性,提出一种基于集成深度Q网络算法(Integrated Deep Q-Network,IDQN)... 工业应用中,动态多变的流式数据特性使强化学习算法在训练过程中很难在模型收敛性与知识遗忘之间实现很好的平衡。考虑工业现场内容请求与当前生产任务具有高度相关性,提出一种基于集成深度Q网络算法(Integrated Deep Q-Network,IDQN)的自适应缓存策略。算法在离线阶段利用不同历史任务数据,训练并保存多个历史任务模型。在线阶段每当检测到实时数据流的任务特征发生变化,则重新训练网络模型。如果实时数据流的特征隶属于历史任务,则向深度Q网络(Deep Q-Network,DQN)导入相应的历史任务模型进行网络训练。否则直接利用实时数据流训练并标记为新的任务模型。仿真实验结果表明,IDQN与参考算法相比,在内容请求流行度动态变化时能够有效减少模型收敛时间,提高缓存效率。 展开更多
关键词 工业边缘网络 缓存替换策略 集成强化学习 深度Q网络
在线阅读 下载PDF
无人驾驶中运用DQN进行障碍物分类的避障方法 被引量:1
10
作者 刘航博 马礼 +2 位作者 李阳 马东超 傅颖勋 《计算机工程》 CAS CSCD 北大核心 2024年第11期380-389,共10页
安全是无人驾驶汽车需要考虑的首要因素,而避障问题是解决驾驶安全最有效的手段。基于学习的避障方法因其能够从环境中学习并直接从感知中做出决策的能力而受到研究者的关注。深度Q网络(DQN)作为一种流行的强化学习方法,在无人驾驶避障... 安全是无人驾驶汽车需要考虑的首要因素,而避障问题是解决驾驶安全最有效的手段。基于学习的避障方法因其能够从环境中学习并直接从感知中做出决策的能力而受到研究者的关注。深度Q网络(DQN)作为一种流行的强化学习方法,在无人驾驶避障领域取得了很大的进展,但这些方法未考虑障碍物类型对避障策略的影响。基于对障碍物的准确分类提出一种Classification Security DQN(CSDQN)的车辆行驶决策框架。根据障碍物的不同类型以及环境信息给出具有更高安全性的无人驾驶决策,达到提高无人驾驶安全性的目的。首先对检测到的障碍物根据障碍物的安全性等级进行分类,然后根据不同类型障碍物提出安全评估函数,利用位置的不确定性和基于距离的安全度量来评估安全性,接着CSDQN决策框架利用障碍物类型、相对位置信息以及安全评估函数进行不断迭代优化获得最终模型。仿真结果表明,与先进的深度强化学习进行比较,在多种障碍物的情况下,采用CSDQN方法相较于DQN和SDQN方法分别提升了43.9%和4.2%的安全性,以及17.8%和3.7%的稳定性。 展开更多
关键词 无人驾驶 深度Q网络 分类避障 评估函数 安全性
在线阅读 下载PDF
基于DQN的多智能体深度强化学习运动规划方法 被引量:11
11
作者 史殿习 彭滢璇 +3 位作者 杨焕焕 欧阳倩滢 张玉晖 郝锋 《计算机科学》 CSCD 北大核心 2024年第2期268-277,共10页
DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对... DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对这些问题,提出了一种基于DQN的多智能体深度强化学习运动规划方法,该方法可以帮助智能体学习到高效稳定的运动规划策略,无碰撞地到达目标点。首先,在DQN方法的基础上,提出了基于Dueling的Q值计算优化机制,将Q值的计算方式改进为计算状态值和优势函数值,并根据当前正在更新的Q值网络的参数选择最优动作,使得Q值的计算更加简单准确;其次,提出了基于GRU的记忆机制,引入了GRU模块,使得网络可以捕捉时序信息,具有处理智能体历史信息的能力;最后,提出了基于噪声的有效探索机制,通过引入参数化的噪声,改变了DQN中的探索方式,提高了智能体的探索效率,使得多智能体系统达到探索-利用的平衡状态。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,所提方法可以使多智能体团队进行高效协作,无碰撞地到达各自目标点,且策略训练过程稳定。 展开更多
关键词 多智能体系统 运动规划 深度强化学习 dqn方法
在线阅读 下载PDF
基于改进DQN的移动机器人避障路径规划 被引量:8
12
作者 田箫源 董秀成 《中国惯性技术学报》 EI CSCD 北大核心 2024年第4期406-416,共11页
针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效... 针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效率和成功率。其次提出奖励优化方法,利用状态间的访问次数差异给予奖励,平衡状态点的访问次数,避免过度访问;同时通过计算与目标点的欧氏距离,使其偏向于选择接近目标的路径,并取消远离目标惩罚,实现奖励机制的自适应优化。最后设计了动态探索因子函数,在后期训练中侧重利用强化学习策略选取动作和学习,提高算法性能和学习效率。实验仿真结果显示,与传统DQN算法相比,改进算法在训练时间上缩短了40.25%,避障成功率上提升了79.8%以及路径长度上缩短了2.25%,均体现了更好的性能。 展开更多
关键词 移动机器人 dqn算法 路径规划 避障 深度强化学习
在线阅读 下载PDF
基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰
13
作者 周长霖 王春阳 +3 位作者 宫健 谭铭 包磊 刘明杰 《雷达科学与技术》 北大核心 2024年第2期155-160,169,共7页
频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频... 频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频率分集阵列-多输入多输出(Frequency Diversity Array-Multiple Input Multiple Output,FDA-MIMO)雷达与电磁干扰环境交互模型,使得FDA-MIMO雷达能够在与电磁环境交互过程中,感知干扰抑制干扰。其次,本文提出了一种基于深度Q网络(Deep Q-Network,DQN)和FDA-MIMO雷达发射功率分配的扫频干扰抑制方法,使得雷达系统能够在充分利用频谱资源的情况下最大化SINR。最后,仿真结果证实,在强化学习框架下,FDA-MIMO雷达能够通过对发射功率分配进行优化,完成干扰抑制,提升雷达性能。 展开更多
关键词 频率分集阵列 扫频干扰 强化学习 深度Q网络 功率分配
在线阅读 下载PDF
基于改进DQN算法的考虑船舶配载图的翻箱问题研究
14
作者 梁承姬 花跃 王钰 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第9期43-49,77,共8页
为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进... 为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进行求解,同时为了提高算法求解的性能,又在原算法的基础上设计了基于启发式算法的阈值和全新的奖励函数以改进算法。通过与其它文献中的实验结果进行对比,结果显示:在计算结果上,改进的DQN算法在各个算例上的结果均优于目前各个启发式算法的最优结果,并且规模越大,结果越好;在训练时间上,改进的DQN算法极大的优于未改进的DQN算法,并且规模越大,节省的时间也更显著。 展开更多
关键词 交通运输工程 海运 集装箱翻箱 船舶配载图 dqn算法
在线阅读 下载PDF
计及电力-通信-交通耦合网络不确定性的虚拟电厂鲁棒优化调度 被引量:1
15
作者 潘超 李梓铭 +3 位作者 龚榆淋 叶宇鸿 孙中伟 周振宇 《电工技术学报》 北大核心 2025年第15期4755-4769,共15页
电力-通信-交通耦合网络中,虚拟电厂(VPP)通过先进的控制、通信、信息采集技术对分布式资源进行规模化聚合调控并积极响应电网需求,能够提高电网运行的稳定性。然而,现有VPP优化调度方法忽略了电力-通信-交通耦合网络中不确定性因素对VP... 电力-通信-交通耦合网络中,虚拟电厂(VPP)通过先进的控制、通信、信息采集技术对分布式资源进行规模化聚合调控并积极响应电网需求,能够提高电网运行的稳定性。然而,现有VPP优化调度方法忽略了电力-通信-交通耦合网络中不确定性因素对VPP需求响应优化调度的影响,导致调度成本高、鲁棒性差。针对上述问题,首先,该文构建电力-通信-交通耦合网络模型,并以最小化网损、节点电压偏差、VPP经济成本的加权和为目标建立优化问题;其次,分析来自电力-通信-交通三个网络的不确定性因素,并构建计及电力-通信-交通耦合网络不确定性的VPP鲁棒优化调度问题;然后,提出一种基于联邦对抗深度Q网络(DQN)的VPP鲁棒优化调度求解算法,通过双智能体之间的不断迭代,实现鲁棒最优策略的对抗求解;最后,对所提算法进行仿真验证,仿真结果表明,所提算法能够有效降低不确定性因素对VPP优化调度的影响,提高电网运行的可靠性与稳定性。 展开更多
关键词 电力-通信-交通 虚拟电厂 不确定性 鲁棒优化调度 联邦对抗深度Q网络(dqn)
在线阅读 下载PDF
基于深度强化学习的Windows域渗透攻击路径生成方法 被引量:1
16
作者 霍兴鹏 沙乐天 +2 位作者 刘建文 吴尚 苏子悦 《计算机科学》 北大核心 2025年第3期400-406,共7页
Windows域被视作内网渗透测试的重点目标,然而Windows域渗透测试的场景和方法与常规的内网渗透有很大差异。因此,当前常规的智能化路径发现研究并不适用于Windows域环境。为了增强Windows域的安全防护,提出了一种基于深度强化学习的Wind... Windows域被视作内网渗透测试的重点目标,然而Windows域渗透测试的场景和方法与常规的内网渗透有很大差异。因此,当前常规的智能化路径发现研究并不适用于Windows域环境。为了增强Windows域的安全防护,提出了一种基于深度强化学习的Windows域渗透测试路径自动化生成方法。首先,将Windows域渗透测试场景建模为马尔可夫决策过程,通过OpenAI的Gymnasium设计了一个适用于强化学习的模拟器;其次,为了解决在大动作空间和观察空间下的探索不充分问题,提出了通过先验知识对冗余动作进行削减并对无效观察空间进行压缩的方法;最后,在小型服务器中利用虚拟机技术部署Windows域环境,以NDD-DQN作为基础算法,实现了在真实环境中从信息收集、模型构建到路径生成的全流程自动化。实验结果表明,所提方法在真实的Windows复杂环境中具有良好的模拟和训练效果。 展开更多
关键词 渗透测试 Windows域 深度强化学习 dqn算法 攻击路径
在线阅读 下载PDF
网联混合动力汽车队列的生态驾驶与能量管理分层控制 被引量:1
17
作者 张富椿 尹燕莉 +3 位作者 马永娟 肖杭洋 陈海鑫 余凯 《汽车安全与节能学报》 北大核心 2025年第1期159-169,共11页
为解决智能网联环境下混合动力汽车(HEV)队列通过连续交通信号灯路口时的舒适和经济性问题,提出一种基于网联HEV队列的生态驾驶与能量管理分层控制方法。上层控制器针对连续交通信号灯路口建立目标车速规划模型;根据目标车速范围建立纵... 为解决智能网联环境下混合动力汽车(HEV)队列通过连续交通信号灯路口时的舒适和经济性问题,提出一种基于网联HEV队列的生态驾驶与能量管理分层控制方法。上层控制器针对连续交通信号灯路口建立目标车速规划模型;根据目标车速范围建立纵向约束限制,建立以安全、舒适、跟随、经济和通过性为指标的目标函数;并采用模型预测控制(MPC)算法求解多目标函数获得最优车速。下层控制器采用深度强化学习(DQN)算法优化混合动力汽车能量管理,将上层求解的最优车速作为下层输入获取发动机电机的最优输出。结果表明:该文所提控制策略可以保证汽车队列的行驶安全,生态驾驶汽车队列平均油耗比普通队列降低了8.51%,在避免停车等待的同时改善了乘坐舒适性和燃油经济性。 展开更多
关键词 混合动力汽车(HEV) 汽车队列 生态驾驶 交通信号灯 模型预测控制(MPC) 深度强化学习
在线阅读 下载PDF
基于深度强化学习的动态核应急撤离优化决策模型研发
18
作者 李鸣野 姚仁太 +5 位作者 郭欢 张俊芳 吕明华 徐向军 牛嫣静 贾博慧 《辐射防护》 北大核心 2025年第5期517-529,共13页
核事故情景下人员的及时、有效撤离对减少辐射暴露、保障公众安全至关重要。传统路径规划算法虽然能够快速计算静态最短路径,但难以适应辐射剂量场动态变化带来的挑战。本文提出了一种基于深度强化学习的动态核应急撤离优化决策模型(MD-... 核事故情景下人员的及时、有效撤离对减少辐射暴露、保障公众安全至关重要。传统路径规划算法虽然能够快速计算静态最短路径,但难以适应辐射剂量场动态变化带来的挑战。本文提出了一种基于深度强化学习的动态核应急撤离优化决策模型(MD-DQN算法模型),通过建立马尔可夫决策过程(MDP)模型,以动态辐射剂量场信息、路网信息和实时位置为状态空间,设计了一种综合考虑路径长度、辐射暴露及方向性引导的多因素奖励函数,驱动智能体自主地学习最优的动态撤离决策策略。同时,通过优化网络结构设计和即时奖励机制,提高了算法的收敛性与泛化性能。仿真实验表明,与传统的Dijkstra算法和A^(*)算法相比,MD-DQN算法能够及时避开高辐射风险区域,显著降低撤离过程中人员的辐射暴露,且具有更优的实时路径调整能力和环境适应性。研究成果可为核应急撤离决策提供高效、智能的辅助支持工具,并为未来在多源辐射、多智能体协同以及实时数据驱动的智能化决策领域提供新的研究思路。 展开更多
关键词 深度强化学习 核应急撤离 动态撤离决策 马尔可夫决策过程 MD-dqn
在线阅读 下载PDF
面向无人艇的T-DQN智能避障算法研究 被引量:16
19
作者 周治国 余思雨 +3 位作者 于家宝 段俊伟 陈龙 陈俊龙 《自动化学报》 EI CAS CSCD 北大核心 2023年第8期1645-1655,共11页
无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛... 无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN),在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结果表明, T-DQN算法能快速地收敛到最优路径,其整体收敛步数相比Q-learning算法和DQN算法,分别减少69.1%和24.8%,引入的阈值筛选机制使整体收敛步数降低41.1%.在Unity 3D强化学习仿真平台,验证了复杂地图场景下的避障任务完成情况,实验结果表明,该算法能实现无人艇的精细化避障和智能安全行驶. 展开更多
关键词 无人艇 强化学习 智能避障 深度Q网络
在线阅读 下载PDF
基于二阶时序差分误差的双网络DQN算法 被引量:5
20
作者 陈建平 周鑫 +3 位作者 傅启明 高振 付保川 吴宏杰 《计算机工程》 CAS CSCD 北大核心 2020年第5期78-85,93,共9页
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值... 针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性。 展开更多
关键词 深度强化学习 马尔科夫决策过程 深度Q网络 二阶时序差分误差 梯度下降
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部