期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于改进DQN算法的应召搜潜无人水面艇路径规划方法 被引量:2
1
作者 牛奕龙 杨仪 +3 位作者 张凯 穆莹 王奇 王英民 《兵工学报》 EI CAS CSCD 北大核心 2024年第9期3204-3215,共12页
针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surf... 针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surface Vessel,USV)的动作空间、动作选择策略和奖励等,获取一条最优路径。算法采用时变动态贪婪策略,根据环境和神经网络的学习效果自适应调整USV动作选择,提高全局搜索能力并避免陷入局部最优解;结合USV所处的障碍物环境和当前位置设置分段非线性奖惩函数,保证不避碰的同时提升算法收敛速度;增加贝塞尔算法对路径平滑处理。仿真结果表明,在相同环境下新方法规划效果优于DQN算法、A^(*)算法和人工势场算法,具有更好的稳定性、收敛性和安全性。 展开更多
关键词 无人水面艇 路径规划 深度q学习算法 应召搜索
在线阅读 下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究 被引量:3
2
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度q网络强化学习算法 资源分配
在线阅读 下载PDF
能源互联网下局域能源微网能量调度算法研究
3
作者 靳显智 王叶 +2 位作者 徐仁 林霏 邵文艺 《齐鲁工业大学学报》 CAS 2022年第1期50-58,共9页
局域能源微网是一种区域性的能源自治组织,由于能源互联网的整体建设具有时间跨度长和区域协调复杂的特点,局域能源微网是现阶段能源互联网建设的核心。局域能源微网能够从可再生资源中产生有限的能量,并负责区域内用户的需求。但是由... 局域能源微网是一种区域性的能源自治组织,由于能源互联网的整体建设具有时间跨度长和区域协调复杂的特点,局域能源微网是现阶段能源互联网建设的核心。局域能源微网能够从可再生资源中产生有限的能量,并负责区域内用户的需求。但是由于可再生能源发电和用户需求的随机性和波动性,每个局域微网必须对能量进行优化管理和调度。这要求能够合理的安排用户的需求,以及能够处理好相邻微网之间的交易。通常,局域能源微网之间的电力交易由广域中央电网进行定价。针对用户需求、电池储能、能源调配和动态定价提出了一种新的方法,利用一种新的深度Q学习算法,通过创建两个独立的神经网络实现对能源微网的调度优化。通过广泛的实证评估表明,提出的框架更有利于大多数能源微网,另外提供了详细的结果分析。 展开更多
关键词 局域能源微网 能源互联网 能量调度 动态定价 深度q学习算法
在线阅读 下载PDF
基于正交试验的感应控制参数组合优化 被引量:2
4
作者 王志建 龙顺忠 李颖宏 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第6期1128-1136,共9页
针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUM... 针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUMO仿真中,模拟北京市北辰西路与科荟南路交叉口环境,采用正交试验方法筛选出不同交通流量下感应控制的最优参数组合.设计对比实验验证最优参数组合的有效性,将最优参数组合应用在深度Q学习(DQN)算法中进一步优化感应控制.结果表明,正交试验方法能够快速有效地获取最优参数组合;在低、中等交通流量下,与未使用最优参数组合的DQN算法相比,使用最优参数组合的DQN算法的收敛速度分别增加了48.14%、38.89%,平均累计车均延误分别减少了8.45%、7.09%. 展开更多
关键词 信号交叉口 感应控制 影响参数 正交试验 深度q学习(DqN)算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部