期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于改进DQN算法的应召搜潜无人水面艇路径规划方法 被引量:3
1
作者 牛奕龙 杨仪 +3 位作者 张凯 穆莹 王奇 王英民 《兵工学报》 EI CAS CSCD 北大核心 2024年第9期3204-3215,共12页
针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surf... 针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surface Vessel,USV)的动作空间、动作选择策略和奖励等,获取一条最优路径。算法采用时变动态贪婪策略,根据环境和神经网络的学习效果自适应调整USV动作选择,提高全局搜索能力并避免陷入局部最优解;结合USV所处的障碍物环境和当前位置设置分段非线性奖惩函数,保证不避碰的同时提升算法收敛速度;增加贝塞尔算法对路径平滑处理。仿真结果表明,在相同环境下新方法规划效果优于DQN算法、A^(*)算法和人工势场算法,具有更好的稳定性、收敛性和安全性。 展开更多
关键词 无人水面艇 路径规划 深度q学习算法 应召搜索
在线阅读 下载PDF
基于深度Q学习的含用户侧储能微电网频率-电压数字化智能控制策略 被引量:14
2
作者 林日晖 陈友立 《中国电力》 CSCD 北大核心 2022年第12期43-50,共8页
频率与电压是衡量电能指标的重要标准。针对微电网受到负荷波动而引起的频率/电压调控问题,提出基于深度Q学习(deep Q-learning,DQN)的含用户侧储能微电网智能监控-控制策略。首先,通过考虑用户行为的随机性,增加了用户侧储能输出的随... 频率与电压是衡量电能指标的重要标准。针对微电网受到负荷波动而引起的频率/电压调控问题,提出基于深度Q学习(deep Q-learning,DQN)的含用户侧储能微电网智能监控-控制策略。首先,通过考虑用户行为的随机性,增加了用户侧储能输出的随机约束,并引入四象限充放电的模型,构建用户侧储能的集群充放电模型,从而搭建出微电网频率-电压的协同控制模型。其次,设计基于DQN的频率/电压控制器结构与数字化智能控制平台,以系统实时的频率偏差、电压偏差与用户侧储能输出功率的上、下限约束为状态空间,以系统各机组出力为动作空间,并基于频率及电压2个控制目标,完成包含2个本地奖励的全局奖励函数的设计。算例结果表明:与传统PID控制器相比,所提DQN控制器能同时满足频率与电压的控制需求,更有效地应对负荷波动所引起的电能质量问题。 展开更多
关键词 孤岛微电网 用户侧储能 频率/电压协调控制 深度q学习算法 数字化平台
在线阅读 下载PDF
传感网络节点拓扑空间树型数据快速查询算法设计
3
作者 钟福连 周雪梅 《传感技术学报》 北大核心 2025年第9期1681-1687,共7页
传感器网络中的数据是实时生成的,其中树型结构的节点之间存在层级关系,数据在传输过程中需要经过多个中间节点,这种多跳传输方式增加了查询的复杂性和不确定性,导致查询结果出现误差。为此,设计传感网络节点拓扑空间树型数据快速查询... 传感器网络中的数据是实时生成的,其中树型结构的节点之间存在层级关系,数据在传输过程中需要经过多个中间节点,这种多跳传输方式增加了查询的复杂性和不确定性,导致查询结果出现误差。为此,设计传感网络节点拓扑空间树型数据快速查询算法。采用遍历策略和递归应用规则,形成高效的传感行式计划,融合集成学习中的Boosting算法和Bagging算法,生成传感列式计划。通过深度Q学习算法优化传感数据流图查询任务到执行节点的调度,该算法的动态适应性确保在空间树型数据实时动态变化的环境中实现快速查询,避免多跳传输导致的查询复杂性,减少查询误差。仿真结果得出,所提方法的时间复杂度低于30,任务执行时延控制在10 ms以内,语句的查询误差更低。 展开更多
关键词 传感网络 数据查询 查询引擎 深度q学习算法 树型数据
在线阅读 下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究 被引量:4
4
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度q网络强化学习算法 资源分配
在线阅读 下载PDF
基于随机方差减小方法的DDPG算法 被引量:3
5
作者 杨薛钰 陈建平 +2 位作者 傅启明 陆悠 吴宏杰 《计算机工程与应用》 CSCD 北大核心 2021年第19期104-111,共8页
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优... 针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。 展开更多
关键词 深度强化学习 深度q学习算法(DqN) 深度确定性策略梯度算法(DDPG) 随机方差缩减梯度技术
在线阅读 下载PDF
基于正交试验的感应控制参数组合优化 被引量:6
6
作者 王志建 龙顺忠 李颖宏 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第6期1128-1136,共9页
针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUM... 针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUMO仿真中,模拟北京市北辰西路与科荟南路交叉口环境,采用正交试验方法筛选出不同交通流量下感应控制的最优参数组合.设计对比实验验证最优参数组合的有效性,将最优参数组合应用在深度Q学习(DQN)算法中进一步优化感应控制.结果表明,正交试验方法能够快速有效地获取最优参数组合;在低、中等交通流量下,与未使用最优参数组合的DQN算法相比,使用最优参数组合的DQN算法的收敛速度分别增加了48.14%、38.89%,平均累计车均延误分别减少了8.45%、7.09%. 展开更多
关键词 信号交叉口 感应控制 影响参数 正交试验 深度q学习(DqN)算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部