期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
一种车载服务的快速深度Q学习网络边云迁移策略 被引量:8
1
作者 彭军 王成龙 +3 位作者 蒋富 顾欣 牟玥玥 刘伟荣 《电子与信息学报》 EI CSCD 北大核心 2020年第1期58-64,共7页
智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云... 智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云迁移策略,实现数据迁移的离线评估和在线决策。车载决策神经网络实时获取接入的边缘服务器网络状态和通信回传时延,根据车辆的运动轨迹进行虚拟机或任务迁移的决策,同时将实时的决策信息和获取的边缘服务器网络状态信息发送到云端的经验回放池中;评估神经网络在云端读取经验回放池中的相关信息进行网络参数的优化训练,定时更新车载决策神经网络的权值,实现在线决策的优化。最后仿真验证了所提算法与虚拟机迁移算法和任务迁移算法相比能有效地降低时延。 展开更多
关键词 智能网联交通系统 虚拟机迁移 强化学习 深度q学习网络
在线阅读 下载PDF
基于双深度Q学习网络的面向设备负荷稳定的智能车间调度方法 被引量:3
2
作者 黎声益 马玉敏 刘鹃 《计算机集成制造系统》 EI CSCD 北大核心 2023年第1期91-99,共9页
在车间管理中,设备负荷是一个关键性能指标,负荷稳定直接影响了生产效率与生产成本,但目前鲜有研究关注如何实现设备负荷稳定的问题。为此,提出一种面向设备负荷稳定的智能车间调度方法。该方法通过一个含有深度神经网络调度模型的调度... 在车间管理中,设备负荷是一个关键性能指标,负荷稳定直接影响了生产效率与生产成本,但目前鲜有研究关注如何实现设备负荷稳定的问题。为此,提出一种面向设备负荷稳定的智能车间调度方法。该方法通过一个含有深度神经网络调度模型的调度智能体,分析车间生产状态与设备负荷间的相关性,及时输出满足期望目标的调度方案。针对深度神经网络调度模型,设计了一个基于双深度Q学习网络(DDQN)的深度神经网络调度模型训练器,其利用奖惩学习免监督地形成调度样本,借此对深度神经网络调度模型进行网络参数更新,实现模型自学习。所提方法在MiniFab半导体生产车间模型中进行了验证,证明了所提调度方法能实现对智能车间设备负荷的控制,从而保证车间整体设备负荷的稳定性。 展开更多
关键词 智能车间 设备负荷 调度 深度q学习网络
在线阅读 下载PDF
基于BP网络和DQN的预测-校正再入制导方法
3
作者 王宽 闫循良 +2 位作者 洪蓓 南汶江 王培臣 《西北工业大学学报》 北大核心 2025年第2期201-211,共11页
针对传统数值预测-校正制导算法计算效率低、难以在线应用等问题,提出了一种基于BP网络和深度Q学习网络(DQN)的预测-校正制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,构建并训练了剩余航程预测BP网络,利用预测航程偏... 针对传统数值预测-校正制导算法计算效率低、难以在线应用等问题,提出了一种基于BP网络和深度Q学习网络(DQN)的预测-校正制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,构建并训练了剩余航程预测BP网络,利用预测航程偏差校正倾侧角幅值剖面参数;在侧向制导方面,针对再入制导问题构建强化学习所需的状态、动作空间;确定决策点并设计考虑综合性能的奖励函数;构建强化学习训练网络,进而通过学习网络实现倾侧反转决策。以CAV-H再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提基于BP网络的纵向制导方法具有相当的终端精度和较高的计算效率;与传统基于航向角走廊的侧向制导方法相比,所提基于DQN的侧向制导方法具有相当的计算精度以及更少的反转次数。 展开更多
关键词 再入滑翔制导 预测-校正 BP网络 强化学习 深度q学习网络
在线阅读 下载PDF
考虑行为克隆的深度强化学习股票交易策略 被引量:3
4
作者 杨兴雨 陈亮威 +1 位作者 郑萧腾 张永 《系统管理学报》 CSSCI CSCD 北大核心 2024年第1期150-161,共12页
为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择... 为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。 展开更多
关键词 股票交易策略 深度强化学习 模仿学习 行为克隆 对决深度q学习网络
在线阅读 下载PDF
基于深度强化学习的测井曲线自动深度校正方法 被引量:7
5
作者 熊文君 肖立志 +1 位作者 袁江如 岳文正 《石油勘探与开发》 EI CAS CSCD 北大核心 2024年第3期553-564,共12页
针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多... 针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多个自上而下的双滑动窗口捕捉测井曲线上相似的特征序列,并设计一个智能体与环境的互动机制来控制深度匹配过程。通过双深度Q学习网络(DDQN)选取一个动作来平移或缩放测井特征序列,并利用反馈的奖励信号来评估每个动作的好坏,以学习到最优的控制策略达到提升深度校正精度的目的。研究表明,MARL方法可以自动完成多口井、不同测井曲线的深度校正任务,减少人工干预。在油田实例应用中,对比分析了动态时间规整(DTW)、深度Q学习网络(DQN)和DDQN等方法的测试结果,DDQN算法采用双网络评估机制有效改进了算法的性能,能够识别和对齐测井曲线特征序列上更多的细节,具有较高的深度匹配精度。 展开更多
关键词 人工智能 机器学习 深度校正 测井曲线 多智能体深度强化学习 卷积神经网络 深度q学习网络
在线阅读 下载PDF
重复利用状态值的竞争深度Q网络算法 被引量:9
6
作者 张俊杰 张聪 赵涵捷 《计算机工程与应用》 CSCD 北大核心 2021年第4期134-140,共7页
在使用反距离加权法(Inverse Distance Weighted method,IDW)对土壤重金属含量进行预测时,算法中的超参数一般由先验知识确定,一定程度上存在不确定性。针对这一问题,提出了一种状态值再利用的竞争深度Q学习网络算法以精确估计IDW的超... 在使用反距离加权法(Inverse Distance Weighted method,IDW)对土壤重金属含量进行预测时,算法中的超参数一般由先验知识确定,一定程度上存在不确定性。针对这一问题,提出了一种状态值再利用的竞争深度Q学习网络算法以精确估计IDW的超参数。该算法在训练时,将每轮训练样本中的奖励值进行标准化后,与Dueling-DQN中Q网络的状态值结合形成新的总奖励值,然后将总奖励值输入到Q网络中进行学习,从而增强了状态与动作的内在联系,使算法更加稳定。最后使用该算法在IDW上进行超参数学习,并与几种常见强化学习算法进行对比实验。实验表明,提出的RSV-DuDQN算法可以使模型更快收敛,同时提升了模型的稳定性,还可以更准确地得到IDW的参数估计。 展开更多
关键词 状态值重利用 竞争深度q学习网络 反距离加权法 超参数搜索
在线阅读 下载PDF
基于深度学习神经网络和量子遗传算法的柔性作业车间动态调度 被引量:7
7
作者 陈亮 阎春平 +1 位作者 陈建霖 侯跃辉 《重庆大学学报》 CSCD 北大核心 2022年第6期40-54,共15页
针对柔性作业车间动态调度问题构建以平均延期惩罚、能耗、偏差度为目标的动态调度优化模型,提出一种基于深度Q学习神经网络的量子遗传算法。首先搭建基于动态事件扰动和周期性重调度的学习环境,利用深度Q学习神经网络算法,建立环境-行... 针对柔性作业车间动态调度问题构建以平均延期惩罚、能耗、偏差度为目标的动态调度优化模型,提出一种基于深度Q学习神经网络的量子遗传算法。首先搭建基于动态事件扰动和周期性重调度的学习环境,利用深度Q学习神经网络算法,建立环境-行为评价神经网络模型作为优化模型的适应度函数。然后利用改进的量子遗传算法求解动态调度优化模型。该算法设计了基于工序编码和设备编码的多层编码解码方案;制定了基于适应度的动态调整旋转角策略,提高了种群的收敛速度;结合基于Tent映射的混沌搜索算法,以跳出局部最优解。最后通过测试算例验证了环境-行为评价神经网络模型的鲁棒性和对环境的适应性,以及优化算法的有效性。 展开更多
关键词 柔性作业车间动态调度 能耗 平均延期惩罚 偏差度 深度q学习神经网络 改进量子遗传算法 混沌搜索
在线阅读 下载PDF
一种基于DQN的卫星通信车载站中频功率智能控制方法
8
作者 黄启明 袁正林 +1 位作者 龚正伟 宋军 《电讯技术》 北大核心 2025年第7期1120-1128,共9页
针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(... 针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(Channel Terminal,CT)参数构建状态空间,以终端链路操作和禁呼时间构建动作空间,设计了基于业务价值的奖励函数和基于物理特性的状态转移函数。提出的控制策略实现了中频信号功率控制智能化,算法收敛状态平均回报可以达到主流深度强化学习算法水平,平均回合训练时间仅为对照组最长时间的6.45%。 展开更多
关键词 卫星通信车载站 中频功率控制 深度q学习网络(DqN)
在线阅读 下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究 被引量:3
9
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度q网络强化学习算法 资源分配
在线阅读 下载PDF
基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法 被引量:1
10
作者 吴兰 吴元明 +1 位作者 孔凡士 李斌全 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第8期1353-1363,共11页
深度Q学习网络(DQN)因具有强大的感知能力和决策能力而成为解决交通信号灯配时问题的有效方法,然而外部环境扰动和内部参数波动等原因导致的参数不确定性问题限制了其在交通信号灯配时系统领域的进一步发展。基于此,提出了一种DQN与扩... 深度Q学习网络(DQN)因具有强大的感知能力和决策能力而成为解决交通信号灯配时问题的有效方法,然而外部环境扰动和内部参数波动等原因导致的参数不确定性问题限制了其在交通信号灯配时系统领域的进一步发展。基于此,提出了一种DQN与扩展卡尔曼滤波(EKF)相结合(DQN-EKF)的交通信号灯配时方法。以估计网络的不确定性参数值作为状态变量,包含不确定性参数的目标网络值作为观测变量,结合过程噪声、包含不确定性参数的估计网络值和系统观测噪声构造EKF系统方程,通过EKF的迭代更新求解,得到DQN模型中的最优真实参数估计值,解决DQN模型中的参数不确定性问题。实验结果表明:DQN-EKF配时方法适用于不同的交通环境,并能够有效提高车辆的通行效率。 展开更多
关键词 深度q学习网络(DqN) 感知能力 决策能力 交通信号灯配时系统 参数不确定性 扩展卡尔曼滤波(EKF)
在线阅读 下载PDF
基于深度强化学习的激励型需求响应决策优化模型 被引量:34
11
作者 徐弘升 陆继翔 +3 位作者 杨志宏 李昀 陆进军 黄华 《电力系统自动化》 EI CSCD 北大核心 2021年第14期97-103,共7页
随着中国电力市场化改革的推进,售电侧市场逐步开放,售电商可以聚合大量的分散负荷参与电力市场环境下的需求响应。文中提出以售电商和用户综合收益最大化为目标的基于深度强化学习的激励型需求响应建模和求解方法。首先,建立售电商和... 随着中国电力市场化改革的推进,售电侧市场逐步开放,售电商可以聚合大量的分散负荷参与电力市场环境下的需求响应。文中提出以售电商和用户综合收益最大化为目标的基于深度强化学习的激励型需求响应建模和求解方法。首先,建立售电商和用户的需求响应模型,通过引入时间-价格弹性,改进现有的用户响应模型,考虑用户对相邻时段补贴价格差的反应。然后,基于马尔可夫决策过程框架构建补贴价格决策优化模型,并设计基于深度Q学习网络的求解算法。最后,以1个售电商和3个不同类型的用户为例进行仿真计算,通过分析算法收敛性和对比不同模型及参数下的优化结果,验证了改进模型的合理性和生成策略的有效性,并分析了激励型需求响应对售电商以及用户的影响。 展开更多
关键词 激励型需求响应 价格弹性系数 深度强化学习 深度q学习网络
在线阅读 下载PDF
基于DQN变动力智能决策的轨迹规划
12
作者 梅泽伟 李天任 +3 位作者 朱佳琳 邵星灵 丁天雲 刘俊 《兵工学报》 EI CAS CSCD 北大核心 2024年第12期4395-4406,共12页
针对航天飞行器气动力不足难以维持应急侧向操纵确保安全避开障碍物的问题,提出一种基于深度Q学习网络(Deep Q-learning Network,DQN)变动力智能决策的轨迹规划方法。根据变动力航天飞行器运动学方程,设计基于航程误差的纵向制导律和考... 针对航天飞行器气动力不足难以维持应急侧向操纵确保安全避开障碍物的问题,提出一种基于深度Q学习网络(Deep Q-learning Network,DQN)变动力智能决策的轨迹规划方法。根据变动力航天飞行器运动学方程,设计基于航程误差的纵向制导律和考虑避开障碍物的横侧向制导律,用于实时校正倾侧角的幅值和符号,保证终端制导精度和绕飞安全性。从变动力智能决策层面出发,将航天飞行器动力档位调节问题转化为马尔可夫决策过程,以攻角、马赫数以及航天飞行器与障碍物的相对距离为状态空间,以航天飞行器动力档位为动作空间,设计考虑碰撞概率和终端约束偏差的奖励函数,构建DQN网络对智能体进行训练,以得到最佳动力档位。仿真结果表明,所提算法可以赋能航天飞行器在满足终端约束条件下提升运动过程的横向避障能力。 展开更多
关键词 航天飞行器 深度q学习网络 变动力 智能决策 轨迹规划
在线阅读 下载PDF
考虑多粒度反馈的多轮对话强化学习推荐算法 被引量:3
13
作者 姚华勇 叶东毅 陈昭炯 《计算机应用》 CSCD 北大核心 2023年第1期15-21,共7页
多轮对话推荐系统(CRS)以交互的方式获取用户的实时信息,相较于基于协同过滤等的传统推荐方法能够取得更好的推荐效果。然而现有的CRS存在用户偏好捕获不够准确、对话轮数要求过多以及推荐时机不恰当等问题。针对这些问题,提出一种基于... 多轮对话推荐系统(CRS)以交互的方式获取用户的实时信息,相较于基于协同过滤等的传统推荐方法能够取得更好的推荐效果。然而现有的CRS存在用户偏好捕获不够准确、对话轮数要求过多以及推荐时机不恰当等问题。针对这些问题,提出一种基于深度强化学习且考虑用户多粒度反馈信息的对话推荐算法。不同于现有的CRS,所提算法在每轮对话中同时考虑用户对商品本身以及更细粒度的商品属性的反馈,然后根据收集的多粒度反馈对用户、商品和商品属性特征进行在线更新,并借助深度Q学习网络(DQN)算法分析每轮对话后的环境状态,从而帮助系统作出较为恰当合理的决策动作,使它能够在比较少的对话轮次的情况下分析用户购买商品的原因,更全面地挖掘用户的实时偏好。与对话路径推理(SCPR)算法相比,在Last. fm真实数据集上,算法的15轮推荐成功率提升了46.5%,15轮推荐轮次上缩短了0.314轮;在Yelp真实数据集上,算法保持了相同水平的推荐成功率,但在15轮推荐轮次上缩短了0.51轮。 展开更多
关键词 多轮对话推荐系统 反馈信息 深度q学习网络 偏好挖掘 多粒度
在线阅读 下载PDF
异构网络中用户关联和功率控制的协同优化 被引量:3
14
作者 樊雯 陈腾 菅迎宾 《电讯技术》 北大核心 2021年第7期893-900,共8页
针对正交频分多址(Orthogonal Frequency Division Multiplexing Access,OFDMA)异构网络中用户关联和功率控制协同优化不佳的问题,提出了一种多智能体深度Q学习网络(Deep Q-learning Network,DQN)方法。首先,基于用户关联和功率控制最... 针对正交频分多址(Orthogonal Frequency Division Multiplexing Access,OFDMA)异构网络中用户关联和功率控制协同优化不佳的问题,提出了一种多智能体深度Q学习网络(Deep Q-learning Network,DQN)方法。首先,基于用户关联和功率控制最优化问题,构建了正交频分多址的双层异构网络系统模型,以实现智能决策;其次,根据应用场景和多智能体DQN框架的动作空间,对状态空间和奖励函数进行重构;最后,通过选取具有宏基站(Base Station,BS)和小型BS的两层异构网络,对多智能体DQN算法的性能进行仿真实验。仿真结果表明,相较于传统学习算法,多智能体DQN算法具有更好的收敛性,且能够有效提升用户设备(User Equipment,UE)的服务质量与能效,并可获得最大的长期总体网络实用性。 展开更多
关键词 异构网络 用户关联 功率控制 强化学习 深度q学习网络(DqN)
在线阅读 下载PDF
环境感知信息辅助的认知雷达波形参数智能选择 被引量:4
15
作者 王鹏峥 李杨 张宁 《信号处理》 CSCD 北大核心 2021年第2期186-198,共13页
现代雷达往往需要在复杂多变的电磁环境中完成多种任务。如何提升雷达的智能化水平,使其能够适应环境变化和任务需求,已成为近年来备受关注的研究课题。本文针对杂波环境下机动目标检测与跟踪的性能优化问题,提出了一种基于环境感知的... 现代雷达往往需要在复杂多变的电磁环境中完成多种任务。如何提升雷达的智能化水平,使其能够适应环境变化和任务需求,已成为近年来备受关注的研究课题。本文针对杂波环境下机动目标检测与跟踪的性能优化问题,提出了一种基于环境感知的雷达波形参数智能调度算法。基于最大信噪比准则和最小均方误差准则设计了奖励函数,并利用Q学习与深度Q学习网络进行了训练,通过雷达与环境的交互,充分利用环境中多帧杂波信息,可有效避免由于模糊导致的杂波遮蔽问题,提升目标信噪比和跟踪精度。机载雷达仿真实验结果表明,在杂波环境下对机动目标检测和跟踪过程中,本文提出的环境感知信息辅助的波形智能选择方案可获得比传统启发式算法更高的处理效率和更大的性能改善。 展开更多
关键词 杂波环境感知 认知雷达 机载雷达 机动目标跟踪 目标检测 q学习 深度q学习网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部