期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
结合先验知识的深度Q神经网络算法研究 被引量:3
1
作者 褚伟 茹琦 任明仑 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2019年第7期901-905,958,共6页
深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射... 深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射,根据先验知识对动作选择过程的影响程度,将先验知识引入DQN算法,优化DQN算法的动作选择规则,降低其在探索过程中的动作选择随机性,并使用赛车游戏对算法进行训练。实验结果表明,PK-DQN算法能够更快收敛,有较高的学习效率,算法训练时长明显缩短。 展开更多
关键词 深度学习 强化学习 深度q神经网络(DqN) 先验知识
在线阅读 下载PDF
基于深度学习神经网络和量子遗传算法的柔性作业车间动态调度 被引量:7
2
作者 陈亮 阎春平 +1 位作者 陈建霖 侯跃辉 《重庆大学学报》 CSCD 北大核心 2022年第6期40-54,共15页
针对柔性作业车间动态调度问题构建以平均延期惩罚、能耗、偏差度为目标的动态调度优化模型,提出一种基于深度Q学习神经网络的量子遗传算法。首先搭建基于动态事件扰动和周期性重调度的学习环境,利用深度Q学习神经网络算法,建立环境-行... 针对柔性作业车间动态调度问题构建以平均延期惩罚、能耗、偏差度为目标的动态调度优化模型,提出一种基于深度Q学习神经网络的量子遗传算法。首先搭建基于动态事件扰动和周期性重调度的学习环境,利用深度Q学习神经网络算法,建立环境-行为评价神经网络模型作为优化模型的适应度函数。然后利用改进的量子遗传算法求解动态调度优化模型。该算法设计了基于工序编码和设备编码的多层编码解码方案;制定了基于适应度的动态调整旋转角策略,提高了种群的收敛速度;结合基于Tent映射的混沌搜索算法,以跳出局部最优解。最后通过测试算例验证了环境-行为评价神经网络模型的鲁棒性和对环境的适应性,以及优化算法的有效性。 展开更多
关键词 柔性作业车间动态调度 能耗 平均延期惩罚 偏差度 深度q学习神经网络 改进量子遗传算法 混沌搜索
在线阅读 下载PDF
知识定义算力网络下的重击流智能流量调度机制 被引量:1
3
作者 粘英璞 易波 +2 位作者 李沛辰 王兴伟 黄敏 《计算机科学》 CSCD 北大核心 2024年第12期20-29,共10页
当前,知识定义网络赋能AI技术发展,算力网络提供AI所需算力资源,二者逐渐趋于融合,形成了知识定义算力网络(Knowledge Defined Computing Networking,KDCN)。KDCN赋能发展了诸多新型网络应用,如元宇宙、AR/VR、东数西算等,这些新型应用... 当前,知识定义网络赋能AI技术发展,算力网络提供AI所需算力资源,二者逐渐趋于融合,形成了知识定义算力网络(Knowledge Defined Computing Networking,KDCN)。KDCN赋能发展了诸多新型网络应用,如元宇宙、AR/VR、东数西算等,这些新型应用对算力资源和网络资源有极大的需求,被称为重击流(Heavy Hitter,HH)。HH流的存在严重加剧了KDCN网络的拥塞情况。针对这一挑战,提出了一种智能流量调度机制,旨在通过深度Q神经网络来解决KDCN中的拥塞问题。相较于离线训练过程,通过流量数据检测与采集、在模型训练和拥塞流调决策之间建立实时闭环,来实现深度Q神经网络模型的在线训练。基于该闭环控制,智能流调模型通过不断学习可以实现持续演化,并用于提供实时决策。实验结果表明,该算法在资源利用率、吞吐量、平均丢包率等方面优于现有方法。 展开更多
关键词 知识定义算力网络 深度q神经网络 智能拥塞流调 重击流 闭环控制
在线阅读 下载PDF
对多功能雷达的DQN认知干扰决策方法 被引量:19
4
作者 张柏开 朱卫纲 《系统工程与电子技术》 EI CSCD 北大核心 2020年第4期819-825,共7页
基于Q-Learning的认知干扰决策方法随着多功能雷达(multifunctional radar,MFR)可执行的任务越来越多,决策效率明显下降。对此,提出了一种对MFR的深度Q神经网络(deep Q network,DQN)干扰决策方法。首先,分析MFR信号特点并构建干扰库,以... 基于Q-Learning的认知干扰决策方法随着多功能雷达(multifunctional radar,MFR)可执行的任务越来越多,决策效率明显下降。对此,提出了一种对MFR的深度Q神经网络(deep Q network,DQN)干扰决策方法。首先,分析MFR信号特点并构建干扰库,以此为基础研究干扰决策方法。其次,通过对DQN原理的简要阐述,提出了干扰决策方法及其决策流程。最后,对该决策方法进行了仿真试验并通过对比DQN和Q-Learning的决策性能,验证了所提方法的必要性。为提高决策的实时性和准确率,对DQN算法进行了改进,在此基础上,结合先验知识进一步提高了决策效率。仿真试验表明:该决策方法能够较好地自主学习实际战场中的干扰效果,对可执行多种雷达任务的MFR完成干扰决策。 展开更多
关键词 多功能雷达 干扰决策 深度q神经网络 认知电子战 先验知识
在线阅读 下载PDF
基于强化学习的超启发算法求解有容量车辆路径问题 被引量:14
5
作者 张景玲 冯勤炳 +2 位作者 赵燕伟 刘金龙 冷龙龙 《计算机集成制造系统》 EI CSCD 北大核心 2020年第4期1118-1129,共12页
为了更高效地求解物流优化领域中的有容量车辆路径问题,减少陷入局部最优的情况,提出一种基于强化学习的超启发算法。设计了算法的高层启发式策略,包括选择策略和解的接受准则:基于学习机制,使用强化学习中的深度Q神经网络算法构造该算... 为了更高效地求解物流优化领域中的有容量车辆路径问题,减少陷入局部最优的情况,提出一种基于强化学习的超启发算法。设计了算法的高层启发式策略,包括选择策略和解的接受准则:基于学习机制,使用强化学习中的深度Q神经网络算法构造该算法的选择策略,对底层算子的性能进行奖惩评价;利用奖惩值以及模拟退火作为算法的接受准则,对优质解建立序列池,从而引导算法更有效地搜索解空间,并采用聚类思想提升初始解的质量。对有容量车辆问题的标准算例进行计算,并与其他算法对比,统计分析了最优值、误差率和平均值,实验结果表明了所提算法在该问题求解上的有效性和稳定性,总体求解效果优于对比算法。 展开更多
关键词 车辆路径问题 强化学习 深度q神经网络 超启发算法
在线阅读 下载PDF
基于态势认知的无人机集群围捕方法 被引量:14
6
作者 吴子沉 胡斌 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第2期424-430,共7页
无人机集群围捕是智能无人机"蜂群"作战的一种重要任务方式。现有集群围捕方法大多建立在环境已知的基础上,面对未知的任务环境时围捕策略经常性失效。针对此问题,提出了基于态势认知的发育模型,探索一种对环境适应性较佳的... 无人机集群围捕是智能无人机"蜂群"作战的一种重要任务方式。现有集群围捕方法大多建立在环境已知的基础上,面对未知的任务环境时围捕策略经常性失效。针对此问题,提出了基于态势认知的发育模型,探索一种对环境适应性较佳的围捕方法。首先,对集群围捕行为分解,将围捕离散化;然后,基于深度Q神经网络(DQN),设计一种围捕策略的生成方法;最后,建立状态-策略知识库,并通过大量有效数据的训练,针对不同环境获得不同的策略,对知识库进行发育。仿真结果表明:提出的基于态势认知的发育模型,能够有效适应不同环境,完成不同环境下的围捕。 展开更多
关键词 无人机 集群围捕 态势认知 深度q神经网络(DqN) 自主发育
在线阅读 下载PDF
面向智能工厂多机器人定位的无线分布式协同决策 被引量:2
7
作者 张文璐 霍子龙 +2 位作者 赵西雨 崔琪楣 陶小峰 《无线电通信技术》 2022年第4期718-727,共10页
由于未来智能工厂中智能机器人的工作环境复杂多变,机器人进行协作定位时无法获知全局信道状态,其选择的标定节点可能被其他机器人占用,导致定位性能的波动较大,稳定性差。针对该问题,提出了基于双重深度超Q神经网络(DDHQN)的多机器人... 由于未来智能工厂中智能机器人的工作环境复杂多变,机器人进行协作定位时无法获知全局信道状态,其选择的标定节点可能被其他机器人占用,导致定位性能的波动较大,稳定性差。针对该问题,提出了基于双重深度超Q神经网络(DDHQN)的多机器人协同决策算法;首先将多机器人进行协作定位时的决策系统构建为竞争加合作模型,并通过奖励函数的设计鼓励机器人参与协作;为了避免机器人之间的决策冲突,引入表示机器人决策轨迹的记录空间以实现对其他机器人的行为预估,记录空间的内容依据机器人的无线感知结果进行迭代更新;最后,仿真证明了所提出的基于DDHQN的多机器人协同决策算法使得每个机器人能够以群体性能最大为目标进行独立学习,在一定的迭代次数后可以实现精准的行为预估,并收敛到稳定有效的决策方案。 展开更多
关键词 双重深度q神经网络(DDHqN) 多机器人协同 标定节点选择 决策轨迹 行为预估 无线感知
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部