期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
图强化学习算法及其在工业领域的应用研究综述
1
作者 李大字 刘子博 +2 位作者 包琰洋 董才波 徐昕 《国防科技大学学报》 北大核心 2025年第4期76-90,共15页
强化学习在决策支持、组合优化及智能控制等领域的成功应用推动了其对复杂工业场景的探索,然而现有强化学习方法难以迁移到非欧几里得空间的图结构数据。图神经网络在学习图结构数据方面表现出卓越的性能,为此,通过将图与强化学习结合... 强化学习在决策支持、组合优化及智能控制等领域的成功应用推动了其对复杂工业场景的探索,然而现有强化学习方法难以迁移到非欧几里得空间的图结构数据。图神经网络在学习图结构数据方面表现出卓越的性能,为此,通过将图与强化学习结合将图结构数据引入强化学习任务中,丰富了强化学习的知识表征,为解决复杂工业过程问题提供了新范式。系统梳理了图强化学习算法在工业领域的研究进展,从算法架构层面归纳总结图强化学习算法并提炼出了三大主流范式,探讨了其在生产调度、工业知识图谱推理、工业互联网及电力系统领域的应用进展,并分析了当前该领域面临的挑战与未来的发展趋势。 展开更多
关键词 强化学习 图神经网络 图强化学习 图结构数据
在线阅读 下载PDF
基于深度强化学习的IRS辅助无线传感网充电策略研究 被引量:2
2
作者 白义倩 刘韬 +1 位作者 杨晋 张亮 《传感器与微系统》 北大核心 2025年第1期11-16,共6页
无线可充电传感器网络(WRSNs)广泛应用于许多领域,然而,传感器节点的电池容量有限阻碍了其发展。借助无线能量传输技术,引入智能反射面(IRS)对传感器节点进行无线充电已成为延长WRSNs寿命的一项有前景的技术。但在大规模WRSNs环境中,传... 无线可充电传感器网络(WRSNs)广泛应用于许多领域,然而,传感器节点的电池容量有限阻碍了其发展。借助无线能量传输技术,引入智能反射面(IRS)对传感器节点进行无线充电已成为延长WRSNs寿命的一项有前景的技术。但在大规模WRSNs环境中,传统强化学习方法会遇到维度灾难而导致学习效率低下,于是提出了一种无模型深度强化学习(DRL)的WRSNs能量传输方案。首先,研究如何对IRS的相位偏移进行优化,来补充传感器能量供应的问题,使得目标节点处的接收功率最大化;基于上述相移优化,在WRSNs中以IRS作为智能体,结合传感器实时状态,设计基于DRL的高效充电算法,采用不同的双网络结构解决传统DRL算法会存在的过估计问题,克服大规模网络下强化学习计算量过大和学习效率下降的问题。仿真结果表明:该算法能够达到显著降低节点失效率并最大程度地延长WRSNs生命周期的目的。 展开更多
关键词 无线传感器网络 智能反射面 相位偏移优化 深度强化学习 双网络结构
在线阅读 下载PDF
准连续网状增强TiAl基复合材料的设计与研究 被引量:1
3
作者 刘赵婷 李明骜 +2 位作者 肖树龙 陈玉勇 熊意义 《中国有色金属学报》 北大核心 2025年第5期1611-1625,共15页
本文设计并结合低能球磨和放电等离子烧结技术成功制备了一种具有C元素强塑化基体单元的准连续网状增强TiAl基复合材料,并对其微观组织演化和高温力学性能进行了研究。结果表明:材料的烧结组织主要由TiAl基体单元及其界面层的准连续网... 本文设计并结合低能球磨和放电等离子烧结技术成功制备了一种具有C元素强塑化基体单元的准连续网状增强TiAl基复合材料,并对其微观组织演化和高温力学性能进行了研究。结果表明:材料的烧结组织主要由TiAl基体单元及其界面层的准连续网状增强结构组成,基体单元内部为γ相和(α_(2)+γ)层片团构成的双态组织,准连续网状增强结构中增强体主要为针状和颗粒状的TiB、Ti_(2)AlC和Ti_(3)AlC相;随着B_(4)C含量增加,准连续网状增强结构的厚度和连续性增加,基体单元的连通性降低;相同B_(4)C含量条件下,随着Ti Al合金粉末粒径减小,准连续网状增强结构的厚度和连续性减小,基体单元的连通性提高;同时,准连续网状增强结构能够将TiAl基复合材料900℃的高温极限抗拉强度(UTS)和伸长率显著提高至441.0 MPa和2.3%。 展开更多
关键词 TIAL基复合材料 准连续网状增强结构 放电等离子烧结 组织演化 力学性能
在线阅读 下载PDF
基于GNN因果推断的结构增强漏洞检测模型
4
作者 司文 赵富成 +2 位作者 李硕 杨帅林 任家东 《燕山大学学报》 北大核心 2025年第4期309-318,共10页
针对现有漏洞检测方法基于单纯的图神经网络模型来提取图结构特征会出现信息标签与图结构直接存在分布外泛化情况从而导致检测效率低的问题,提出了一种基于图神经网络因果推断结合的结构增强漏洞检测模型。该模型将源代码视为一个线性... 针对现有漏洞检测方法基于单纯的图神经网络模型来提取图结构特征会出现信息标签与图结构直接存在分布外泛化情况从而导致检测效率低的问题,提出了一种基于图神经网络因果推断结合的结构增强漏洞检测模型。该模型将源代码视为一个线性化的令牌序列,首先基于词共现关系构建图结构,然后通过图神经网络的剩余连接将图分成因果图和混淆图,分层混淆变量,模拟因果变量与标签之间的因果性关系。最后对因果图和混淆图进行节点嵌入,实现图结构特征的增强。并在CodeXGLUE的真实基准数据集上进行了验证,检测结果在准确率、精确率、F1值上比最优基线方法分别提升了3.15%、3.77%、2.57%,在漏洞检测的性能上取得了显著提升。 展开更多
关键词 深度学习 图神经网络 因果推断 结构增强 漏洞检测
在线阅读 下载PDF
基于改进DQN算法的移动机器人路径规划
5
作者 于效民 王欣 +1 位作者 吴迪 刘雪莲 《计算机应用与软件》 北大核心 2025年第6期335-341,共7页
移动机器人在动态未知复杂环境中进行路径规划时,需要保证机器人的实时性。针对DQN算法在移动机器人路径规划中存在的过估计问题以及收敛速度慢的问题,提出一种C-RD3QN算法(Combination-Residual Dueling Double DQN)。该算法在D3QN算... 移动机器人在动态未知复杂环境中进行路径规划时,需要保证机器人的实时性。针对DQN算法在移动机器人路径规划中存在的过估计问题以及收敛速度慢的问题,提出一种C-RD3QN算法(Combination-Residual Dueling Double DQN)。该算法在D3QN算法基础上,将卷积层修改为残差网络结构,使用竞争网络结构中的动作优势函数来估计动作值函数,将状态值函数与奖励值结合,使机器人达到更快的收敛速度。经过仿真实验对比分析,表明C-RD3QN算法能够进行更优的路径规划。 展开更多
关键词 深度强化学习 机器人路径规划 残差网络结构 奖励值重构
在线阅读 下载PDF
三维网络结构增强复合材料磨损模型的研究 被引量:4
6
作者 王守仁 耿浩然 +1 位作者 张景春 王英姿 《摩擦学学报》 EI CAS CSCD 北大核心 2006年第5期456-460,共5页
考虑网络结构增强体特殊的拓扑结构因素和弹性模量影响,利用复合材料磨损率最小化和最大化假设,建立了网络结构增强复合材料的磨损模型,同时制备了不同体积分数的Si3N4陶瓷增强Al-Mg合金复合材料,并将其磨损试验结果数据拟合到模型... 考虑网络结构增强体特殊的拓扑结构因素和弹性模量影响,利用复合材料磨损率最小化和最大化假设,建立了网络结构增强复合材料的磨损模型,同时制备了不同体积分数的Si3N4陶瓷增强Al-Mg合金复合材料,并将其磨损试验结果数据拟合到模型中.结果表明,所建立的模型可以反映复合材料增强相的体积分数、复合材料的弹性模量和磨损率之间的数学关系,证明复合材料的摩擦磨损率随增强相体积分数的增加而逐渐降低,当体积分数超过45%~50%时,磨损率随增强相体积分数的增加而逐渐增大.该模型不同于Khmschov模型和Zum—Gahr模型,其关系不遵循线性规则.与增强体复合材料的磨损试验数据拟合表明,该模型能够较好地反映网络结构增强复合材料的磨损性能,具有一定普遍性. 展开更多
关键词 金属基复合材料 网络结构增强体 磨损性能 磨损模型
在线阅读 下载PDF
甲壳素纳米纤维/聚乳酸复合材料的制备及性能 被引量:4
7
作者 李晶晶 赵泾峰 +1 位作者 孙景荣 李大纲 《高分子材料科学与工程》 EI CAS CSCD 北大核心 2017年第3期161-167,共7页
利用甲壳素纳米纤维(CHNFs)对聚乳酸(PLA)进行增强改性,分别采用湿混法和聚乙二醇(PEG)分散剂法制备了挤出成型的CHNFs/PLA复合材料,并对复合材料的力学性能、热性能及微观形貌进行表征。结果表明,制备的α-甲壳素纳米纤维直径小于100 ... 利用甲壳素纳米纤维(CHNFs)对聚乳酸(PLA)进行增强改性,分别采用湿混法和聚乙二醇(PEG)分散剂法制备了挤出成型的CHNFs/PLA复合材料,并对复合材料的力学性能、热性能及微观形貌进行表征。结果表明,制备的α-甲壳素纳米纤维直径小于100 nm,长度为几百微米,具有三维网状结构;湿混法和PEG分散剂法对制备的CHNFs/PLA复合材料都有较好的增强作用,当CHNFs的添加量高于30%时,湿混法制备的复合材料的力学性能明显优于PEG分散剂法制备的复合材料;对复合材料的扫描电镜图分析表明,湿混法制备的复合材料中有大量的网状细丝均匀致密地分散在PLA的断面,达到了对CHNFs预期的分散效果,而PEG分散剂法制备的复合材料中,CHNFs以短小纤维的聚集体形态分布于复合材料的断面,说明聚乙二醇对于CHNFs与PLA体系是良好的界面相容剂,但是该方法降低了CHNFs的长径比。因此湿混法是一种更有效的纤维预处理方式。 展开更多
关键词 甲壳素纳米纤维 聚乳酸 预处理 网状结构 增强
在线阅读 下载PDF
炭黑和硫化对丁苯橡胶应力-应变行为的影响 被引量:5
8
作者 韩晶杰 吴驰飞 +2 位作者 谢林生 曾为民 马玉录 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第1期54-58,共5页
研究了几种炭黑对丁苯橡胶的补强效果,提出了一个新的补强模型——超级网络结构模型。该模型是由硫磺形成的不可逆化学交联网络和由炭黑-橡胶相互作用形成的可逆物理交联网络,这两个网络彼此不独立,而是交织在一起的一个超级网络结构。... 研究了几种炭黑对丁苯橡胶的补强效果,提出了一个新的补强模型——超级网络结构模型。该模型是由硫磺形成的不可逆化学交联网络和由炭黑-橡胶相互作用形成的可逆物理交联网络,这两个网络彼此不独立,而是交织在一起的一个超级网络结构。可逆交联网络的强度越大,炭黑的补强作用越大。 展开更多
关键词 橡胶补强 超级网络结构 炭黑-橡胶相互作用
在线阅读 下载PDF
低温固相反应挤出PET/PC合金中的多重网络增韧结构 被引量:9
9
作者 郭卫红 王晓光 +3 位作者 徐东东 张万里 殷国蓉 吴驰飞 《高等学校化学学报》 SCIE EI CAS CSCD 北大核心 2007年第11期2200-2204,共5页
以聚对苯二甲酸乙二酯(PET)瓶片为主要原料,加入聚碳酸酯(PC)、热塑性弹性体及扩链剂,采用低温固相反应挤出制备了具有良好强度与韧性的新型合金.在加工过程中产生PET相和PC相互穿的网络结构的同时,反应性扩链剂在PET相中发生交联反应,... 以聚对苯二甲酸乙二酯(PET)瓶片为主要原料,加入聚碳酸酯(PC)、热塑性弹性体及扩链剂,采用低温固相反应挤出制备了具有良好强度与韧性的新型合金.在加工过程中产生PET相和PC相互穿的网络结构的同时,反应性扩链剂在PET相中发生交联反应,形成了次级网络结构.由于这些网络结构的存在,使合金材料的力学性能得到明显提高,特别是缺口冲击性能有了明显的改善. 展开更多
关键词 PET/PC合金 低温固相加工 反应挤出 多重网络结构 增韧结构
在线阅读 下载PDF
基于DDQN的风电替代传统电源的输电网结构优化研究 被引量:5
10
作者 王渝红 周旭 +3 位作者 陈磊 曾琦 郑宗生 史云翔 《电网技术》 EI CSCD 北大核心 2022年第6期2084-2094,共11页
推动可再生能源替代化石能源是实现碳达峰、碳中和目标的有力举措。为了降低大规模风电替代传统能源接入电网的波动性影响,需合理优化接入点周边输电网结构以保证系统在不确定场景下的稳定性。文章应用人工智能技术,提出了一种考虑风电... 推动可再生能源替代化石能源是实现碳达峰、碳中和目标的有力举措。为了降低大规模风电替代传统能源接入电网的波动性影响,需合理优化接入点周边输电网结构以保证系统在不确定场景下的稳定性。文章应用人工智能技术,提出了一种考虑风电替代可靠性与经济性的深度强化学习输电网结构优化方法。首先,考虑大容量风电场出力波动性提出了风电场接入K阶电气介数熵均衡度用以评估风电场邻近区域潮流均衡度。其次,以马尔科夫决策视角构建了一种可交互式求解的输电网结构优化强化学习模型。最后,通过在改进的IEEE RTS 24系统中模拟大容量风电替代场景,应用智能多代理(double deep Q network,DDQN)深度强化学习算法求解输电网结构优化方案,验证了该方法的优越性与有效性。 展开更多
关键词 双碳 新能源替代 风电 深度强化学习 输电网结构优化
在线阅读 下载PDF
钢筋混凝土框架结构震损预测模型参数敏感性 被引量:3
11
作者 韩小雷 蔡燕飞 +1 位作者 杨明灿 季静 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2023年第4期563-571,共9页
应用机器学习算法进行钢筋混凝土框架结构地震易损性评估时,结构特征参数冗杂且无法便捷选取,针对此问题本文采用基于神经网络的敏感性分析方法,利用2个训练有素的神经网络模型,分别从结构层次和构件层次探究了不同输入参数对结构震损... 应用机器学习算法进行钢筋混凝土框架结构地震易损性评估时,结构特征参数冗杂且无法便捷选取,针对此问题本文采用基于神经网络的敏感性分析方法,利用2个训练有素的神经网络模型,分别从结构层次和构件层次探究了不同输入参数对结构震损指标的影响大小。进行敏感性分析的参数包括5个几何参数(结构层数、标准层高度、X向跨度、X向跨数、Y向跨数)、2个设计参数(抗震设防烈度、场地类别)和1个地震动参数(地面峰值加速度)。结果表明:平面尺寸参数对结构及构件层次的震损指标敏感性均较小。剔除敏感性较小的参数后,在重要震损指标的预测上仍然有较高的准确性,为钢筋混凝土框架结构的震损预测提供了更简便的参数输入依据。 展开更多
关键词 神经网络 敏感性分析 钢筋混凝土框架结构 地震易损性 结构特征参数 机器学习 震损预测 震损指标
在线阅读 下载PDF
电厂通信楼控制爆破拆除 被引量:5
12
作者 沈朝虎 《爆破》 CSCD 2004年第4期60-62,共3页
 根据工程实例介绍了发电厂内周围建筑、设施较为复杂的环境中,在不影响电厂机组正常发电的情况下,通过选择合理的爆破方案、施工工艺、起爆网路和安全防护措施,使控制爆破获得了成功。
关键词 控制爆破拆除 建筑 爆破方案 工程实例 起爆网路 施工工艺 安全防护措施 正常 影响 合理
在线阅读 下载PDF
基于Double-DQN的中央空调系统节能优化运行 被引量:14
13
作者 闫军威 黄琪 周璇 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期135-144,共10页
针对中央空调系统机理建模困难和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和自学习机制的中央空调系统节能优化运行方法;设计了空调系统马尔可夫决策过程模型,采用具有双神经网络结构的强化学习算法解决学习过程中容易产... 针对中央空调系统机理建模困难和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和自学习机制的中央空调系统节能优化运行方法;设计了空调系统马尔可夫决策过程模型,采用具有双神经网络结构的强化学习算法解决学习过程中容易产生的维数灾难和值函数过估计问题.然后以广州市某办公建筑中央空调系统为研究对象,建立该系统的TRNSYS仿真平台,对算法的有效性进行了验证.仿真结果表明:该方法在满足室内热舒适性要求的前提下,以系统能耗最小为目标,实现了系统的节能优化运行;与PID控制和单神经网络强化学习控制方法相比,系统总能耗分别降低5.36%和1.64%,非舒适性时间总占比分别减少2.32%和1.37%.文中提出的强化学习控制器能够有效解决值函数过估计问题,具有良好的鲁棒性,自适应优化能力和较好的节能效果,可为建筑节能提供新思路. 展开更多
关键词 中央空调系统 节能优化运行 强化学习 Double-DQN算法 双神经网络结构 总能耗 室内热舒适性
在线阅读 下载PDF
基于强化学习的贝叶斯网络模型生成方法研究 被引量:1
14
作者 岑岗 郑泽宇 +2 位作者 岑跃峰 王佳晨 吴思凡 《计算机应用与软件》 北大核心 2024年第12期261-267,313,共8页
传统贝叶斯网络的网络结构需要人为事先确定,用于预测时模型可靠性与准确性较低,因此提出一种基于强化学习的贝叶斯网络模型生成方法。将强化学习用于对最优泛化残差评分的搜寻,通过构建邻接矩阵的方式将贝叶斯网络抽象成有向无环图;对... 传统贝叶斯网络的网络结构需要人为事先确定,用于预测时模型可靠性与准确性较低,因此提出一种基于强化学习的贝叶斯网络模型生成方法。将强化学习用于对最优泛化残差评分的搜寻,通过构建邻接矩阵的方式将贝叶斯网络抽象成有向无环图;对于构建完成的贝叶斯网络,提出一种基于因果方向判断的贝叶斯网络结构优化方法。实验结果表明,该方法优于各类传统的贝叶斯网络结构生成方法。 展开更多
关键词 贝叶斯网络 强化学习 并行集成 因果方向判断 结构生成与优化
在线阅读 下载PDF
SMARC波纹型蒙皮驱动特性研究及神经网络建模
15
作者 周春华 王帮峰 +2 位作者 刘曌 陈珩 牟常伟 《功能材料》 EI CAS CSCD 北大核心 2012年第8期1079-1083,共5页
为满足变体机翼蒙皮连续光滑以及大变形要求,提出了一种可主动变形的SMARC波纹型蒙皮结构,并制备了两种蒙皮实验样件,在不同环境温度下,进行了拉伸与驱动实验。拉伸实验结果表明SMARC样件拉伸变形性能优于不含SMA丝样件,但SMARC材料受... 为满足变体机翼蒙皮连续光滑以及大变形要求,提出了一种可主动变形的SMARC波纹型蒙皮结构,并制备了两种蒙皮实验样件,在不同环境温度下,进行了拉伸与驱动实验。拉伸实验结果表明SMARC样件拉伸变形性能优于不含SMA丝样件,但SMARC材料受温度影响较大,温度升高,结构刚度减小;驱动实验中,初始位移线性增加,当激励电流超过3.4A时,复合材料基体受热软化,导致位移呈非线性变化趋势。最后在实验基础上建立了一个以电流强度为输入参量,驱动位移为输出参量的RBF神经网络模型,其逼近曲线较为准确和贴近实际驱动特性,最大预测相对误差<6%,为智能蒙皮的主动控制研究提供了一定的理论及实验依据。 展开更多
关键词 主动变形 波纹型蒙皮结构 形状记忆合金增强复合材料 人工神经网络
在线阅读 下载PDF
可主动变形波纹蒙皮驱动控制及神经网络建模
16
作者 周春华 王帮峰 +2 位作者 刘曌 陈珩 牟常伟 《兵器材料科学与工程》 CAS CSCD 北大核心 2012年第1期25-28,共4页
为满足变体机翼蒙皮连续光滑以及大变形要求,提出一种可主动变形的波纹型蒙皮构型,并进行驱动试验。试验中使用恒流源控制激励电流强度,在驱动试验数据的基础上建立一个以电流强度为输入参量,驱动位移为输出参量的RBF神经网络模型。该... 为满足变体机翼蒙皮连续光滑以及大变形要求,提出一种可主动变形的波纹型蒙皮构型,并进行驱动试验。试验中使用恒流源控制激励电流强度,在驱动试验数据的基础上建立一个以电流强度为输入参量,驱动位移为输出参量的RBF神经网络模型。该模型逼近曲线较为准确和贴近实际驱动特性,最大预测相对误差小于6%。 展开更多
关键词 主动变形 波纹蒙皮结构 形状记忆合金增强复合材料 人工神经网络
在线阅读 下载PDF
钢筋混凝土梁结构断裂损伤诊断方法
17
作者 周尚志 王丽华 刘瑛 《海洋工程》 CSCD 北大核心 2005年第4期47-51,共5页
提出一种基于BP神经网络的结构破损诊断方法,该方法以结构破损前后柔度的变化作为破损诊断网络输入,为了解决由于系统响应样本数据空间分布不均匀对网络收敛速度及网络诊断影响问题,对网络训练样本采用广义空间格点进行了交换,模拟算例... 提出一种基于BP神经网络的结构破损诊断方法,该方法以结构破损前后柔度的变化作为破损诊断网络输入,为了解决由于系统响应样本数据空间分布不均匀对网络收敛速度及网络诊断影响问题,对网络训练样本采用广义空间格点进行了交换,模拟算例及应用实例均表明,本文方法能准确诊断结构破损位置与破坏程度,是一种有效的结构破损诊断方法。 展开更多
关键词 钢筋混凝土梁 结构动力学 神经网络 破损诊断 广义空间格点变换
在线阅读 下载PDF
网络结构增强金属基复合材料的研究进展 被引量:4
18
作者 李文静 舒玲玲 +2 位作者 吴刚 李文戈 吴钱林 《机械工程材料》 CAS CSCD 北大核心 2012年第7期1-6,共6页
网络结构增强是一种全新的复合材料增强方式,其特征是增强相与基体在复合材料中形成各自连续且相互贯穿的三维网络结构,增强相因与之相互贯穿的基体所具有的韧性而得到增韧,基体则由于硬质网络结构增强相的骨架刚性承载作用而得到增强... 网络结构增强是一种全新的复合材料增强方式,其特征是增强相与基体在复合材料中形成各自连续且相互贯穿的三维网络结构,增强相因与之相互贯穿的基体所具有的韧性而得到增韧,基体则由于硬质网络结构增强相的骨架刚性承载作用而得到增强。主要评述了国内外网络结构增强金属基复合材料的制备工艺、特点及组织结构,重点介绍了复合材料的力学、热学、摩擦学性能及其今后发展趋势。 展开更多
关键词 网络结构增强 金属基复合材料 制备工艺 组织 性能
在线阅读 下载PDF
基于深度强化学习的变电站巡检机器人自动化控制方法研究 被引量:54
19
作者 董诗绘 牛彩雯 戴琨 《高压电器》 CAS CSCD 北大核心 2021年第2期172-177,共6页
针对变电站巡检机器人在传统运动规划方法下存在的难以规划出平滑路径、不确定环境下动作不可测等问题,提出研究不确定条件下的变电站巡检机器人运动规划问题的深度强化学习方法。文中分析了深度学习中奖励值模型II、探索策略和神经网... 针对变电站巡检机器人在传统运动规划方法下存在的难以规划出平滑路径、不确定环境下动作不可测等问题,提出研究不确定条件下的变电站巡检机器人运动规划问题的深度强化学习方法。文中分析了深度学习中奖励值模型II、探索策略和神经网络结构对整个运动规划的影响,设计了不同结构的神经网络,并开展了相关的对比实验。结果表明,在当前任务场景下,相同的运算量神经网络结构C2比神经网络结构C1和神经网络结构C3的计算时间要短。因此,在计算资源短缺时,建议采用神经网络结构C2,更有利于对变电站巡检机器人进行精准的运动规划,提高自动化控制效率。 展开更多
关键词 变电站巡检机器人 深度强化学习 自动化控制 神经网络结构 奖励值模型
在线阅读 下载PDF
基于权重值的竞争深度双Q网络算法 被引量:5
20
作者 汪晨曦 赵学艳 郭新 《南京信息工程大学学报(自然科学版)》 CAS 北大核心 2021年第5期564-570,共7页
在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算... 在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升. 展开更多
关键词 深度强化学习 深度双Q网络 竞争网络结构 权重值
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部