期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
弹性资源介入下基于知识矩阵跨维度迁移的电力调度优化
1
作者 唐昊 杨晨芳 +2 位作者 程文娟 王正风 史明光 《控制工程》 北大核心 2025年第6期995-1007,共13页
各类源荷弹性资源逐渐介入电网,使得电力系统的动态特性进一步复杂化。为提升电力系统调度优化任务的学习效率,基于弹性资源介入前源电力系统的调度知识矩阵提出一种跨维度迁移的学习优化方法。首先,利用欧式-动态时间弯曲距离,给出源... 各类源荷弹性资源逐渐介入电网,使得电力系统的动态特性进一步复杂化。为提升电力系统调度优化任务的学习效率,基于弹性资源介入前源电力系统的调度知识矩阵提出一种跨维度迁移的学习优化方法。首先,利用欧式-动态时间弯曲距离,给出源任务与目标任务间关联特征的相似度判定方法。然后,引入主成分分析特征降维技术,建立源任务与目标任务间相似状态/动作的映射关系,提出基于调度知识矩阵跨维度迁移的强化学习方法,解决因源任务与目标任务状态或动作维数不同而导致的历史调度知识不能直接利用的问题。最后,以IEEE-300节点系统进行仿真分析,结果表明,所提方法能有效利用源任务的历史调度知识,实现弹性资源介入时复杂电力系统的快速调度优化。 展开更多
关键词 跨维度知识迁移 电力调度 欧式-动态时间弯曲距离 弹性资源 强化学习
在线阅读 下载PDF
基于块合并策略的三维装箱多目标优化算法 被引量:1
2
作者 杨欣 李明 《包装工程》 北大核心 2025年第1期193-202,共10页
目的针对货车三维装箱的多目标优化问题,旨在提升货车货物的装载效率,降低装载成本,并确保货物在运输过程中的安全性。方法结合货物在运输转弯过程中的力学分析,求解货物重心的安全区域,构建货车三维装箱多目标优化模型;提出一种基于块... 目的针对货车三维装箱的多目标优化问题,旨在提升货车货物的装载效率,降低装载成本,并确保货物在运输过程中的安全性。方法结合货物在运输转弯过程中的力学分析,求解货物重心的安全区域,构建货车三维装箱多目标优化模型;提出一种基于块合并的策略,以减少决策空间;设计一种基于强化学习、Q-Learning算法的双种群约束多目标优化框架,以提高算法的收敛性和解的多样性;利用公共数据集和实例数据进行验证。结果在满足转弯重心约束及其他约束的基础上,所提算法的平均空间利用率为92.07%,显著高于其他算法。结论本文所提的多目标优化算法能有效提高三维装箱问题的空间利用率和载重利用率,为工程实践中的三维装箱问题提供了有效的解决方案和参考。此外,该算法在保障货物运输安全性的前提下,显著提升了装箱规划的效率。 展开更多
关键词 三维装箱 多目标优化 块组合 强化学习 转弯重心约束
在线阅读 下载PDF
融合强化学习与注意力机制的联合关系抽取模型
3
作者 秦文硕 李智杰 +2 位作者 李昌华 张颉 介军 《小型微型计算机系统》 北大核心 2025年第8期1942-1949,共8页
关系抽取(RE)是信息抽取的核心任务.近年来,CasRel模型通过实体映射来解决具有重叠三元组的复杂场景,该模型在关系抽取中的良好表现引发了人们的对相关研究的兴趣.但是该模型具有以下缺点:对文本中句子连续性考虑不充分、输入样本不平... 关系抽取(RE)是信息抽取的核心任务.近年来,CasRel模型通过实体映射来解决具有重叠三元组的复杂场景,该模型在关系抽取中的良好表现引发了人们的对相关研究的兴趣.但是该模型具有以下缺点:对文本中句子连续性考虑不充分、输入样本不平衡以及数据噪声对模型影响较为明显.针对以上缺点,本文提出一种基于CasRel的改进模型BACJRE(BiLSTM-Attention-CRF Joint Relation Extraction).在数据方面,通过强化学习的手段训练出低噪声的数据样本;在模型方面,通过引入注意力机制使其充分接收句子信息.模型中的头实体联合解码器通过结合BiLSTM+CRF+Attention层,提高模型对于非结构化文本中句子的信息抓取能力;在模型尾端集成的Focal Loss函数优化了在样本分布不均的条件下的关系抽取性能.本文在WebNLG、NYT及NYT11-HRL数据集上对BACJRE模型以及相关主流模型进行比对,实验结果表明BACJRE模型优于基线模型. 展开更多
关键词 关系抽取 强化学习 CasRel 注意力机制
在线阅读 下载PDF
考虑配电系统拓扑变化的电压控制深度强化学习方法
4
作者 冯昌森 李邗邺 +2 位作者 汤飞霞 文福拴 张有兵 《电力自动化设备》 北大核心 2025年第8期156-163,共8页
随着间歇性分布式发电渗透率不断提高,电压越限等问题出现得更加频繁,且现有的电压控制方法无法有效考虑配电系统拓扑变化。提出一种考虑配电系统拓扑变化的电压控制深度强化学习方法。考虑到配电系统运行状态复杂多样和通信成本等问题... 随着间歇性分布式发电渗透率不断提高,电压越限等问题出现得更加频繁,且现有的电压控制方法无法有效考虑配电系统拓扑变化。提出一种考虑配电系统拓扑变化的电压控制深度强化学习方法。考虑到配电系统运行状态复杂多样和通信成本等问题,将电压控制问题建模为分布式部分可观测马尔可夫决策过程;以降维注意力网络为基础,构建长时特征提取网络,增强智能体对长时间序列的特征提取能力,自注意力机制可使智能体有效感知配电系统的拓扑变化;为保证智能体学习到安全的控制策略,将迭代投影法作为安全校验机制加入策略网络中。以改进的IEEE 141节点配电系统为例,对所提方法的有效性和鲁棒性进行验证。 展开更多
关键词 配电系统 电压控制 拓扑变化 深度强化学习 降维注意力 长时特征提取
在线阅读 下载PDF
面向关系建模的合作多智能体深度强化学习综述
5
作者 熊丽琴 陈希亮 +2 位作者 赖俊 骆西建 曹雷 《计算机工程与应用》 北大核心 2025年第18期41-60,共20页
近年来,多智能体深度强化学习发展迅速并被广泛用于各种多智能体协同任务,已经成为人工智能领域的一个研究热点,但如何实现多智能体高效协同仍是其当前面临的重大挑战之一。作为一种流行的解决方案,面向关系建模的合作多智能体深度强化... 近年来,多智能体深度强化学习发展迅速并被广泛用于各种多智能体协同任务,已经成为人工智能领域的一个研究热点,但如何实现多智能体高效协同仍是其当前面临的重大挑战之一。作为一种流行的解决方案,面向关系建模的合作多智能体深度强化学习方法通过刻画智能体与智能体、智能体与系统整体的关系来准确捕获并利用智能体的个体贡献和智能体间相互作用以有效促进多智能体协同,具有重要研究意义和应用价值。简要介绍多智能体系统中存在的关系和多智能体深度强化学习的基础知识;从关系建模层次的角度出发将面向关系建模的合作多智能体深度强化学习算法分为基于个体间关系建模、基于个体与全局间关系建模以及基于多尺度关系建模这三类,并对其基本原理及优缺点进行全面梳理;着重介绍了其在无人集群控制、任务与资源分配、智能交通运输等领域中的应用情况。最后,总结当前面临的主要挑战并对未来研究方向进行展望。 展开更多
关键词 深度强化学习 多智能体强化学习 部分可观测马尔科夫决策过程 多智能体协同 关系建模
在线阅读 下载PDF
基于状态降维的快速强化学习电力网络系统控制
6
作者 童涛 陈海宾 +2 位作者 甄昊涵 沈华 林文浩 《计算机应用与软件》 北大核心 2025年第3期92-101,共10页
为了避免大规模电力网络系统控制的维数灾,提升其可控性,提出一种基于状态降维的快速强化学习方法。通过投影矩阵投影测量状态来构造压缩状态向量,捕获开环网络模型的主要可控子空间,从而利用网络可控性的低秩属性避免了维数灾难;提出... 为了避免大规模电力网络系统控制的维数灾,提升其可控性,提出一种基于状态降维的快速强化学习方法。通过投影矩阵投影测量状态来构造压缩状态向量,捕获开环网络模型的主要可控子空间,从而利用网络可控性的低秩属性避免了维数灾难;提出降维状态深度学习控制器,从而使结果成本接近最优LQR成本。通过一致性网络系统和IEEE广域控制实验结果,验证了提出的方法能够显著加快学习时间,同时保证了较好的优化性能。 展开更多
关键词 状态降维 强化学习 网络系统 维数灾难
在线阅读 下载PDF
中医文本远程监督实体关系联合抽取方法
7
作者 马月坤 高健翔 《计算机工程与设计》 北大核心 2025年第6期1750-1757,共8页
对中医文本进行远程监督关系抽取时,传统的噪声去除方法往往忽略了实体在句中多次出现的情况,并且只为数据选择一个标签。同时大多数抽取方法忽略了中医文本中大量存在的关系重叠现象。鉴于上述问题和传统中医文本的特点,提出一种面向... 对中医文本进行远程监督关系抽取时,传统的噪声去除方法往往忽略了实体在句中多次出现的情况,并且只为数据选择一个标签。同时大多数抽取方法忽略了中医文本中大量存在的关系重叠现象。鉴于上述问题和传统中医文本的特点,提出一种面向传统中医文本的远程监督实体关系联合抽取方法(BERT-ATT-RL-HRL)。设计一个带有注意力机制的深度强化学习去噪网络,实现标签级别的噪声去除;基于BERT和分层强化学习框架构建一个联合抽取网络,实现句子级别的重叠关系三元组的提取。通过两个网络的联合训练获得了更好的联合抽取效果。在传统中医远程监督数据集上进行实验,实体关系联合抽取的F1值可达到0.707。 展开更多
关键词 中医文本 远程监督 联合抽取 深度强化学习 注意力机制 关系抽取 信息抽取
在线阅读 下载PDF
越野车辆多维耦合稳定性深度强化学习控制
8
作者 夏光 吴士标 +2 位作者 张洋 魏恒 刘贤阳 《汽车工程》 北大核心 2025年第9期1686-1699,共14页
越野车辆在极限工况下易发生整车侧滑、纵滑和侧倾的多维失稳,且难以用具体的数学模型表征整车稳定性状态,因此本文提出了极限工况下越野车辆多维耦合稳定性深度强化学习协同控制策略。首先建立不同维度稳定性评价指标,同时构建多维耦... 越野车辆在极限工况下易发生整车侧滑、纵滑和侧倾的多维失稳,且难以用具体的数学模型表征整车稳定性状态,因此本文提出了极限工况下越野车辆多维耦合稳定性深度强化学习协同控制策略。首先建立不同维度稳定性评价指标,同时构建多维耦合稳定域,根据轮胎纵横垂向力耦合关系进行稳定域划分,并通过离线轮胎模型训练确定各稳定域的边界参数;其次通过DDPG(deep deterministic policy gradient)深度强化学习算法构建越野车辆与环境交互下的控制策略,输出各维度最优权重系数表征越野车辆稳定性状态;再基于汽车底盘解耦的协同控制策略设计纵滑、侧滑和侧倾控制器进行稳定性控制;最后,通过CarSim与Simulink联合仿真验证和硬件在环平台验证,结果表明基于DDPG算法下多维耦合稳定性控制策略显著提升整车综合稳定性。 展开更多
关键词 越野车辆 多维耦合稳定域 深度强化学习 协同控制 硬件在环试验
在线阅读 下载PDF
基于深度强化学习的移动机器人三维路径规划方法 被引量:7
9
作者 马天 席润韬 +3 位作者 吕佳豪 曾奕杰 杨嘉怡 张杰慧 《计算机应用》 CSCD 北大核心 2024年第7期2055-2064,共10页
针对三维未知环境中存在的高复杂度和不确定性的问题,提出一种在有限观测空间优化策略下基于深度强化学习的移动机器人三维路径规划方法。首先,在有限观测空间下采用深度图信息作为智能体的输入,模拟移动受限且未知的复杂三维空间环境;... 针对三维未知环境中存在的高复杂度和不确定性的问题,提出一种在有限观测空间优化策略下基于深度强化学习的移动机器人三维路径规划方法。首先,在有限观测空间下采用深度图信息作为智能体的输入,模拟移动受限且未知的复杂三维空间环境;其次,设计了两阶段离散动作空间下的动作选择策略,包括方向动作和位移动作,以减少搜索步数和时间;最后,在近端策略优化(PPO)算法基础上,添加门控循环单元(GRU)结合历史状态信息,以提升未知环境中搜索策略的稳定性,进而提高规划路径准确度和平滑度。实验结果表明,相较于A2C(Advantage ActorCritic),所提方法的平均搜索时间缩短了49.07%,平均规划路径长度缩短了1.04%,同时能够完成线性时序逻辑约束下的多目标路径规划任务。 展开更多
关键词 深度强化学习 移动机器人 三维路径规划 近端策略优化 深度图
在线阅读 下载PDF
融合强化学习的工业机器人数字孪生仿真方法研究 被引量:6
10
作者 缪天越 王璐 +1 位作者 何家孝 谢能刚 《系统仿真学报》 CAS CSCD 北大核心 2024年第12期2971-2983,共13页
针对工业机器人领域构建的数字孪生系统功能不全面、应用场景较为单一带来的通用性不高的问题,提出一种具有较高通用性的工业机器人数字孪生系统的构建方法。设计了数字孪生四维系统架构,对四维系统各部分组成及作用进行分析,并基于四... 针对工业机器人领域构建的数字孪生系统功能不全面、应用场景较为单一带来的通用性不高的问题,提出一种具有较高通用性的工业机器人数字孪生系统的构建方法。设计了数字孪生四维系统架构,对四维系统各部分组成及作用进行分析,并基于四维系统规划系统等级,定义了融合强化学习的虚替实概念;通过构建多属性虚拟模型,利用TCP通信协议搭建数据通信系统进行虚实数据交互,结合机器人正逆运动学分析,实现虚实映射与控制功能;构建了强化学习虚拟场景,使用虚拟机器人模型代替实体机器人进行强化学习训练,实现自动规划路径功能。实验结果验证了该系统的可行性和可靠性,为进一步丰富工业机器人数字孪生系统功能提供了新方案。 展开更多
关键词 数字孪生 工业机器人 强化学习 四维模型 虚实映射
在线阅读 下载PDF
结合强化学习和DenseNet的远程监督关系抽取模型 被引量:3
11
作者 冯轩闻 袁新瑞 +1 位作者 孙霞 高厦 《计算机应用与软件》 北大核心 2024年第2期138-144,208,共8页
关系抽取是信息获取领域的重要任务之一。为了更好地解决数据集中的噪声问题和句子深层次语义表征,提出一种结合强化学习和密集连接卷积神经网络的远程监督关系抽取模型,模型分为句子选择器和关系分类器。在句子选择器中,基于强化学习... 关系抽取是信息获取领域的重要任务之一。为了更好地解决数据集中的噪声问题和句子深层次语义表征,提出一种结合强化学习和密集连接卷积神经网络的远程监督关系抽取模型,模型分为句子选择器和关系分类器。在句子选择器中,基于强化学习的方法能有效过滤噪声语句,提升输入数据质量;在关系分类器中,通过DenseNet深层网络中的特征复用,学习更丰富的语义特征。在NYT数据集上的实验结果表明句子选择器能够有效过滤噪声,该模型的关系抽取性能相比基线模型得到有效提高。 展开更多
关键词 关系抽取 远程监督 强化学习 卷积神经网络 密集连接
在线阅读 下载PDF
基于深度强化学习的四向协同三维装箱方法 被引量:1
12
作者 尹昊 陈帆 和红杰 《自动化学报》 EI CAS CSCD 北大核心 2024年第12期2420-2431,共12页
物流作为现代经济的重要组成部分,在国民经济和社会发展中发挥着重要作用.物流中的三维装箱问题(Three-dimensional bin packing problem,3D-BPP)是提高物流运作效率必须解决的关键难题之一.深度强化学习(Deep rein-forcement learning,... 物流作为现代经济的重要组成部分,在国民经济和社会发展中发挥着重要作用.物流中的三维装箱问题(Three-dimensional bin packing problem,3D-BPP)是提高物流运作效率必须解决的关键难题之一.深度强化学习(Deep rein-forcement learning,DRL)具有强大的学习与决策能力,基于DRL的三维装箱方法(Three-dimensional bin packing method based on DRL,DRL-3DBP)已成为智能物流领域的研究热点之一.现有DRL-3DBP面对大尺寸容器3D-BPP时难以达成动作空间、计算复杂性与探索能力之间的平衡.为此,提出一种四向协同装箱(Four directional cooperative packing,FDCP)方法:两阶段策略网络接收旋转后的容器状态,生成4个方向的装箱策略;根据由4个策略采样而得的动作更新对应的4个状态,选取其中价值最大的对应动作为装箱动作.FDCP在压缩动作空间、减小计算复杂性的同时,鼓励智能体对4个方向合理装箱位置的探索.实验结果表明,FDCP在100×100大尺寸容器以及20、30、50箱子数量的装箱问题上实现了1.2%~2.9%的空间利用率提升. 展开更多
关键词 三维装箱问题 组合优化问题 深度强化学习 四向协同装箱
在线阅读 下载PDF
化学物质诱导疾病关系抽取:基于证据聚焦的图推理方法
13
作者 周雪阳 傅启明 +2 位作者 陈建平 陆悠 王蕴哲 《计算机科学》 CSCD 北大核心 2024年第10期351-361,共11页
针对现有方法在挖掘化学物质与疾病之间的相互作用关系时存在过多地关注全局信息而忽略少量的证据线索和局部提及交互的问题,提出了一种基于证据聚焦的提及水平文档级关系抽取方法(Evidence Focused Mention U-shaped Network,EF-MUnet... 针对现有方法在挖掘化学物质与疾病之间的相互作用关系时存在过多地关注全局信息而忽略少量的证据线索和局部提及交互的问题,提出了一种基于证据聚焦的提及水平文档级关系抽取方法(Evidence Focused Mention U-shaped Network,EF-MUnet)。该方法首先基于上下文感知策略建模提及特征,并利用二维卷积捕获邻近提及之间的局部交互;其次为避免无关上下文的干扰,提出两种证据聚焦策略ATT-EF和RL-EF,前者将相似度作为证据线索的衡量指标,后者基于强化学习利用延迟反馈无监督地学习最优证据提取策略;最后使用U-net网络捕获实体水平的全局特征,充分挖掘语义关系。实验结果表明,与已有方法相比,EF-MUnet在生物医学数据集CDR上的F1评价指标提升了9.7%,并且对于句间关系的抽取更具有优势。此外,在抽取药物突变相互作用的数据集DMI上,EF-MUnet也取得了最高98.6%的准确率,证明了它是一种有效的生物医学关系抽取方法并具有较好的泛化能力。 展开更多
关键词 关系抽取 证据聚焦 强化学习 自注意力机制 生物医学
在线阅读 下载PDF
基于强化学习的离场飞行程序航迹生成方法
14
作者 宋歌 韩鹏飞 罗钰翔 《计算机应用》 CSCD 北大核心 2024年第S01期355-362,共8页
现代飞行程序设计受地形、障碍物、空域和飞行性能等多种因素的影响,设计过程中需进行大量针对设计细节有效性的评估工作;设计完毕的飞行程序还需专业的飞行试飞人员进行模拟机和真机试飞,耗费大量的人力、经济成本。如果试飞前缺少针... 现代飞行程序设计受地形、障碍物、空域和飞行性能等多种因素的影响,设计过程中需进行大量针对设计细节有效性的评估工作;设计完毕的飞行程序还需专业的飞行试飞人员进行模拟机和真机试飞,耗费大量的人力、经济成本。如果试飞前缺少针对性的分析评估,一方面会增加试飞成本的支出,另一方面也会导致真机试飞环节存在安全隐患。针对上述问题,利用深度强化学习技术,提出一种在满足飞行程序设计规范条件下,面向飞行程序有效性和可行性验证的离场航迹自动生成方法。首先,利用空气动力学原理,建立考虑飞行性能和障碍物超障因素的基本飞行动力学模型,并借助Unity3D引擎构建三维可视化的训练平台;其次,在PyTorch深度学习框架中,利用Mlagents强化学习平台构建航空器在飞行时各个阶段的试飞训练模型,设计包括起飞、转弯、巡航和降落这4个目标的场景和奖励函数。以离场飞行程序试飞为例,采用厦门高崎机场某PBN(Performance Based Navigation)离场程序进行实例训练验证,并利用动态时间规整(DTW)距离量化实际生成航迹与标称航迹之间的偏离度。实验结果显示,偏差度满足飞行程序超障保护区的限制要求。上述训练模型在其他离场程序的实验结果也验证了模型具有较好的泛化能力。 展开更多
关键词 现代飞行程序设计 深度强化学习 航迹生成 分层强化学习 多维度动态时间规整
在线阅读 下载PDF
一种基于启发式奖赏函数的分层强化学习方法 被引量:11
15
作者 刘全 闫其粹 +2 位作者 伏玉琛 胡道京 龚声蓉 《计算机研究与发展》 EI CSCD 北大核心 2011年第12期2352-2358,共7页
针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还... 针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习的收敛速度.将此算法应用到俄罗斯方块的仿真平台中,通过对实验中的参数进行设置及对算法性能进行分析,结果表明:采用启发式奖赏函数的分层强化学习方法能在一定程度上解决"维数灾"问题,并具有很好的收敛速度. 展开更多
关键词 分层强化学习 试错 启发式奖赏函数 俄罗斯方块 “维数灾”
在线阅读 下载PDF
一种基于启发式轮廓表的逻辑强化学习方法 被引量:8
16
作者 刘全 高阳 +2 位作者 陈道蓄 孙吉贵 姚望舒 《计算机研究与发展》 EI CSCD 北大核心 2008年第11期1824-1830,共7页
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表... 强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表的一阶谓词表示状态、活动和Q-函数,充分发挥Prolog表的优势,将逻辑谓词规则与强化学习相结合,形成一种新的逻辑强化学习方法——CCLORRL,并对其收敛性进行了证明.该方法使用轮廓形状谓词产生形状状态表,大幅度地减少状态空间;利用启发式规则指导动作的选择,减少了样本中不存在状态选择的盲目性.CCLORRL算法应用于俄罗斯方块中,实验表明,该方法是比较高效的. 展开更多
关键词 维数灾 启发式轮廓表 谓词 逻辑强化学习 CCLORRL算法
在线阅读 下载PDF
基于k-最近邻分类增强学习的除冰机器人抓线控制 被引量:8
17
作者 魏书宁 王耀南 +1 位作者 印峰 杨易旻 《控制理论与应用》 EI CAS CSCD 北大核心 2012年第4期470-476,共7页
输电线柔性结构特性给除冰机器人越障抓线控制带来极大困难.本文提出了一种结合k–最近邻(k-nearest neighbor,KNN)分类算法和增强学习算法的抓线控制方法.利用基于KNN算法的状态感知机制选择机器人当前状态k个最邻近状态并且对之加权.... 输电线柔性结构特性给除冰机器人越障抓线控制带来极大困难.本文提出了一种结合k–最近邻(k-nearest neighbor,KNN)分类算法和增强学习算法的抓线控制方法.利用基于KNN算法的状态感知机制选择机器人当前状态k个最邻近状态并且对之加权.根据加权结果决定当前最优动作.该方法可以得到机器人连续状态的离散表达形式,从而有效解决传统连续状态泛化方法带来的计算收敛性和维数灾难问题.借助增强学习算法探测和适应环境的能力,该方法能够克服机器人模型误差和姿态误差,以及环境干扰等因素对抓线控制的影响.文中给出了算法具体实现步骤,并给出了应用此方法控制除冰机器人抓线的仿真实验. 展开更多
关键词 除冰机器人 k–最近邻分类算法 增强学习 维数灾难
在线阅读 下载PDF
基于分层强化学习的无人机空战多维决策 被引量:12
18
作者 张建东 王鼎涵 +3 位作者 杨啟明 史国庆 陆屹 张耀中 《兵工学报》 EI CAS CSCD 北大核心 2023年第6期1547-1563,共17页
针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现... 针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现空战主要环节的自主决策;为解决维度扩展后决策模型状态空间复杂度、学习效率低的问题,结合Soft Actor-Critic算法和专家经验训练和建立元策略组,并改进传统的Option-Critic算法,设计优化策略终止函数,提高策略的切换的灵活性,实现空战中多个维度决策的无缝切换。实验结果表明,该模型在无人机空战全流程的多维度决策问题中具有较好的对抗效果,能够控制智能体根据不同的战场态势灵活切换干扰、搜索、打击、规避等策略,达到提升传统算法性能和提高解决复杂决策效率的目的。 展开更多
关键词 无人机空战 多维决策 分层强化学习 Soft Actor-Critic算法 Option-Critic算法
在线阅读 下载PDF
深层缝洞型油藏井间连通路径智能预测技术 被引量:11
19
作者 康志江 张冬梅 +3 位作者 张振坤 王睿奇 姜文斌 刘坤岩 《石油与天然气地质》 EI CAS CSCD 北大核心 2023年第5期1290-1299,共10页
深层缝洞型碳酸盐岩油藏是多期地质构造和岩溶作用改造形成的油藏,缝洞体结构复杂、非均质性强,常规的碎屑岩油藏井间连通预测技术不适用。基于静、动态数据结合多重分形、曲线相似度分析等技术,自动提取缝洞单元不同机理下相邻井响应... 深层缝洞型碳酸盐岩油藏是多期地质构造和岩溶作用改造形成的油藏,缝洞体结构复杂、非均质性强,常规的碎屑岩油藏井间连通预测技术不适用。基于静、动态数据结合多重分形、曲线相似度分析等技术,自动提取缝洞单元不同机理下相邻井响应程度等生产动态特征参数,实现井间连通程度自动评价。利用深度残差网络实现地震多属性融合刻画储集体空间结构,采用强化学习和多目标算法自动搜索三维连通路径。以塔里木盆地塔河油田不同岩溶背景典型缝洞单元为例,自动提取的动态响应特征及三维连通路径的展布形态说明裂缝网络是风化壳岩溶井间主要连通通道,多向连通性好;主断裂和次级断裂是断控岩溶井间的主要通道,沿断裂呈条带状连通;古暗河岩溶沿多层暗河连通,局部充填垮塌具有分段性。研究成果对深层缝洞型油藏剩余油与提高采收率研究具有较大的指导意义。 展开更多
关键词 强化学习 多目标优化 三维连通路径 地震多属性融合 岩溶系统 缝洞型油藏 塔河油田 塔里木盆地
在线阅读 下载PDF
分层强化学习研究进展 被引量:1
20
作者 程晓北 沈晶 +2 位作者 刘海波 顾国昌 张国印 《计算机工程与应用》 CSCD 北大核心 2008年第13期1-5,共5页
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但强化学习方法一直被维数灾难所困扰。近年来,分层强化学习方法在解决维数灾问题中取得了显著成果,并逐渐开始向多智能体系... 强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但强化学习方法一直被维数灾难所困扰。近年来,分层强化学习方法在解决维数灾问题中取得了显著成果,并逐渐开始向多智能体系统推广,论文归纳分析这一领域目前的研究进展,并对迫切需要解决的一些问题和进一步的发展趋势作出探讨和展望。 展开更多
关键词 分层强化学习 多智能体系统 维数灾难
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部