期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
面向强化学习的可解释性研究综述 被引量:8
1
作者 曹宏业 刘潇 +4 位作者 董绍康 杨尚东 霍静 李文斌 高阳 《计算机学报》 EI CAS CSCD 北大核心 2024年第8期1853-1882,共30页
强化学习作为机器学习的一种范式,因其强大的策略试错学习能力,受到关注.随着深度学习的融入,强化学习方法在许多复杂的控制任务中取得了巨大成功.然而,深度强化学习网络作为黑盒模型,其缺乏可解释性所带来的不安全、不可控及难理解等... 强化学习作为机器学习的一种范式,因其强大的策略试错学习能力,受到关注.随着深度学习的融入,强化学习方法在许多复杂的控制任务中取得了巨大成功.然而,深度强化学习网络作为黑盒模型,其缺乏可解释性所带来的不安全、不可控及难理解等问题限制了强化学习在诸如自动驾驶、智慧医疗等关键领域中的发展.为了解决这一问题,科研人员开展了对强化学习可解释性的研究.然而,这些研究开展相对较晚,且缺少针对多智能体强化学习可解释性方法的系统性总结,同时,可解释性的定义存在人为主观性,导致系统性面向强化学习过程的可解释性研究较为困难.本文对当前强化学习的可解释性研究工作进行了全面的整理与总结.首先,对强化学习的可解释性进行定义并总结了相关评估方法.随后,基于马尔可夫决策过程,划分了行为级解释、特征级解释、奖励级解释及策略级解释四个类别.此外,在每个类别中,分析了单智能体及多智能体的策略解释方法,并特别关注可解释性研究中的人为因素,描述了人机交互式的解释方法.最后,对当前强化学习可解释性研究面临的挑战以及未来的研究方向进行总结与展望. 展开更多
关键词 强化学习 可解释性 机器学习 人工智能 马尔可夫决策过程
在线阅读 下载PDF
强化学习的可解释方法分类研究 被引量:3
2
作者 唐蕾 牛园园 +2 位作者 王瑞杰 行本贝 王一婷 《计算机应用研究》 CSCD 北大核心 2024年第6期1601-1609,共9页
强化学习能够在动态复杂环境中实现自主学习,这使其在法律、医学、金融等领域有着广泛应用。但强化学习仍面临着全局状态空间不可观测、对奖励函数强依赖和因果关系不确定等诸多问题,导致其可解释性弱,严重影响其在相关领域的推广,会遭... 强化学习能够在动态复杂环境中实现自主学习,这使其在法律、医学、金融等领域有着广泛应用。但强化学习仍面临着全局状态空间不可观测、对奖励函数强依赖和因果关系不确定等诸多问题,导致其可解释性弱,严重影响其在相关领域的推广,会遭遇诸如难以判断决策是否违反社会法律道德的要求,是否准确及值得信任等的限制。为了进一步了解强化学习可解释性研究现状,从可解释模型、可解释策略、环境交互、可视化等方面展开讨论。基于此,对强化学习可解释性研究现状进行系统论述,对其可解释方法进行归类阐述,最后提出强化学习可解释性的未来发展方向。 展开更多
关键词 强化学习 可解释性 策略-值函数 环境交互 视觉解释
在线阅读 下载PDF
基于梯度的深度强化学习解释方法 被引量:1
3
作者 王远 徐琳 +2 位作者 宫小泽 张永亮 王永利 《系统仿真学报》 CAS CSCD 北大核心 2024年第5期1130-1140,共11页
DQN等深度强化学习方法的学习过程与工作机制不透明,无法感知其决策依据与决策可靠性,使模型做出的决策饱受质疑,极大限制了深度强化学习的应用场景。为了解释智能体的决策机理,提出一种基于梯度的显著性图生成算法(saliency map genera... DQN等深度强化学习方法的学习过程与工作机制不透明,无法感知其决策依据与决策可靠性,使模型做出的决策饱受质疑,极大限制了深度强化学习的应用场景。为了解释智能体的决策机理,提出一种基于梯度的显著性图生成算法(saliency map generation algorithm based on gradient,SMGG)。使用高层卷积层生成的特征图梯度信息计算不同特征图的重要性,在模型的结构和内部参数已知的情况下,从模型最后一层入手,通过对特征图梯度的计算,生成不同特征图相对于显著性图的权重;对特征重要性进行正向和负向分类,利用有正向影响的权值将特征图中捕获的特征进行加权,构成当前决策的正向解释;利用对其他类别有负向影响的权值将特征图中捕获的特征进行加权,构成当前决策的反向解释。二者共同生成决策的显著性图,得出智能体决策行为的依据,实验证明了该方法的有效性。 展开更多
关键词 深度强化学习 显著性图 可解释性 智能体 梯度
在线阅读 下载PDF
强化学习可解释性基础问题探索和方法综述 被引量:21
4
作者 刘潇 刘书洋 +1 位作者 庄韫恺 高阳 《软件学报》 EI CSCD 北大核心 2023年第5期2300-2316,共17页
强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法.然而,作为一类机器学习算法,强化学习也面临着机器学习领域的公共难题,即难以被人理解.缺乏可解释性限制了强化学习在安全敏感领域中的应用,如... 强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法.然而,作为一类机器学习算法,强化学习也面临着机器学习领域的公共难题,即难以被人理解.缺乏可解释性限制了强化学习在安全敏感领域中的应用,如医疗、驾驶等,并导致强化学习在环境仿真、任务泛化等问题中缺乏普遍适用的解决方案.为了克服强化学习的这一弱点,涌现了大量强化学习可解释性(explainable reinforcement learning,XRL)的研究.然而,学术界对XRL尚缺乏一致认识.因此,探索XRL的基础性问题,并对现有工作进行综述.具体而言,首先探讨父问题——人工智能可解释性,对人工智能可解释性的已有定义进行了汇总;其次,构建一套可解释性领域的理论体系,从而描述XRL与人工智能可解释性的共同问题,包括界定智能算法和机械算法、定义解释的含义、讨论影响可解释性的因素、划分解释的直观性;然后,根据强化学习本身的特征,定义XRL的3个独有问题,即环境解释、任务解释、策略解释;之后,对现有方法进行系统地归类,并对XRL的最新进展进行综述;最后,展望XRL领域的潜在研究方向. 展开更多
关键词 强化学习可解释性(xrl) 人工智能可解释性(XAI) 机器学习(ML) 人工智能(AI)
在线阅读 下载PDF
基于深度强化学习的航天器功率信号复合网络优化算法 被引量:1
5
作者 张庭瑜 曾颖 +1 位作者 李楠 黄洪钟 《系统工程与电子技术》 EI CSCD 北大核心 2024年第9期3060-3069,共10页
为了实现航天器电源系统的灵活高效并网,最大化有限能量的利用,提出一种基于深度强化学习(deep reinforcement learning,DRL)的功率传输与信号传输复合网络拓扑优化模型,并使用知识蒸馏原理的多种可解释组件模型对优化过程进行剖析。首... 为了实现航天器电源系统的灵活高效并网,最大化有限能量的利用,提出一种基于深度强化学习(deep reinforcement learning,DRL)的功率传输与信号传输复合网络拓扑优化模型,并使用知识蒸馏原理的多种可解释组件模型对优化过程进行剖析。首先,分析在轨运行阶段航天器母线电压调节控制域变换规律,并结合节点传播性参数,建立功率传输与信号通信的复合网络拓扑模型。然后,利用A3C(asynchronous advantage actor-critic)算法,对信号传输网络路由分布、拓扑结构等方面潜在的运行可靠性风险进行自适应性优化。最后,结合多种可解释组件对已训练的DRL模型进行知识蒸馏,形成一种可解释的量化分析方法。所提方法可以指导空间电源在随机阴影影响下选择最佳并网方案,并为更高任务要求和复杂环境下空间电源控制器设计提供理论支持。 展开更多
关键词 空间电源系统 复杂网络 深度强化学习 可靠性优化 可解释性分析
在线阅读 下载PDF
结构交互驱动的机器人深度强化学习控制方法 被引量:6
6
作者 余超 董银昭 +3 位作者 郭宪 冯旸赫 卓汉逵 张强 《软件学报》 EI CSCD 北大核心 2023年第4期1749-1764,共16页
针对深度强化学习在高维机器人行为控制中训练效率低下和策略不可解释等问题,提出一种基于结构交互驱动的机器人深度强化学习方法(structure-motivated interactive deep reinforcement learning, SMILE).首先,利用结构分解方法将高维... 针对深度强化学习在高维机器人行为控制中训练效率低下和策略不可解释等问题,提出一种基于结构交互驱动的机器人深度强化学习方法(structure-motivated interactive deep reinforcement learning, SMILE).首先,利用结构分解方法将高维的单机器人控制问题转化为低维的多关节控制器协同学习问题,从而缓解连续运动控制的维度灾难难题;其次,通过两种协同图模型(ATTENTION和PODT)动态推理控制器之间的关联关系,实现机器人内部关节的信息交互和协同学习;最后,为了平衡ATTENTION和PODT协同图模型的计算复杂度和信息冗余度,进一步提出两种协同图模型更新方法 APDODT和PATTENTION,实现控制器之间长期关联关系和短期关联关系的动态自适应调整.实验结果表明,基于结构驱动的机器人强化学习方法能显著提升机器人控制策略学习效率.此外,基于协同图模型的关系推理及协同机制,可为最终学习策略提供更为直观和有效的解释. 展开更多
关键词 机器人控制 深度强化学习 结构分解 可解释性
在线阅读 下载PDF
显式知识推理和深度强化学习结合的动态决策 被引量:3
7
作者 张昊迪 陈振浩 +4 位作者 陈俊扬 周熠 连德富 伍楷舜 林方真 《软件学报》 EI CSCD 北大核心 2023年第8期3821-3835,共15页
近年来,深度强化学习在序列决策领域被广泛应用并且效果良好,尤其在具有高维输入、大规模状态空间的应用场景中优势明显.然而,深度强化学习相关方法也存在一些局限,如缺乏可解释性、初期训练低效与冷启动等问题.针对这些问题,提出了一... 近年来,深度强化学习在序列决策领域被广泛应用并且效果良好,尤其在具有高维输入、大规模状态空间的应用场景中优势明显.然而,深度强化学习相关方法也存在一些局限,如缺乏可解释性、初期训练低效与冷启动等问题.针对这些问题,提出了一种基于显式知识推理和深度强化学习的动态决策框架,将显式的知识推理与深度强化学习结合.该框架通过显式知识表示将人类先验知识嵌入智能体训练中,让智能体在强化学习中获得知识推理结果的干预,以提高智能体的训练效率,并增加模型的可解释性.将显式知识分为两种,即启发式加速知识与规避式安全知识.前者在训练初期干预智能体决策,加快训练速度;而后者将避免智能体作出灾难性决策,使其训练过程更为稳定.实验表明,该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率,并增加了模型的可解释性. 展开更多
关键词 知识表示与推理 可解释性 深度强化学习 动态序列决策
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部