期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于多线程并行强化学习的建筑节能方法 被引量:1
1
作者 陈建平 康怡怡 +3 位作者 胡龄爻 陆悠 吴宏杰 傅启明 《计算机工程与应用》 CSCD 北大核心 2019年第15期219-227,共9页
提出一种基于并行强化学习的建筑节能方法,该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架,其新颖点在于:在经验回放过程中引入自模拟度量方法,通过计算样本之间的距离,选取低相似度的样本构造多样样本池,Agen... 提出一种基于并行强化学习的建筑节能方法,该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架,其新颖点在于:在经验回放过程中引入自模拟度量方法,通过计算样本之间的距离,选取低相似度的样本构造多样样本池,Agent的学习过程从多样样本池中选取样本学习,可有效避免浪费学习资源。实验包括在仿真房间模型上与Q-Learning算法的对比实验和与经典PID控制方法的对比实验。实验结果表明,所提出的并行算法有更快的学习速率和收敛速度,能更快地求解出最优策略,并拥有更高的运行效率。 展开更多
关键词 强化学习 并行强化学习 经验回放 多线程技术 建筑节能
在线阅读 下载PDF
基于事件驱动深度强化学习的建筑热舒适控制 被引量:1
2
作者 李竹 傅启明 +3 位作者 丁正凯 刘璐 张颖 陈建平 《计算机应用研究》 CSCD 北大核心 2024年第2期527-532,539,共7页
住宅暖通空调系统通常耗用大量能源,同时也极大地影响居住者的热舒适性。目前,强化学习广泛应用于优化暖通空调系统,然而这一方法需要投入大量时间和数据资源。为了解决该问题,提出了一个新的基于事件驱动的马尔可夫决策过程(event-driv... 住宅暖通空调系统通常耗用大量能源,同时也极大地影响居住者的热舒适性。目前,强化学习广泛应用于优化暖通空调系统,然而这一方法需要投入大量时间和数据资源。为了解决该问题,提出了一个新的基于事件驱动的马尔可夫决策过程(event-driven Markov decision process,ED-MDP)框架,并在此基础上,提出了基于事件驱动的深度确定性策略梯度(event-driven deep deterministic policy gradient,ED-DDPG)方法,通过事件触发优化控制,结合强化学习算法求解最优控制策略。实验结果显示,与基准方法相比,ED-DDPG在提升学习速度和减少决策频率方面表现出色,并在节能和维持热舒适方面取得了显著成果。经过实验验证,该方法在优化住宅暖通空调控制方面展现出强大的鲁棒性和适应性。 展开更多
关键词 强化学习 事件驱动 暖通空调 住宅建筑 热舒适
在线阅读 下载PDF
一种基于迁移深度强化学习的建筑能耗预测方法 被引量:10
3
作者 傅启明 吴少波 +3 位作者 戴大东 杨正霞 陈建平 吴宏杰 《计算机应用研究》 CSCD 北大核心 2020年第S01期92-94,共3页
建筑能耗在我国总能耗中占比超过了35%。建筑能耗预测是能源科学管理、高效节能、低碳绿色发展的重要课题。但建筑能耗数据的成因复杂、独立同分布性弱、目标域样本不足,导致现有预测模型泛化性不足。由此提出了一种基于迁移深度强化学... 建筑能耗在我国总能耗中占比超过了35%。建筑能耗预测是能源科学管理、高效节能、低碳绿色发展的重要课题。但建筑能耗数据的成因复杂、独立同分布性弱、目标域样本不足,导致现有预测模型泛化性不足。由此提出了一种基于迁移深度强化学习的建筑能耗预测方法,充分利用隐藏层结构模型迁移共享建筑能耗的有用信息,通过堆叠去噪自动编码器挖掘建筑能耗中深层特征,结合强化学习Q-Learning方法进行建筑能耗建模。为了验证方法性能,采用了美国加利福尼亚州弗里蒙特的零售建筑真实能耗数据,与Q-Learning、ADE-BPNN、BP-Adaboost进行了比较,所提方法在MSE、RMSE、MAE、MAPE方面分别比上述三种方法的平均值降低了25.9%、13.1%、23.7%、19.3%,有效提高了建筑能耗预测的精度。 展开更多
关键词 特征迁移 堆叠去噪自动编码器 深度强化学习 建筑能耗预测
在线阅读 下载PDF
基于证据和图推理的文档级关系抽取方法:以医学关系为例
4
作者 周雪阳 傅启明 +3 位作者 陈建平 陈延明 陆悠 王蕴哲 《计算机工程》 北大核心 2025年第1期106-117,共12页
针对生物医学文献句式冗长、实体密集从而导致关系抽取复杂度高、难度大的问题,提出一种证据路径增强的图推理框架(EPE-GR)。首先建立一种引入结构化偏差的图注意力机制(B-GAT)增强图推理中信息聚合的指向性,结合提及级和实体级图建模... 针对生物医学文献句式冗长、实体密集从而导致关系抽取复杂度高、难度大的问题,提出一种证据路径增强的图推理框架(EPE-GR)。首先建立一种引入结构化偏差的图注意力机制(B-GAT)增强图推理中信息聚合的指向性,结合提及级和实体级图建模学习全局交互特征和局部依赖信息;其次使用启发式搜索聚焦证据句子,同时构建一种基于掩膜多头注意力(MMHA)机制的路径推理结构,强化非邻居证据句子之间的相关性并缓解细粒度证据编码带来的复杂度剧增的问题;最后协同全局、局部和路径推理预测实体之间的语义关系。与已有方法相比,EPE-GR在药物-突变相互作用(DMI)数据集和化学物质诱导疾病(CDR)数据集上都获得了最佳的性能,前者在二分类和多分类任务的设定下相比次优方法准确率分别提高了5.65和5.13百分点,后者F1值提高了2.85百分点,证明所提方法是一个有效的生物医学文档级关系抽取方法且具有较好的泛化能力。此外,通过进一步的实验表明所提出的关系依赖建模和证据路径推理机制能够有效提升模型推理句间关系的能力。 展开更多
关键词 关系抽取 图推理 路径推理 证据增强 图注意力机制 多头注意力机制
在线阅读 下载PDF
基于深度强化学习的中央空调冷水机组无模型控制
5
作者 王萌 傅启明 +3 位作者 何坤 陈建平 陆悠 王蕴哲 《计算机工程与设计》 北大核心 2025年第5期1526-1534,共9页
针对当前中央空调冷水机组优化问题中基于模型控制对模型精确度依赖高和模型维护困难等问题,提出一种基于优先经验回放的深度强化学习无模型控制方法。将优化控制建模为马尔可夫决策过程,利用时间差分误差和总和树改进经验回放机制,提... 针对当前中央空调冷水机组优化问题中基于模型控制对模型精确度依赖高和模型维护困难等问题,提出一种基于优先经验回放的深度强化学习无模型控制方法。将优化控制建模为马尔可夫决策过程,利用时间差分误差和总和树改进经验回放机制,提高样本利用效率,设计兼顾室内舒适性和节能需求的奖励函数。基于实测历史数据构建仿真平台,用于方法验证。实验结果表明,在保证舒适度的前提下,该方法节能性优于规则控制,接近于模型控制并具有更快的收敛性。 展开更多
关键词 深度强化学习 优先经验回放 无模型控制 马尔可夫决策过程 冷水机组优化 舒适性保持 节能优化
在线阅读 下载PDF
基于边缘计算的建筑设备状态感知模型与应用 被引量:4
6
作者 吴宏杰 沈华祥 +3 位作者 凌华靖 傅启明 陆卫忠 付保川 《计算机工程与应用》 CSCD 北大核心 2019年第18期263-270,共8页
随着智能化建筑数量的剧增与智能化水平的提高,建筑智能设备状态感知成为了关系到社会公共安全方面重要问题之一。目前,建筑设备感知系统大多基于服务器集中计算架构,存在存储数据量大、通信带宽要求高、节点自主性不够等问题,往往容易... 随着智能化建筑数量的剧增与智能化水平的提高,建筑智能设备状态感知成为了关系到社会公共安全方面重要问题之一。目前,建筑设备感知系统大多基于服务器集中计算架构,存在存储数据量大、通信带宽要求高、节点自主性不够等问题,往往容易造成建筑设备感知实时性不足、网络成本高的问题。由此,提出一种基于边缘计算的建筑设备状态感知模型,设计了边缘状态感知与缓存算法,建立了一组边缘通信与状态感知协议,形成了边缘隐私数据信任与安全机制,同时,引入基于边缘数据的智能决策技术,从而不仅缓解了中心服务器的计算与存储压力,而且有效提升了整个系统的自主感知能力、安全性与健壮性。最后,依托该模型实现了一个运维示范系统,在S城市管理中进行了应用。 展开更多
关键词 边缘计算 建筑设备 状态感知
在线阅读 下载PDF
基于LightGBM-LSTM组合模型的商业建筑能耗预测 被引量:7
7
作者 罗恒 刘杭 《计算机应用与软件》 北大核心 2022年第11期36-42,65,共8页
准确预测商业建筑能耗使用对于能源节约具有十分重要的意义。在分析基于决策树算法的模型和长短期记忆网络(LSTM)特性的基础上,依据某商业建筑历史能耗序列数据,构建一种预测短期能耗的LightGBM-LSTM模型。LightGBM对多特征数据处理优秀... 准确预测商业建筑能耗使用对于能源节约具有十分重要的意义。在分析基于决策树算法的模型和长短期记忆网络(LSTM)特性的基础上,依据某商业建筑历史能耗序列数据,构建一种预测短期能耗的LightGBM-LSTM模型。LightGBM对多特征数据处理优秀,它是对梯度提升树(GBDT)的优化策略,使用了互斥特征打包(MEF)算法进行特征合并。LSTM对时间序列数据适用性高。组合模型结合两种模型特点,通过权重组合预测数据。将组合模型与LightGBM、LSTM单项模型、其他常用模型做对比实验,实验结果验证了LightGBM-LSTM模型在建筑能耗预测中具有更高的准确性。 展开更多
关键词 LightGBM 长短期记忆网络 建筑能耗预测 GBDT
在线阅读 下载PDF
改进YOLOv4的轻量级遥感图像建筑物检测模型 被引量:7
8
作者 丁飞 石颉 吴宏杰 《计算机工程与应用》 CSCD 北大核心 2023年第10期213-220,共8页
针对现有建筑物检测模型检测精度低下,模型体积较大,导致遥感图像检测速度和精度无法平衡,不利于后期部署等问题,提出一种基于YOLOv4优化的轻量级遥感图像建筑物检测模型。利用轻量化网络GhostNet替换CSP DarkNet53进行特征提取;借鉴稠... 针对现有建筑物检测模型检测精度低下,模型体积较大,导致遥感图像检测速度和精度无法平衡,不利于后期部署等问题,提出一种基于YOLOv4优化的轻量级遥感图像建筑物检测模型。利用轻量化网络GhostNet替换CSP DarkNet53进行特征提取;借鉴稠密连接思想,提出了Dense-PANet特征融合模块;将ECA注意力机制引入Ghost模块,替换特征融合颈部网络的传统卷积。实验结果表明,提出的模型与YOLOv4相比,牺牲少量检测速度,但是平均精度提高了0.96个百分点,召回率提升了1.08个百分点,模型体积降低了71.39%,浮点计算量降低了76.60%,能有效满足遥感图像建筑物检测的需求。 展开更多
关键词 建筑物检测 YOLOv4 轻量级 特征融合 ECA注意力机制
在线阅读 下载PDF
基于Attention-CNN的振动信号电机转子断条识别 被引量:1
9
作者 申海锋 石颉 +1 位作者 杜国庆 吴宏杰 《电气工程学报》 CSCD 北大核心 2024年第2期9-15,共7页
针对基于振动信号的转子断条诊断技术依赖于人工特征选择,泛化能力差,以及常规卷积神经网络(Convolution neural network,CNN)模型在对时序信号自动特征提取时忽略序列信息的问题,利用Attention机制对局部特征在整体表达时的度量能力,... 针对基于振动信号的转子断条诊断技术依赖于人工特征选择,泛化能力差,以及常规卷积神经网络(Convolution neural network,CNN)模型在对时序信号自动特征提取时忽略序列信息的问题,利用Attention机制对局部特征在整体表达时的度量能力,提出了一种Attention-CNN网络模型。首先通过Attention在原始信号上分配注意力,其次结合CNN进行特征提取构建网络,然后利用粒子群优化算法(Particle swarm optimization,PSO)进行网络超参数寻优,训练转子断条识别模型,最后从整体和局部两个方面进行模型评价。试验结果表明,所提出的识别模型能够达到传统诊断水平,且泛化能力高于现有方法,更适用于通过振动信号进行电机转子断条识别。 展开更多
关键词 Attention-CNN 振动信号 转子断条 泛化能力
在线阅读 下载PDF
化学物质诱导疾病关系抽取:基于证据聚焦的图推理方法
10
作者 周雪阳 傅启明 +2 位作者 陈建平 陆悠 王蕴哲 《计算机科学》 CSCD 北大核心 2024年第10期351-361,共11页
针对现有方法在挖掘化学物质与疾病之间的相互作用关系时存在过多地关注全局信息而忽略少量的证据线索和局部提及交互的问题,提出了一种基于证据聚焦的提及水平文档级关系抽取方法(Evidence Focused Mention U-shaped Network,EF-MUnet... 针对现有方法在挖掘化学物质与疾病之间的相互作用关系时存在过多地关注全局信息而忽略少量的证据线索和局部提及交互的问题,提出了一种基于证据聚焦的提及水平文档级关系抽取方法(Evidence Focused Mention U-shaped Network,EF-MUnet)。该方法首先基于上下文感知策略建模提及特征,并利用二维卷积捕获邻近提及之间的局部交互;其次为避免无关上下文的干扰,提出两种证据聚焦策略ATT-EF和RL-EF,前者将相似度作为证据线索的衡量指标,后者基于强化学习利用延迟反馈无监督地学习最优证据提取策略;最后使用U-net网络捕获实体水平的全局特征,充分挖掘语义关系。实验结果表明,与已有方法相比,EF-MUnet在生物医学数据集CDR上的F1评价指标提升了9.7%,并且对于句间关系的抽取更具有优势。此外,在抽取药物突变相互作用的数据集DMI上,EF-MUnet也取得了最高98.6%的准确率,证明了它是一种有效的生物医学关系抽取方法并具有较好的泛化能力。 展开更多
关键词 关系抽取 证据聚焦 强化学习 自注意力机制 生物医学
在线阅读 下载PDF
一种基于生成对抗网络的强化学习算法 被引量:11
11
作者 陈建平 邹锋 +3 位作者 刘全 吴宏杰 胡伏原 傅启明 《计算机科学》 CSCD 北大核心 2019年第10期265-272,共8页
针对强化学习方法在训练初期由于缺少经验样本所导致的学习速度慢的问题,提出了一种基于生成对抗网络的强化学习算法。在训练初期,该算法通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本来训练生成对抗网络,然后利用... 针对强化学习方法在训练初期由于缺少经验样本所导致的学习速度慢的问题,提出了一种基于生成对抗网络的强化学习算法。在训练初期,该算法通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本来训练生成对抗网络,然后利用生成对抗网络生成新的样本以构成虚拟样本池,再结合真实样本池和虚拟样本池来批量选择训练样本,以此来提高学习速度。同时,该算法引入了关系修正单元,结合深度神经网络,训练了真实样本池中样本的状态、动作与后续状态、奖赏之间的内部联系,结合相对熵优化生成对抗网络,提高生成样本的质量。最后,将所提出的算法与DQN算法应用于OpenAI Gym中的CartPole问题和MountainCar问题。实验结果表明,与DQN算法相比,所提算法可以有效地加快训练初期的学习速度,且收敛时间缩短了15%。 展开更多
关键词 强化学习 深度学习 经验样本 生成对抗网络
在线阅读 下载PDF
强化学习与生成式对抗网络结合方法研究进展 被引量:11
12
作者 吴宏杰 戴大东 +2 位作者 傅启明 陈建平 陆卫忠 《计算机工程与应用》 CSCD 北大核心 2019年第10期36-44,共9页
强化学习和生成式对抗网络是近年来人工智能领域的两个热门主题,在众多领域表现非常出色。近期出现较多关于两者结合的工作与报道,将强化学习交互式学习的优点与生成式对抗网络的启发自博弈思想相互融合。对两者结合的最新进展进行了梳... 强化学习和生成式对抗网络是近年来人工智能领域的两个热门主题,在众多领域表现非常出色。近期出现较多关于两者结合的工作与报道,将强化学习交互式学习的优点与生成式对抗网络的启发自博弈思想相互融合。对两者结合的最新进展进行了梳理、比较与实验分析。对强化学习与生成式对抗网络的理论进行了概述;从强化学习改进生成式对抗网络、生成式对抗网络改进强化学习两个研究方向进行了阐述与比较,通过实验方式分析了这些方法在自然语言、机器控制领域的应用情况;展望了可能的发展趋势。 展开更多
关键词 强化学习 生成式对抗网络 深度学习 人工智能
在线阅读 下载PDF
增强型深度确定策略梯度算法 被引量:9
13
作者 陈建平 何超 +3 位作者 刘全 吴宏杰 胡伏原 傅启明 《通信学报》 EI CSCD 北大核心 2018年第11期106-115,共10页
针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样... 针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样性样本池和高误差样本池按比例选取,以兼顾样本多样性以及样本价值信息,提高样本的利用效率和算法的收敛性能。此外,进一步从理论上证明了利用自模拟度量方法对样本进行相似性度量的合理性,建立值函数与样本相似性之间的关系。将E-DDPG算法以及DDPG算法用于经典的Pendulum问题和MountainCar问题,实验结果表明,E-DDPG具有更好的收敛稳定性,同时具有更快的收敛速率。 展开更多
关键词 深度强化学习 样本排序 自模拟度量 时间差分误差
在线阅读 下载PDF
基于双目视觉的六旋翼无人机立体匹配算法 被引量:7
14
作者 陶重犇 乔荔 +2 位作者 孙云飞 李春光 戴欢 《激光与红外》 CAS CSCD 北大核心 2018年第9期1181-1187,共7页
针对六旋翼无人机双目视觉成像时,经双目融合后反馈的图像噪点过多,以及图像精度不够理想的问题,提出了一种在匹配过程中融入全局差错能量最小化的区域立体视觉匹配算法。由于视差的求解是立体匹配过程中最重要的环节,因此本文利用最小... 针对六旋翼无人机双目视觉成像时,经双目融合后反馈的图像噪点过多,以及图像精度不够理想的问题,提出了一种在匹配过程中融入全局差错能量最小化的区域立体视觉匹配算法。由于视差的求解是立体匹配过程中最重要的环节,因此本文利用最小化差错能量矩阵求解最优视差的原理。通过提高立体视觉的视差精度,从而减少视觉融合过程中因数据问题产生的噪声干扰,最终提高了对场景信息三维重构的准确度。通过分别在室内外的仿真实验与真实环境重构实验,验证了本文提出的基于双目视觉的六旋翼无人机立体匹配算法的有效性与可靠性。 展开更多
关键词 六旋翼无人机 双目视觉 立体匹配 最优视差 三维重构
在线阅读 下载PDF
基于二阶时序差分误差的双网络DQN算法 被引量:5
15
作者 陈建平 周鑫 +3 位作者 傅启明 高振 付保川 吴宏杰 《计算机工程》 CAS CSCD 北大核心 2020年第5期78-85,93,共9页
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值... 针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性。 展开更多
关键词 深度强化学习 马尔科夫决策过程 深度Q网络 二阶时序差分误差 梯度下降
在线阅读 下载PDF
一种采用模型学习和经验回放加速的正则化自然行动器评判器算法 被引量:4
16
作者 钟珊 刘全 +2 位作者 傅启明 龚声蓉 董虎胜 《计算机学报》 EI CSCD 北大核心 2019年第3期532-553,共22页
行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized... 行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized Natural AC with Model Learning and Experience Replay,简称RNAC-ML-ER).RNAC-ML-ER将Agent与环境在线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器.将线性模型产生的模拟样本和经验回放存储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新.为了提高更新的效率,在每个时间步,仅当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据TD-error从大到小的顺序对经验回放存储器中的样本进行回放.为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛.在指定的两个假设成立的条件下,通过理论分析证明了所提算法RNAC-ML-ER的收敛性.在4个强化学习的经典问题即平衡杆、小车上山、倒立摆和体操机器人中对RNACML-ER算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高的稳定性. 展开更多
关键词 行动器评判器算法 模型学习 经验回放 最优策略 正则化 自然梯度
在线阅读 下载PDF
基于值函数迁移的启发式Sarsa算法 被引量:3
17
作者 陈建平 杨正霞 +3 位作者 刘全 吴宏杰 徐杨 傅启明 《通信学报》 EI CSCD 北大核心 2018年第8期37-47,共11页
针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进... 针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进行相似性度量,对满足条件的历史状态进行值函数迁移,提高算法的收敛速度。此外,该算法结合启发式探索方法,引入贝叶斯推理,结合变分推理衡量信息增益,并运用获取的信息增益构建内在奖赏函数作为探索因子,进而加快算法的收敛速度。将所提算法用于经典的Grid World问题,并与Sarsa算法、Q-Learning算法以及收敛性能较好的VFT-Sarsa算法、IGP-Sarsa算法进行比较,实验表明,所提算法具有较快的收敛速度和较好的稳定性。 展开更多
关键词 强化学习 值函数迁移 自模拟度量 变分贝叶斯
在线阅读 下载PDF
基于生成对抗网络的最大熵逆强化学习 被引量:3
18
作者 陈建平 陈其强 +3 位作者 傅启明 高振 吴宏杰 陆悠 《计算机工程与应用》 CSCD 北大核心 2019年第22期119-126,共8页
针对逆强化学习算法在训练初期由于专家样本稀疏所导致的学习速率慢的问题,提出一种基于生成对抗网络(Generative Adversarial Networks,GAN)的最大熵逆强化学习算法。在学习过程中,结合专家样本训练优化生成对抗网络,以生成虚拟专家样... 针对逆强化学习算法在训练初期由于专家样本稀疏所导致的学习速率慢的问题,提出一种基于生成对抗网络(Generative Adversarial Networks,GAN)的最大熵逆强化学习算法。在学习过程中,结合专家样本训练优化生成对抗网络,以生成虚拟专家样本,在此基础上利用随机策略生成非专家样本,构建混合样本集,结合最大熵概率模型,对奖赏函数进行建模,并利用梯度下降方法求解最优奖赏函数。基于所求解的最优奖赏函数,利用正向强化学习方法求解最优策略,并在此基础上进一步生成非专家样本,重新构建混合样本集,迭代求解最优奖赏函数。将所提出的算法与MaxEnt IRL算法应用于经典的Object World与Mountain Car问题,实验表明,该算法在专家样本稀疏的情况下可以较好地求解奖赏函数,具有较好的收敛性能。 展开更多
关键词 生成对抗网络(GAN) 逆强化学习 最大熵
在线阅读 下载PDF
基于相对熵的元逆强化学习方法 被引量:4
19
作者 吴少波 傅启明 +2 位作者 陈建平 吴宏杰 陆悠 《计算机科学》 CSCD 北大核心 2021年第9期257-263,共7页
针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任... 针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的。将所提算法与REIRL算法应用于经典的Gridworld和Object World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数。 展开更多
关键词 逆强化学习 元学习 奖赏函数 相对熵 梯度下降
在线阅读 下载PDF
一种新的基于函数逼近协同更新的DQN算法 被引量:3
20
作者 刘青松 陈建平 +3 位作者 傅启明 高振 陆悠 吴宏杰 《计算机科学》 CSCD 北大核心 2020年第S01期130-134,147,共6页
针对经典深度Q网络(Deep Q-Network,DQN)算法在训练初期收敛速度慢的问题,文中提出一种新的基于函数逼近协同更新的DQN算法。该算法在经典的DQN算法的基础上融合了线性函数方法,在训练的初期利用线性函数逼近器来代替神经网络中的行为... 针对经典深度Q网络(Deep Q-Network,DQN)算法在训练初期收敛速度慢的问题,文中提出一种新的基于函数逼近协同更新的DQN算法。该算法在经典的DQN算法的基础上融合了线性函数方法,在训练的初期利用线性函数逼近器来代替神经网络中的行为值函数网络,并提出一种离策略值函数更新规则,与DQN协同更新值函数参数,加快神经网络的参数优化,进而加快算法的收敛速度。将改进后的算法与DQN算法用于CartPole和Mountain Car问题,实验结果表明,改进后的算法具有更快的收敛速度。 展开更多
关键词 强化学习 MDP DQN 线性函数
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部