期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于强化学习的合作线性二次微分博弈研究
1
作者 赵子豪 彭称称 张维海 《山东科技大学学报(自然科学版)》 北大核心 2025年第4期121-130,共10页
本研究利用强化学习研究了系统部分未知的无限时域合作线性二次微分博弈的Pareto最优性问题。首先,在仅知道部分系统动力学矩阵参数的前提下,通过收集每个玩家的状态信息来推导策略迭代算法,得到相应代数黎卡提方程的近似解;然后,通过... 本研究利用强化学习研究了系统部分未知的无限时域合作线性二次微分博弈的Pareto最优性问题。首先,在仅知道部分系统动力学矩阵参数的前提下,通过收集每个玩家的状态信息来推导策略迭代算法,得到相应代数黎卡提方程的近似解;然后,通过递归推导严格证明了算法的收敛性。在凸优化理论的基础上,采用加权法求解Pareto最优策略和Pareto最优解。最后,通过仿真结果验证了所提理论算法的可行性。 展开更多
关键词 策略迭代 PARETO最优 合作微分博弈 线性二次理论 强化学习
在线阅读 下载PDF
基于AUTOSAR的汽车控制器软件优化部署研究 被引量:1
2
作者 邹渊 马文斌 +2 位作者 张旭东 翟建阳 张兆龙 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第11期1192-1198,共7页
针对基于AUTOSAR的汽车控制器软件开发过程中SW-C到ECU、Runnable到OsTask以及OsTask到多核ECU中Core的软件优化部署问题,面向工程应用需求,建立了基于AUTOSAR的汽车控制器软件拓扑和优化部署模型,提出了一种基于D2RL和PER改进的SAC深... 针对基于AUTOSAR的汽车控制器软件开发过程中SW-C到ECU、Runnable到OsTask以及OsTask到多核ECU中Core的软件优化部署问题,面向工程应用需求,建立了基于AUTOSAR的汽车控制器软件拓扑和优化部署模型,提出了一种基于D2RL和PER改进的SAC深度强化学习求解框架.仿真实验显示所提方法相比于常用启发式算法在ECU核心负载均衡、OsTask栈空间利用率以及ECU之间和Core之间通信带宽利用率等具有优越性和稳定性. 展开更多
关键词 汽车开放系统架构 软件优化部署 深度强化学习 改进SAC
在线阅读 下载PDF
基于强化学习的任务型对话策略研究综述 被引量:4
3
作者 徐恺 王振宇 +2 位作者 王旭 秦华 龙宇轩 《计算机学报》 EI CAS CSCD 北大核心 2024年第6期1201-1231,共31页
对话系统在自然语言处理中发挥着重要作用,具有较好的实际应用前景和许多值得研究的方向.对话策略是基于管道方法的人机对话系统的核心组件,能够根据对话状态生成响应动作,进而指导对话生成.对话策略学习常建模为(半)马尔可夫决策过程,... 对话系统在自然语言处理中发挥着重要作用,具有较好的实际应用前景和许多值得研究的方向.对话策略是基于管道方法的人机对话系统的核心组件,能够根据对话状态生成响应动作,进而指导对话生成.对话策略学习常建模为(半)马尔可夫决策过程,然后通过强化学习求解.近年来,基于强化学习算法解决任务型对话策略问题的研究层出不穷,而相关综述缺乏.因此,本文对基于强化学习的任务型对话策略进行分析、归类、总结.首先,介绍分类强化学习的一般模型,并基于强化学习的分类,分析并总结现有对话策略学习的一般思路和存在问题;其次,基于不同的研究热点,包括多领域、多模态、多代理和共情对话策略,深度剖析新近研究的理论模型、研究进展和存在的问题;接着,针对对话策略的相关研究,包括用户模拟器、对话策略评估、对话策略平台与数据集以及大语言模型与对话策略等进行介绍;针对现有研究的不足,本文从5种不同的角度分析了对话策略的未来研究方向;最后,对全文进行总结与展望.本文不仅从强化学习分类上概述任务型对话策略,而且从应用的角度分类任务型对话策略,全方面、多角度地综述了任务型对话策略,为未来的任务型对话策略的研究提供启示. 展开更多
关键词 对话策略 强化学习 任务型对话系统 深度强化学习 多领域 多模态
在线阅读 下载PDF
基于类人行为表征的场景可迁移决策控制方法
4
作者 王昊阳 吕超 +3 位作者 党睿娜 尹俭芳 孟静 龚乘 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第8期801-808,共8页
为提升智能车对不同驾驶场景的适应能力和在复杂场景下的决策控制性能,提出了一种基于类人行为表征的智能车场景可迁移决策控制方法.该方法在人类驾驶数据采集的基础上进行类人行为表征与决策基元提取,采用强化学习方法构建决策控制模型... 为提升智能车对不同驾驶场景的适应能力和在复杂场景下的决策控制性能,提出了一种基于类人行为表征的智能车场景可迁移决策控制方法.该方法在人类驾驶数据采集的基础上进行类人行为表征与决策基元提取,采用强化学习方法构建决策控制模型,完成在复杂驾驶场景下的决策基元选取与场景通行.进一步从决策基元迁移和决策基元组合优化迁移两个维度构建决策控制迁移模型,并在仿真环境下对算法和模型进行了试验验证.结果表明,所提出的智能车场景可迁移决策控制方法能够实现在同类场景下的通行效率提升,提升百分比达到21.9%;在异类场景之间迁移的任务完成率达到97.5%. 展开更多
关键词 智能车辆 决策控制 场景迁移 行为表征 强化学习
在线阅读 下载PDF
基于连续时间半马尔可夫决策过程的Option算法 被引量:3
5
作者 唐昊 张晓艳 +1 位作者 韩江洪 周雷 《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势. 展开更多
关键词 连续时间半Markov决策过程 分层强化学习 Q学习
在线阅读 下载PDF
基于平均报酬模型的强化学习算法研究 被引量:1
6
作者 黄炳强 曹广益 +1 位作者 费燕琼 王占全 《上海理工大学学报》 EI CAS 北大核心 2006年第5期418-422,共5页
对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化... 对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向. 展开更多
关键词 平均报酬强化学习 R学习 H学习 LC学习
在线阅读 下载PDF
基于多时隙业务联合整形的低能耗资源调度方法 被引量:2
7
作者 李建东 牛淳隆 +1 位作者 赵晨曦 刘俊宇 《中兴通讯技术》 2023年第6期23-28,共6页
面向未来6G移动通信系统超高数据密度的业务需求场景,为保障用户服务质量(QoS)并降低系统能耗,首先分析了移动通信系统的能耗构成,发现了系统能耗的非线性特征。然后在此基础上,设计了多时隙业务联合整形的低能耗资源调度方法。该方法... 面向未来6G移动通信系统超高数据密度的业务需求场景,为保障用户服务质量(QoS)并降低系统能耗,首先分析了移动通信系统的能耗构成,发现了系统能耗的非线性特征。然后在此基础上,设计了多时隙业务联合整形的低能耗资源调度方法。该方法通过感知用户业务流量和时延要求等需求侧的数据特征,利用深度强化学习算法在给定的多个时隙内动态调整基站资源分配策略。该资源分配策略降低了用户业务请求的非平稳性,从而减少了基站的非线性传输特性产生的额外能耗。最后通过软件仿真对比不同方法,验证了基于多时隙业务联合整形的理论和算法的正确性及有效性。 展开更多
关键词 系统能耗的非线性特征 多时隙业务联合整形 低能耗资源调度 深度强化学习
在线阅读 下载PDF
莞惠城际轨道交通工程深基坑施工对邻近建筑物的影响及控制分析 被引量:8
8
作者 王凯椿 《隧道建设》 2014年第4期303-310,共8页
在城际轨道建设中,将深基坑周边邻近建筑物影响降到最低,是设计及施工必须研究的课题。为了解决深基坑开挖过程中邻近建筑物的安全问题,结合莞惠城际轨道GZH-5标工程实例,采用有限元模拟分析方法及该工程大量监测数据,通过建筑物加固前... 在城际轨道建设中,将深基坑周边邻近建筑物影响降到最低,是设计及施工必须研究的课题。为了解决深基坑开挖过程中邻近建筑物的安全问题,结合莞惠城际轨道GZH-5标工程实例,采用有限元模拟分析方法及该工程大量监测数据,通过建筑物加固前后变形情况对比,深入地研究超深基坑开挖对其邻近建筑物的影响及控制。主要得出以下结论:1)与基坑的距离关系,是影响开挖期间建筑物变形规律的主要因素;2)模型能有效预测莞惠城际GZH-5标施工过程中10层居民楼变形终值超过控制值,可为制定加固措施提供参考;3)该施工加固方案能有效控制10层建筑物的变形与沉降,合理可行。 展开更多
关键词 莞惠城际轨道 深基坑 邻近建筑物 施工加固 监控量测
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部