检索结果-维普期刊中文期刊服务平台

基于强化学习的合作线性二次微分博弈研究: 1; 作者赵子豪彭称称张维海《山东科技大学学报(自然科学版)》北大核心 2025年第4期121-130,共10页; 本研究利用强化学习研究了系统部分未知的无限时域合作线性二次微分博弈的Pareto最优性问题。首先,在仅知道部分系统动力学矩阵参数的前提下,通过收集每个玩家的状态信息来推导策略迭代算法,得到相应代数黎卡提方程的近似解;然后,通过... 展开更多; 关键词策略迭代 PARETO最优合作微分博弈线性二次理论强化学习; 在线阅读下载PDF 职称材料

基于AUTOSAR的汽车控制器软件优化部署研究被引量：1: 2; 作者邹渊马文斌 +2 位作者张旭东翟建阳张兆龙《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第11期1192-1198,共7页; 针对基于AUTOSAR的汽车控制器软件开发过程中SW-C到ECU、Runnable到OsTask以及OsTask到多核ECU中Core的软件优化部署问题,面向工程应用需求,建立了基于AUTOSAR的汽车控制器软件拓扑和优化部署模型,提出了一种基于D2RL和PER改进的SAC深... 展开更多; 关键词汽车开放系统架构软件优化部署深度强化学习改进SAC; 在线阅读下载PDF 职称材料

基于强化学习的任务型对话策略研究综述被引量：4: 3; 作者徐恺王振宇 +2 位作者王旭秦华龙宇轩《计算机学报》 EI CAS CSCD 北大核心 2024年第6期1201-1231,共31页; 对话系统在自然语言处理中发挥着重要作用,具有较好的实际应用前景和许多值得研究的方向.对话策略是基于管道方法的人机对话系统的核心组件,能够根据对话状态生成响应动作,进而指导对话生成.对话策略学习常建模为(半)马尔可夫决策过程,... 展开更多; 关键词对话策略强化学习任务型对话系统深度强化学习多领域多模态; 在线阅读下载PDF 职称材料

基于类人行为表征的场景可迁移决策控制方法: 4; 作者王昊阳吕超 +3 位作者党睿娜尹俭芳孟静龚乘《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第8期801-808,共8页; 为提升智能车对不同驾驶场景的适应能力和在复杂场景下的决策控制性能,提出了一种基于类人行为表征的智能车场景可迁移决策控制方法.该方法在人类驾驶数据采集的基础上进行类人行为表征与决策基元提取,采用强化学习方法构建决策控制模型... 展开更多; 关键词智能车辆决策控制场景迁移行为表征强化学习; 在线阅读下载PDF 职称材料

基于连续时间半马尔可夫决策过程的Option算法被引量：3: 5; 作者唐昊张晓艳 +1 位作者韩江洪周雷《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页; 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 展开更多; 关键词连续时间半Markov决策过程分层强化学习 Q学习; 在线阅读下载PDF 职称材料

基于平均报酬模型的强化学习算法研究被引量：1: 6; 作者黄炳强曹广益 +1 位作者费燕琼王占全《上海理工大学学报》 EI CAS 北大核心 2006年第5期418-422,共5页; 对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化... 展开更多; 关键词平均报酬强化学习 R学习 H学习 LC学习; 在线阅读下载PDF 职称材料

基于多时隙业务联合整形的低能耗资源调度方法被引量：2: 7; 作者李建东牛淳隆 +1 位作者赵晨曦刘俊宇《中兴通讯技术》 2023年第6期23-28,共6页; 面向未来6G移动通信系统超高数据密度的业务需求场景,为保障用户服务质量(QoS)并降低系统能耗,首先分析了移动通信系统的能耗构成,发现了系统能耗的非线性特征。然后在此基础上,设计了多时隙业务联合整形的低能耗资源调度方法。该方法... 展开更多; 关键词系统能耗的非线性特征多时隙业务联合整形低能耗资源调度深度强化学习; 在线阅读下载PDF 职称材料

莞惠城际轨道交通工程深基坑施工对邻近建筑物的影响及控制分析被引量：8: 8; 作者王凯椿《隧道建设》 2014年第4期303-310,共8页; 在城际轨道建设中,将深基坑周边邻近建筑物影响降到最低,是设计及施工必须研究的课题。为了解决深基坑开挖过程中邻近建筑物的安全问题,结合莞惠城际轨道GZH-5标工程实例,采用有限元模拟分析方法及该工程大量监测数据,通过建筑物加固前... 展开更多; 关键词莞惠城际轨道深基坑邻近建筑物施工加固监控量测; 在线阅读下载PDF 职称材料

题名基于强化学习的合作线性二次微分博弈研究: 1; 作者赵子豪彭称称张维海; 机构青岛理工大学信息与控制工程学院山东科技大学电气与自动化工程学院; 出处《山东科技大学学报(自然科学版)》北大核心 2025年第4期121-130,共10页; 基金国家自然科学基金项目(62203247,62373229)。; 文摘本研究利用强化学习研究了系统部分未知的无限时域合作线性二次微分博弈的Pareto最优性问题。首先,在仅知道部分系统动力学矩阵参数的前提下,通过收集每个玩家的状态信息来推导策略迭代算法,得到相应代数黎卡提方程的近似解;然后,通过递归推导严格证明了算法的收敛性。在凸优化理论的基础上,采用加权法求解Pareto最优策略和Pareto最优解。最后,通过仿真结果验证了所提理论算法的可行性。; 关键词策略迭代 PARETO最优合作微分博弈线性二次理论强化学习; Keywords policy iterations Pareto optimality cooperative differential games linear quadratic theory rein forcement learning; 分类号 TP13 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于AUTOSAR的汽车控制器软件优化部署研究被引量：1: 2; 作者邹渊马文斌张旭东翟建阳张兆龙; 机构北京理工大学机械与车辆学院北京新能源汽车股份有限公司; 出处《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第11期1192-1198,共7页; 基金国家重点研发计划(2021YFB2500900)资助。; 文摘针对基于AUTOSAR的汽车控制器软件开发过程中SW-C到ECU、Runnable到OsTask以及OsTask到多核ECU中Core的软件优化部署问题,面向工程应用需求,建立了基于AUTOSAR的汽车控制器软件拓扑和优化部署模型,提出了一种基于D2RL和PER改进的SAC深度强化学习求解框架.仿真实验显示所提方法相比于常用启发式算法在ECU核心负载均衡、OsTask栈空间利用率以及ECU之间和Core之间通信带宽利用率等具有优越性和稳定性.; 关键词汽车开放系统架构软件优化部署深度强化学习改进SAC; Keywords automotive open system architecture(AUTOSAR) software optimization deployment deep rein-forcement learning improved SAC; 分类号 U462.1 [机械工程—车辆工程]; 在线阅读下载PDF 职称材料

题名基于强化学习的任务型对话策略研究综述被引量：4: 3; 作者徐恺王振宇王旭秦华龙宇轩; 机构华南理工大学软件学院; 出处《计算机学报》 EI CAS CSCD 北大核心 2024年第6期1201-1231,共31页; 基金广东省重点领域研发计划项目(2021B0101190002)资助.; 文摘对话系统在自然语言处理中发挥着重要作用,具有较好的实际应用前景和许多值得研究的方向.对话策略是基于管道方法的人机对话系统的核心组件,能够根据对话状态生成响应动作,进而指导对话生成.对话策略学习常建模为(半)马尔可夫决策过程,然后通过强化学习求解.近年来,基于强化学习算法解决任务型对话策略问题的研究层出不穷,而相关综述缺乏.因此,本文对基于强化学习的任务型对话策略进行分析、归类、总结.首先,介绍分类强化学习的一般模型,并基于强化学习的分类,分析并总结现有对话策略学习的一般思路和存在问题;其次,基于不同的研究热点,包括多领域、多模态、多代理和共情对话策略,深度剖析新近研究的理论模型、研究进展和存在的问题;接着,针对对话策略的相关研究,包括用户模拟器、对话策略评估、对话策略平台与数据集以及大语言模型与对话策略等进行介绍;针对现有研究的不足,本文从5种不同的角度分析了对话策略的未来研究方向;最后,对全文进行总结与展望.本文不仅从强化学习分类上概述任务型对话策略,而且从应用的角度分类任务型对话策略,全方面、多角度地综述了任务型对话策略,为未来的任务型对话策略的研究提供启示.; 关键词对话策略强化学习任务型对话系统深度强化学习多领域多模态; Keywords dialogue policy reinforcement learning task-oriented dialogue systems deep rein-forcement learning multidomain multimodal; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于类人行为表征的场景可迁移决策控制方法: 4; 作者王昊阳吕超党睿娜尹俭芳孟静龚乘; 机构北京理工大学机械与车辆学院中兵智能创新研究院有限公司群体协同与自主实验室; 出处《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第8期801-808,共8页; 基金科技创新2030—“新一代人工智能”重大项目(2022ZD0115503) 国家自然科学基金资助项目(52372405)。; 文摘为提升智能车对不同驾驶场景的适应能力和在复杂场景下的决策控制性能,提出了一种基于类人行为表征的智能车场景可迁移决策控制方法.该方法在人类驾驶数据采集的基础上进行类人行为表征与决策基元提取,采用强化学习方法构建决策控制模型,完成在复杂驾驶场景下的决策基元选取与场景通行.进一步从决策基元迁移和决策基元组合优化迁移两个维度构建决策控制迁移模型,并在仿真环境下对算法和模型进行了试验验证.结果表明,所提出的智能车场景可迁移决策控制方法能够实现在同类场景下的通行效率提升,提升百分比达到21.9%;在异类场景之间迁移的任务完成率达到97.5%.; 关键词智能车辆决策控制场景迁移行为表征强化学习; Keywords intelligent vehicle decision-making and control scenario transfer behavior representation rein-forcement learning; 分类号 U461 [机械工程—车辆工程]; 在线阅读下载PDF 职称材料

题名基于连续时间半马尔可夫决策过程的Option算法被引量：3: 5; 作者唐昊张晓艳韩江洪周雷; 机构合肥工业大学计算机与信息学院合肥工业大学电气与自动化工程学院; 出处《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页; 基金国家自然科学基金(61174188,71231004,61374158) 国家国际科技合作项目(2011FA10440) +1 种基金高等学校博士学科点专项科研基金(博导类)(20130111110007)资助~~; 文摘针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势.; 关键词连续时间半Markov决策过程分层强化学习 Q学习; Keywords Continuous-Time Semi-Markov Decision Process （CT-SMDP） Hierarchical rein-forcement learning （HRL） Q-learning; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于平均报酬模型的强化学习算法研究被引量：1: 6; 作者黄炳强曹广益费燕琼王占全; 机构上海交通大学电子信息与电气工程学院上海交通大学机械与动力工程学院华东理工大学信息科学与工程学院; 出处《上海理工大学学报》 EI CAS 北大核心 2006年第5期418-422,共5页; 基金国家自然科学基金资助项目(50305021); 文摘对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向.; 关键词平均报酬强化学习 R学习 H学习 LC学习; Keywords average reward rein forcement learning R-learning H-learning LC-leaning; 分类号 TP24 [自动化与计算机技术—检测技术与自动化装置]; 在线阅读下载PDF 职称材料

题名基于多时隙业务联合整形的低能耗资源调度方法被引量：2: 7; 作者李建东牛淳隆赵晨曦刘俊宇; 机构西安电子科技大学; 出处《中兴通讯技术》 2023年第6期23-28,共6页; 基金国家重点研发计划项目(2022YFB2902302)。; 文摘面向未来6G移动通信系统超高数据密度的业务需求场景,为保障用户服务质量(QoS)并降低系统能耗,首先分析了移动通信系统的能耗构成,发现了系统能耗的非线性特征。然后在此基础上,设计了多时隙业务联合整形的低能耗资源调度方法。该方法通过感知用户业务流量和时延要求等需求侧的数据特征,利用深度强化学习算法在给定的多个时隙内动态调整基站资源分配策略。该资源分配策略降低了用户业务请求的非平稳性,从而减少了基站的非线性传输特性产生的额外能耗。最后通过软件仿真对比不同方法,验证了基于多时隙业务联合整形的理论和算法的正确性及有效性。; 关键词系统能耗的非线性特征多时隙业务联合整形低能耗资源调度深度强化学习; Keywords nonlinear characteristics of system energy consumption multi-slot traffic joint shaping low energy resource allocation deep rein⁃forcement learning; 分类号 TN929.5 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名莞惠城际轨道交通工程深基坑施工对邻近建筑物的影响及控制分析被引量：8: 8; 作者王凯椿; 机构中交第一公路工程局有限公司土木技术研究院; 出处《隧道建设》 2014年第4期303-310,共8页; 文摘在城际轨道建设中,将深基坑周边邻近建筑物影响降到最低,是设计及施工必须研究的课题。为了解决深基坑开挖过程中邻近建筑物的安全问题,结合莞惠城际轨道GZH-5标工程实例,采用有限元模拟分析方法及该工程大量监测数据,通过建筑物加固前后变形情况对比,深入地研究超深基坑开挖对其邻近建筑物的影响及控制。主要得出以下结论:1)与基坑的距离关系,是影响开挖期间建筑物变形规律的主要因素;2)模型能有效预测莞惠城际GZH-5标施工过程中10层居民楼变形终值超过控制值,可为制定加固措施提供参考;3)该施工加固方案能有效控制10层建筑物的变形与沉降,合理可行。; 关键词莞惠城际轨道深基坑邻近建筑物施工加固监控量测; Keywords 有限元软件MIDAS-GTS Dongguan-Huizhou inter-city rail transit project deep foundation pit adjacent building construction rein-forcement monitoring finite element software MIDAS-GTS; 分类号 U45 [建筑科学—桥梁与隧道工程]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于强化学习的合作线性二次微分博弈研究	赵子豪彭称称张维海	《山东科技大学学报(自然科学版)》北大核心	2025	0	在线阅读下载PDF 职称材料
2	基于AUTOSAR的汽车控制器软件优化部署研究	邹渊马文斌张旭东翟建阳张兆龙	《北京理工大学学报》 EI CAS CSCD 北大核心	2024	1	在线阅读下载PDF 职称材料
3	基于强化学习的任务型对话策略研究综述	徐恺王振宇王旭秦华龙宇轩	《计算机学报》 EI CAS CSCD 北大核心	2024	4	在线阅读下载PDF 职称材料
4	基于类人行为表征的场景可迁移决策控制方法	王昊阳吕超党睿娜尹俭芳孟静龚乘	《北京理工大学学报》 EI CAS CSCD 北大核心	2024	0	在线阅读下载PDF 职称材料
5	基于连续时间半马尔可夫决策过程的Option算法	唐昊张晓艳韩江洪周雷	《计算机学报》 EI CSCD 北大核心	2014	3	在线阅读下载PDF 职称材料
6	基于平均报酬模型的强化学习算法研究	黄炳强曹广益费燕琼王占全	《上海理工大学学报》 EI CAS 北大核心	2006	1	在线阅读下载PDF 职称材料
7	基于多时隙业务联合整形的低能耗资源调度方法	李建东牛淳隆赵晨曦刘俊宇	《中兴通讯技术》	2023	2	在线阅读下载PDF 职称材料
8	莞惠城际轨道交通工程深基坑施工对邻近建筑物的影响及控制分析	王凯椿	《隧道建设》	2014	8	在线阅读下载PDF 职称材料