期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于强化学习与正向动力学仿真的关节力矩估计算法
1
作者 王宽 牛文鑫 《医用生物力学》 CAS CSCD 北大核心 2021年第S01期179-179,共1页
目的为解决无地面反作用力条件下的关节力矩估算,开发一种结合强化学习和正向动力学仿真的关节力矩估计算法,作为逆向动力学计算的补充。方法设计1个基于强化学习的分层控制算法,用于驱动仿真环境中的人体骨骼模型。上层控制器输入模型... 目的为解决无地面反作用力条件下的关节力矩估算,开发一种结合强化学习和正向动力学仿真的关节力矩估计算法,作为逆向动力学计算的补充。方法设计1个基于强化学习的分层控制算法,用于驱动仿真环境中的人体骨骼模型。上层控制器输入模型的状态向量以及关节角度参考值,通过神经网络输出关节角度的偏差,经插值处理后,计算出期望的关节角度。在下层控制器中,该期望的关节角度通过1个串联的比例控制器,计算用于驱动模型的力矩。 展开更多
关键词 关节角度 强化学习 比例控制器 关节力矩 逆向动力学 骨骼模型 驱动模型 分层控制
在线阅读 下载PDF
基于概率模型的动态分层强化学习 被引量:2
2
作者 戴朝晖 袁姣红 +1 位作者 吴敏 陈鑫 《控制理论与应用》 EI CAS CSCD 北大核心 2011年第11期1595-1600,1606,共7页
为解决大规模强化学习中的"维度灾难"问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转移概率进行建模,建立基于概率参数的关键状态识别... 为解决大规模强化学习中的"维度灾难"问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转移概率进行建模,建立基于概率参数的关键状态识别方法,进而通过聚类动态生成若干状态子空间和学习分层结构下的最优策略.仿真结果表明该算法能显著提高复杂环境下智能体的学习效率,适用于未知环境中的大规模学习. 展开更多
关键词 动态分层强化学习 贝叶斯学习 状态转移概率模型 智能体
在线阅读 下载PDF
基于二阶随机动力学的多虚拟电厂自趋优能量管理策略 被引量:3
3
作者 陈嘉琛 陈中 +2 位作者 李冰融 刘汶瑜 潘俊迪 《中国电机工程学报》 EI CSCD 北大核心 2024年第16期6294-6306,I0003,共14页
分布式资源(distributed energy resources,DERs)的随机元素会引起多虚拟电厂(multi-virtual power plant,MVPP)系统内虚拟电厂(virtual power plant,VPP)策略频繁变化。对于某主体,如何感知其他主体策略突然变化时对自身收益的影响趋势... 分布式资源(distributed energy resources,DERs)的随机元素会引起多虚拟电厂(multi-virtual power plant,MVPP)系统内虚拟电厂(virtual power plant,VPP)策略频繁变化。对于某主体,如何感知其他主体策略突然变化时对自身收益的影响趋势,并快速调整自身策略,是亟需解决的难点。该文提出基于二阶随机动力学的多虚拟电厂自趋优能量管理策略,旨在提升VPP应对其他主体策略变化时的自治能力。首先,针对DERs异质运行特性,聚焦可调空间构建VPP聚合运行模型;然后,基于随机图描绘VPP策略变化的随机特性;其次,用二阶随机动力学方程(stochastic dynamic equation,SDE)探索VPP收益结构的自发演化信息,修正其他主体策略变化时自身综合收益;再次,将修正收益作为融合软动作-评价(integrated soft actor–critic,ISAC)强化学习算法的奖励搭建多智能体求解框架。最后,设计多算法对比实验,验证了该文策略的自趋优性能。 展开更多
关键词 多虚拟电厂 自趋优 聚合运行模型 二阶随机动力学 多智能体强化学习
在线阅读 下载PDF
一种基于深度强化学习与概率性能感知的边缘计算环境多工作流卸载方法 被引量:6
4
作者 马堉银 郑万波 +5 位作者 马勇 刘航 夏云霓 郭坤银 陈鹏 刘诚武 《计算机科学》 CSCD 北大核心 2021年第1期40-48,共9页
移动边缘计算是一种新兴的分布式和泛在计算模式,其将计算密集型和时延敏感型任务转移到附近的边缘服务器,有效缓解了移动终端资源不足的问题,显著减小了用户与计算处理节点之间的通信传输开销。然而,如果多个用户同时提出计算密集型任... 移动边缘计算是一种新兴的分布式和泛在计算模式,其将计算密集型和时延敏感型任务转移到附近的边缘服务器,有效缓解了移动终端资源不足的问题,显著减小了用户与计算处理节点之间的通信传输开销。然而,如果多个用户同时提出计算密集型任务请求,特别是流程化的工作流任务请求,边缘计算环境往往难以有效地进行响应,并会造成任务拥塞。另外,受任务负载、电力供给、通信能力的实时变化等不利因素的影响,边缘服务器本身的性能总是处于波动和变化中,从而为保证任务执行效能和用户感知服务效率带来了挑战。针对上述问题,文中提出了一种基于深度Q网络(DQN)与概率性能感知机制的边缘计算环境多工作流调度方法。首先对边缘云服务器的历史性能数据进行概率分析,然后利用获得的性能概率分布数据驱动DQN模型,不断迭代优化,生成多工作流的卸载策略。在实验验证环节,基于边缘服务器位置数据集、性能测试数据和多个科学工作流模板,在反映不同系统负载水平的多个场景下进行了模拟实验。实验结果表明,所提方法在多工作流执行效率方面明显优于传统方法。 展开更多
关键词 工作流调度 边缘计算 概率分布模型 强化学习 深度Q网络
在线阅读 下载PDF
基于强化学习的机器人曲面恒力跟踪研究 被引量:8
5
作者 张铁 肖蒙 +1 位作者 邹焱飚 肖佳栋 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2019年第10期1865-1873,1882,共10页
针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与... 针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与接触状态的关系进行学习,对部分接触状态进行预测,强化学习根据预测的状态优化机器人位移输入参数,得到期望跟踪力信号.实验中,将强化学习的输入状态改为一段时间内的状态平均值以减少接触状态下信号的干扰.实验结果表明,利用PILCO算法在迭代8次后能够得到较稳定的力,相比于模糊迭代算法收敛速度较快,力误差绝对值的平均值减少了29%. 展开更多
关键词 机器人 曲面跟踪 力控制 基于概率动力学模型的强化学习(pilco) 强化学习
在线阅读 下载PDF
基于深度强化学习的四旋翼无人机航线跟随 被引量:6
6
作者 杨志鹏 李波 +1 位作者 甘志刚 梁诗阳 《指挥与控制学报》 CSCD 2022年第4期477-482,共6页
针对无人机在空中执行航线跟随任务时无法对未知环境作出合理应对措施等问题,提出了一种基于深度强化学习的四旋翼无人机航线跟随方法.通过无人机受力分析、欧拉角变换建立四旋翼无人机动力学模型.在深度强化学习的框架下,分析无人机坐... 针对无人机在空中执行航线跟随任务时无法对未知环境作出合理应对措施等问题,提出了一种基于深度强化学习的四旋翼无人机航线跟随方法.通过无人机受力分析、欧拉角变换建立四旋翼无人机动力学模型.在深度强化学习的框架下,分析无人机坐标值、欧拉角、速度值等相关因素,对无人机的状态空间进行模糊化,作为深度强化学习的状态输入.相对于传统方法,构建的四旋翼无人机非线性飞行运动学和动力学模型更为真实.仿真结果表明,在不断的训练和学习后,四旋翼无人机能够对随机产生的任务航线进行高精度跟随. 展开更多
关键词 四旋翼无人机 航线跟随 深度强化学习 状态空间 动力学模型
在线阅读 下载PDF
基于神经认知计算模型的高分辨率遥感图像场景分类 被引量:10
7
作者 刘扬 付征叶 郑逢斌 《系统工程与电子技术》 EI CSCD 北大核心 2015年第11期2623-2633,共11页
通过大脑对外界环境感知的神经结构与认知功能的相关研究,构建仿脑的媒体神经认知计算(multimedia neural cognitive computing,MNCC)模型。该模型模拟了感官的信息感知、新皮层功能柱的认知功能、丘脑的注意控制结构、海马体的记忆存... 通过大脑对外界环境感知的神经结构与认知功能的相关研究,构建仿脑的媒体神经认知计算(multimedia neural cognitive computing,MNCC)模型。该模型模拟了感官的信息感知、新皮层功能柱的认知功能、丘脑的注意控制结构、海马体的记忆存储和边缘系统的情绪控制环路等大脑基本的神经结构和认知功能。在此基础上,构建基于MNCC的高分辨率遥感图像场景分类算法。首先,图像经仿射变换后切分为若干图块,通过深度神经网络提取图块的稀疏激活特征,采用概率主题模型获取图块初始场景类别,并利用图块分类错误信息反馈控制场景显著区特征的提取;其次,根据图块的上下文获取场景语义的时空特征,并在此基础上进行图块分类和场景预分类;最后,用场景预分类误差构造奖惩函数,控制和选择深度神经网络中场景区分度较大的稀疏激活特征,并通过增量式强化集成学习,获得最后的场景分类。在两个标准的高分辨率遥感图像数据集上的实验结果表明,MNCC算法具备较好场景分类结果。 展开更多
关键词 媒体神经认知计算 遥感场景分类 深度神经网络 稀疏激活特征 概率主题模型 增量式强化集成学习
在线阅读 下载PDF
一种自适应概率规划规则抽取算法 被引量:3
8
作者 高阳 陆鑫 +1 位作者 李宁 陈世福 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2003年第2期145-152,共8页
 在已知状态迁移条件下,利用传统概率规划技术能够获得确定的规划规则.而强化学习技术能够在未知环境条件下,利用试错和奖赏函数在线学习动态环境的策略知识.因此一种自适应的概率规划规则抽取算法被提出.该算法首先在强化学习获得的...  在已知状态迁移条件下,利用传统概率规划技术能够获得确定的规划规则.而强化学习技术能够在未知环境条件下,利用试错和奖赏函数在线学习动态环境的策略知识.因此一种自适应的概率规划规则抽取算法被提出.该算法首先在强化学习获得的最优状态-动作对值函数基础上,通过迭代得到有折扣无奖赏的值函数和无折扣无奖赏的值函数.然后通过子规划剪枝将大于指定规划步数的子规划去除,并得到子规划剪枝后的状态-动作对值函数.最后通过Beamsearch算法从值函数中抽取满足概率规划条件的规划知识,从而在规划模型变化的条件下.也可以获得确定的概率规划规则.实验证明,这种自适应概率规划规则抽取算法是有效的. 展开更多
关键词 自适应 概率规划 规则抽取算法 强化学习 Beamsearch算法 值函数 规划模型
在线阅读 下载PDF
ChatGPT的工作原理、关键技术及未来发展趋势 被引量:46
9
作者 秦涛 杜尚恒 +1 位作者 常元元 王晨旭 《西安交通大学学报》 EI CSCD 北大核心 2024年第1期1-12,共12页
ChatGPT是自然语言处理领域的一项重要技术突破,专注于对话生成任务,在多种任务中表现出卓越的性能。主要探讨ChatGPT的演变历程、关键技术,并分析了其未来可能的发展方向。首先,介绍了ChatGPT的模型架构和技术演进过程。随后,重点讨论... ChatGPT是自然语言处理领域的一项重要技术突破,专注于对话生成任务,在多种任务中表现出卓越的性能。主要探讨ChatGPT的演变历程、关键技术,并分析了其未来可能的发展方向。首先,介绍了ChatGPT的模型架构和技术演进过程。随后,重点讨论了ChatGPT的关键技术,包括提示学习与指令微调、思维链、人类反馈强化学习。然后,分析了由于基于概率生成原理所造成的固有局限,包括事实性错误、垂直领域深度性弱、潜在的恶意应用风险、可解释性及模型实时性差等。最后,探讨了其在典型应用中存在的问题和相应的解决途径,包括在训练评估过程中考虑道德和安全性因素,以降低潜在风险;结合外部专家知识和迁移学习,以提高模型对特定领域的理解能力,更好地适应特定任务场景;引入多模态数据,以提高模型信息理解能力,增强模型通用性和泛化性。通过对ChatGPT模型框架、技术演变与关键技术的分析,为深入理解ChatGPT提供帮助;结合原理分析其固有缺陷,并结合实际应用中存在的问题,挖掘未来可能的研究方向,为自然语言处理领域的深入研究提供有益参考。 展开更多
关键词 ChatGPT模型架构 概率生成 强化学习 迁移学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部