描述了一类平面2R机械臂的模型.在不考虑外力干扰的条件下建立了系统的动力学方程,求出其中包含的独立的孤立运动积分并分析了其中循环积分的非完整约束特性,证明了该系统的可积性.根据W h ittaker定理利用能量积分对系统进行降阶,求得...描述了一类平面2R机械臂的模型.在不考虑外力干扰的条件下建立了系统的动力学方程,求出其中包含的独立的孤立运动积分并分析了其中循环积分的非完整约束特性,证明了该系统的可积性.根据W h ittaker定理利用能量积分对系统进行降阶,求得一组封闭解的表达式.在此基础上分析系统的转动数,发现转动数一般为无理数,只在某些特定条件下存在有理旋转数,从而系统作准周期运动或者周期运动.展开更多
在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态–动作–奖励–状态–动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probabl...在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态–动作–奖励–状态–动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probably approximately correct,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实现方式,分别使用状态离散化和kd树(k-dimensional树)技术,存储数据和计算在线策略.最后我们将提出的两个算法应用在双连杆机械臂运动控制上,观察算法的效果并进行比较.展开更多
文摘描述了一类平面2R机械臂的模型.在不考虑外力干扰的条件下建立了系统的动力学方程,求出其中包含的独立的孤立运动积分并分析了其中循环积分的非完整约束特性,证明了该系统的可积性.根据W h ittaker定理利用能量积分对系统进行降阶,求得一组封闭解的表达式.在此基础上分析系统的转动数,发现转动数一般为无理数,只在某些特定条件下存在有理旋转数,从而系统作准周期运动或者周期运动.
文摘在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态–动作–奖励–状态–动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probably approximately correct,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实现方式,分别使用状态离散化和kd树(k-dimensional树)技术,存储数据和计算在线策略.最后我们将提出的两个算法应用在双连杆机械臂运动控制上,观察算法的效果并进行比较.