期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于积分强化学习的四旋翼无人机鲁棒跟踪 被引量:1
1
作者 杨加秀 李新凯 +1 位作者 张宏立 王昊 《兵工学报》 EI CAS CSCD 北大核心 2023年第9期2802-2813,共12页
针对系统模型动态不确定和受外部干扰的四旋翼无人机位置轨迹跟踪控制问题,提出一种新的基于积分强化学习的鲁棒轨迹跟踪控制方法。建立四旋翼无人机原系统与参考轨迹的增广系统,将四旋翼无人机的鲁棒轨迹跟踪问题转化为镇定问题。通过... 针对系统模型动态不确定和受外部干扰的四旋翼无人机位置轨迹跟踪控制问题,提出一种新的基于积分强化学习的鲁棒轨迹跟踪控制方法。建立四旋翼无人机原系统与参考轨迹的增广系统,将四旋翼无人机的鲁棒轨迹跟踪问题转化为镇定问题。通过使用带有折扣因子的价值函数,将无人机增广系统的鲁棒镇定问题转化为四旋翼无人机的最优控制问题,从而兼顾到四旋翼无人机的跟踪误差和整体性能。基于积分强化学习方法,构建了单网络演员-评论家结构对最优价值函数进行估计,进而实现对四旋翼无人机控制器的在线求解。对四旋翼无人机系统跟踪误差的稳定性及单网络结构权值的收敛性进行了严格的数学证明,仿真结果验证了所设计控制方案的优越性和鲁棒性。 展开更多
关键词 四旋翼无人机 鲁棒跟踪控制 积分强化学习 最优控制 不确定性
在线阅读 下载PDF
基于积分强化学习的连续线性不确定系统最优控制分析
2
作者 陈昱 《河南科技》 2020年第28期12-14,共3页
针对系统模型参数未知的连续系统,本文主要分析和验证鲁棒积分强化学习的必要性。该方法不要求连续线性系统参数完全已知,也不需要对动态模型参数进行进一步估计。首先,采用优化性能的最优控制问题,基于动态规划方法得到代数黎卡提方程... 针对系统模型参数未知的连续系统,本文主要分析和验证鲁棒积分强化学习的必要性。该方法不要求连续线性系统参数完全已知,也不需要对动态模型参数进行进一步估计。首先,采用优化性能的最优控制问题,基于动态规划方法得到代数黎卡提方程;然后,利用积分强化学习方法,得到迭代贝尔曼方程,进一步利用积分强化学习算法,分析此算法在针对不确定系统时是否有效;最后,算例仿真验证在是否考虑不确定性存在状态下对连续线性不确定系统的影响。 展开更多
关键词 积分强化学习 连续系统 鲁棒性 不确定性
在线阅读 下载PDF
再入飞行器自适应最优姿态控制 被引量:10
3
作者 张振宁 张冉 +1 位作者 聂文明 李惠峰 《宇航学报》 EI CAS CSCD 北大核心 2019年第2期199-206,共8页
针对再入飞行器姿态控制问题,应用自适应动态规划(ADP)理论设计了姿态控制器。将再入飞行器的姿态控制建模为非线性系统的最优控制问题,提出单网络积分型强化学习(SNIRL)算法进行求解,该算法简化了积分型强化学习(IRL)算法在迭代计算中... 针对再入飞行器姿态控制问题,应用自适应动态规划(ADP)理论设计了姿态控制器。将再入飞行器的姿态控制建模为非线性系统的最优控制问题,提出单网络积分型强化学习(SNIRL)算法进行求解,该算法简化了积分型强化学习(IRL)算法在迭代计算中的执行-评价双网络结构,只需要采用评价网络估计值函数就可以求得最优控制律,其收敛性得到了理论证明。基于SNIRL算法设计了自适应最优控制器,并证明了闭环系统的稳定性。通过数值仿真校验了SNIRL算法比IRL算法计算效率更高,收敛速度更快,并校验了自适应最优姿态控制器的有效性。 展开更多
关键词 再入飞行器 姿态控制 自适应最优控制 单网络积分强化学习
在线阅读 下载PDF
Adaptive Optimal Control of Space Tether System for Payload Capture via Policy Iteration 被引量:2
4
作者 FENG Yiting ZHANG Ming +1 位作者 GUO Wenhao WANG Changqing 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2021年第4期560-570,共11页
The libration control problem of space tether system(STS)for post-capture of payload is studied.The process of payload capture will cause tether swing and deviation from the nominal position,resulting in the failure o... The libration control problem of space tether system(STS)for post-capture of payload is studied.The process of payload capture will cause tether swing and deviation from the nominal position,resulting in the failure of capture mission.Due to unknown inertial parameters after capturing the payload,an adaptive optimal control based on policy iteration is developed to stabilize the uncertain dynamic system in the post-capture phase.By introducing integral reinforcement learning(IRL)scheme,the algebraic Riccati equation(ARE)can be online solved without known dynamics.To avoid computational burden from iteration equations,the online implementation of policy iteration algorithm is provided by the least-squares solution method.Finally,the effectiveness of the algorithm is validated by numerical simulations. 展开更多
关键词 space tether system(STS) payload capture policy iteration integral reinforcement learning(IRL) state feedback
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部