不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐...不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm ark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法.展开更多
针对传统的欠驱动无人自主水下航行器路径跟踪技术依赖于精确的运动模型,且在三维空间中的应用存在着理论推导复杂、实际应用价值不高的缺点,首先将路径跟踪看作部分马尔科夫决策过程,通过在Soft Actor Critic框架中引入LSTM网络,提出LS...针对传统的欠驱动无人自主水下航行器路径跟踪技术依赖于精确的运动模型,且在三维空间中的应用存在着理论推导复杂、实际应用价值不高的缺点,首先将路径跟踪看作部分马尔科夫决策过程,通过在Soft Actor Critic框架中引入LSTM网络,提出LSTM-SAC算法解决二维路径跟踪问题;然后,将三维空间的跟踪问题利用分层思想划分到xOy和xOz两个子平面求解,在子平面中以较少的状态变量训练网络。仿真结果表明:所提算法具有更好的鲁棒性和更快的收敛速度,能够有效解决三维环境下的路径跟踪问题。展开更多
文摘不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm ark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法.
文摘针对传统的欠驱动无人自主水下航行器路径跟踪技术依赖于精确的运动模型,且在三维空间中的应用存在着理论推导复杂、实际应用价值不高的缺点,首先将路径跟踪看作部分马尔科夫决策过程,通过在Soft Actor Critic框架中引入LSTM网络,提出LSTM-SAC算法解决二维路径跟踪问题;然后,将三维空间的跟踪问题利用分层思想划分到xOy和xOz两个子平面求解,在子平面中以较少的状态变量训练网络。仿真结果表明:所提算法具有更好的鲁棒性和更快的收敛速度,能够有效解决三维环境下的路径跟踪问题。