不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐...不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm ark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法.展开更多
为解决无人驾驶车辆在无信号保护路口左转规划中高效性与安全性相矛盾的问题,文章参考路径-速度解耦规划思路,提出一种左转规划区对角线分割(diagonal division of the planning area of left turns,DDPALT)的路径生成方法,结合基于部...为解决无人驾驶车辆在无信号保护路口左转规划中高效性与安全性相矛盾的问题,文章参考路径-速度解耦规划思路,提出一种左转规划区对角线分割(diagonal division of the planning area of left turns,DDPALT)的路径生成方法,结合基于部分可观察马尔可夫决策过程(partially observable Markov decision process,POMDP)的速度规划方法分别进行路径与速度规划,实现在环境车辆驾驶意图不确定情形下安全高效的左转规划。利用PreScan和MATLAB/Simulink联合仿真对文中提出的方法进行验证,结果表明,该方法能够让无人驾驶车辆在不确定环境中选择合适的路径并安全高效地完成左转。展开更多
文摘不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm ark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法.
文摘为解决无人驾驶车辆在无信号保护路口左转规划中高效性与安全性相矛盾的问题,文章参考路径-速度解耦规划思路,提出一种左转规划区对角线分割(diagonal division of the planning area of left turns,DDPALT)的路径生成方法,结合基于部分可观察马尔可夫决策过程(partially observable Markov decision process,POMDP)的速度规划方法分别进行路径与速度规划,实现在环境车辆驾驶意图不确定情形下安全高效的左转规划。利用PreScan和MATLAB/Simulink联合仿真对文中提出的方法进行验证,结果表明,该方法能够让无人驾驶车辆在不确定环境中选择合适的路径并安全高效地完成左转。