不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐...不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm ark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法.展开更多
为了解决高维小样本的特征选择问题,该文结合文化基因算法(Memetic algorithm,MA)与最小二乘支持向量机(Memetic algorithm and least squares support vector machine,MALSSVM),设计了一种封装式(Wrapper)特征选择算法。该方法将全局...为了解决高维小样本的特征选择问题,该文结合文化基因算法(Memetic algorithm,MA)与最小二乘支持向量机(Memetic algorithm and least squares support vector machine,MALSSVM),设计了一种封装式(Wrapper)特征选择算法。该方法将全局搜索与局部搜索相结合作为求解策略,利用了最小二乘支持向量机易于求解的特点,构造分类器,以分类的准确率作为文化基因算法寻优过程中适应度函数的主要成分。实验表明,MA-LSSVM可以较高效稳定地获取对分类贡献较大的特征,降低数据维度,提高了分类效率。展开更多
文摘不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm ark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法.
文摘为了解决高维小样本的特征选择问题,该文结合文化基因算法(Memetic algorithm,MA)与最小二乘支持向量机(Memetic algorithm and least squares support vector machine,MALSSVM),设计了一种封装式(Wrapper)特征选择算法。该方法将全局搜索与局部搜索相结合作为求解策略,利用了最小二乘支持向量机易于求解的特点,构造分类器,以分类的准确率作为文化基因算法寻优过程中适应度函数的主要成分。实验表明,MA-LSSVM可以较高效稳定地获取对分类贡献较大的特征,降低数据维度,提高了分类效率。