检索结果-维普期刊中文期刊服务平台

共找到1篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

平均奖赏MDP的在策略无模型激励学习算法: 1; 作者陈焕文谢丽娟《计算机工程与科学》 CSCD 2001年第2期66-69,共4页; 本文以随机逼近的形式 ,提出了一些用于求解平均奖赏 Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功应用于折扣奖赏 MDP的 SARSA(λ)类算法相似。为比较这些新算法的性能 ,本文还给出了一些初步的实验结果。; 关键词激励学习 MARKOV决策过程平均奖赏折扣奖赏人工智能; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	平均奖赏MDP的在策略无模型激励学习算法	陈焕文谢丽娟	《计算机工程与科学》 CSCD	2001	0	在线阅读下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析