-
题名基于每阶段平均费用最优的激励学习算法
被引量:3
- 1
-
-
作者
殷苌茗
陈焕文
谢丽娟
-
机构
长沙电力学院数学与计算机系
-
出处
《计算机应用》
CSCD
北大核心
2002年第4期25-27,共3页
-
基金
国家自然科学基金 (60 0 750 1 9)
-
文摘
文中利用求解最优费用函数的方法给出了一种新的激励学习算法 ,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法 ,它从求解分阶段最优平均费用函数的方法出发 ,分析了最优解的存在性、分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立 ,可以使得动态规划 (DP)
-
关键词
Q学习
最优平均费用函数
Bellman方程
智能体
激励学习算法
人工智能
-
Keywords
reinforcement learning
Q learning
optimal average cost function
Markovian decision process
Bellman equation
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名企业员工复杂适应行为的模拟
被引量:2
- 2
-
-
作者
胡斌
王志明
-
机构
华中科技大学管理学院
-
出处
《管理学报》
2007年第1期89-93,共5页
-
基金
国家自然科学基金资助项目(70271029)
湖北省自然科学基金资助项目(2004ABA069)
-
文摘
基于复杂适应性系统理论,利用SWARM平台开发了基于多主体的群体行为模拟系统,应用激励学习算法和遗传算法实现员工在模拟中的学习能力与适应能力。用元胞自动机理论模拟员工的行为,并建立了群体系统模型,模型中的各个主体具有其自身的行为规则和策略,通过主体以及主体与其周围环境之间的相互作用和影响,表明了群体系统涌现出宏观层面上的特征。最后,基于SWARM平台,运用JBu ilder2005软件,开发了系统原型,给定一个初始的群体状态进行模拟,并对实验结果进行分析。
-
关键词
复杂适应系统
群体行为
元胞自动机
激励学习算法
遗传算法
-
Keywords
complex adaptive system
group behavior
cellular automation
reinforcement learning
genetic algorithm
-
分类号
C391
[社会学]
-