-
题名函数联接神经网络的实验研究
被引量:2
- 1
-
-
作者
陈焕文
龚红舫
谢建平
-
机构
长沙电力学院数学与计算机系
长沙交通学院网络中心
-
出处
《长沙水电师院学报(自然科学版)》
2000年第2期15-19,共5页
-
文摘
函数联接神经网络具有结构简单 ,易于实现 ,扩展性和通用性强等许多优点 .利用面向对象方法实现了函数联接神经网络的几种模型 ,探讨了该网络的变结构调整问题 ,并通过实际的例子对网络的不同模型进行了实验研究 。
-
关键词
函数联接神经网络
在线学习
离线学习
实验研究
-
Keywords
functional-link network
online learning
offline learning
damped oscillation learning pa-rameter
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一类值函数激励学习的遗忘算法
被引量:14
- 2
-
-
作者
陈焕文
谢丽娟
谢建平
-
机构
长沙电力学院数学与计算机系
长沙交通学院网络中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第4期487-494,共8页
-
基金
国家自然科学基金项目资助 !(6 0 0 75 0 19)
-
文摘
大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题 .将记忆心理学中有关遗忘的基本原理引入值函数的激励学习 ,形成了一类适合于值函数激励学习的遗忘算法 .首先简要介绍了解决马尔可夫决策问题的基本概念 ,比较了离策略和在策略激励学习算法的差别 ,概述了标准的 SARSA(λ)算法 .在分析了人类记忆和遗忘的一些特征后 ,提出了一个智能体遗忘准则 ,进而将 SARSA(λ)算法改进为具有遗忘功能的 Forget-SARSA(λ)算法 。
-
关键词
激励学习
SARSA(λ)算法
MARKOV决策过程
遗忘算法
值函数
人工智能
-
Keywords
reinforcement learning, SARSA(λ) algorithm, forgetting, Markov decision processes (MDPs)
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一个因素化SARSA(λ)激励学习算法
被引量:8
- 3
-
-
作者
陈焕文
谢建平
谢丽娟
-
机构
长沙电力学院数学与计算机系
长沙交通学院网络中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第1期88-92,共5页
-
文摘
基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 .
-
关键词
激励学习
状态聚类
MDPs
SARSA(λ)学习
-
Keywords
reinforcement learning
state aggregate
Markov decision processes
SARSA(λ) learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名激励学习的最优判据研究
被引量:8
- 4
-
-
作者
陈焕文
谢建平
-
机构
长沙电力学院数学与计算机系
长沙交通学院网络中心
-
出处
《计算机工程与科学》
CSCD
2001年第2期62-65,共4页
-
文摘
激励学习智能体通过最优策略的学习与规划来求解序贯决策问题 ,因此如何定义策略的最优判据是激励学习研究的核心问题之一。本文讨论了一系列来自动态规划的最优判据 ,通过实例检验了各种判据对激励学习的适用性和优缺点 。
-
关键词
激励学习
智能体
最优判据
学习算法
人工智能
-
Keywords
reinforcement learning
Markov decision process
agent
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一类基于有效跟踪的广义平均奖赏激励学习算法
被引量:1
- 5
-
-
作者
陈焕文
谢建平
-
机构
长沙电力学院数学与计算机系
长沙交通学院网络中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第1期65-68,共4页
-
基金
国家自然科学基金
湖南省教育厅科研基金
-
文摘
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。
-
关键词
激励学习
MARKOV决策过程
平均奖赏
有效跟踪
-
Keywords
Reinforcement learning,Markov decision processes(MDPs ),Average rewards,Eligibility traces.
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名经济全球化与发展中国家的发展对策
- 6
-
-
作者
刘四平
朱良
-
机构
长沙交通学院社科系
长沙交通学院网络中心
-
出处
《湘潭大学社会科学学报》
2001年第6期128-130,共3页
-
文摘
经济全球化已成为当今世界经济发展的一大趋势。它既有力地推动了全球化资源的自由流动和合理配置 ,又增加了国际竞争的压力。发展中国家在充分享有经济全球化所带来的好处的同时 。
-
关键词
经济全球化
发展中国家
对策
-
Keywords
economic globalization
developing country
strategy
-
分类号
F740
[经济管理—国际贸易]
-