期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
半监督特征选择综述
被引量:
8
1
作者
张东方
陈海燕
王建东
《计算机应用研究》
CSCD
北大核心
2021年第2期321-329,共9页
如何针对半监督数据集,利用不完整的监督信息完成特征选择,已经成为模式识别与机器学习领域的研究热点。为方便研究者系统地了解半监督特征选择领域的研究现状和发展趋势,对半监督特征选择方法进行综述。首先探讨了半监督特征选择方法...
如何针对半监督数据集,利用不完整的监督信息完成特征选择,已经成为模式识别与机器学习领域的研究热点。为方便研究者系统地了解半监督特征选择领域的研究现状和发展趋势,对半监督特征选择方法进行综述。首先探讨了半监督特征选择方法的分类,将其按理论基础的不同分为基于图的方法、基于伪标签的方法、基于支持向量机的方法以及其他方法;然后详细介绍并比较了各个类别的典型方法;之后整理了半监督特征选择的热点应用;最后展望了半监督特征选择方法未来的研究方向。
展开更多
关键词
机器学习
半监督学习
特征选择
在线阅读
下载PDF
职称材料
基于奖励高速路网络的多智能体强化学习中的全局信用分配算法
被引量:
1
2
作者
姚兴虎
谭晓阳
《计算机应用》
CSCD
北大核心
2021年第1期1-7,共7页
针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用“中心训练-分散执行”的框架来避免联合动作空间的维数灾难并降低算法的优化代价。针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行...
针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用“中心训练-分散执行”的框架来避免联合动作空间的维数灾难并降低算法的优化代价。针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络(RHWNet)。通过在原有算法的奖励分配机制上引入奖励高速路连接,将每个智能体的值函数与全局奖励直接建立联系,进而使得每个智能体在进行策略选择时能够综合考虑全局的奖励信号与其自身实际分得的奖励值。首先,在训练过程中,通过中心化的值函数结构对每个智能体进行协调;同时,这一中心化的结构也能起到全局奖励分配的作用;然后,在中心值函数结构中引入奖励高速路链接来辅助进行全局奖励分配,从而构建出奖励高速路网络;之后,在执行阶段,每个智能体的策略仅仅依赖于其自身的值函数。在星际争霸多智能体挑战的微操作场景中的实验结果表明,相比当前较先进的反直觉的策略梯度(Coma)算法和单调Q值函数分解(QMIX)算法,该网络所提出的奖励高速路在4个复杂的地图上的测试胜率提升超过20%。更重要的是,在智能体数量较多且种类不同的3s5z和3s6z场景中,该网络在所需样本数量为QMIX和Coma等算法的30%的情况下便能取得更好的结果。
展开更多
关键词
深度学习
深度强化学习
多智能体强化学习
多智能体系统
全局信用分配
在线阅读
下载PDF
职称材料
题名
半监督特征选择综述
被引量:
8
1
作者
张东方
陈海燕
王建东
机构
南京航空航天大学
计算机科学与
技术
学院
南京航空航天大学软件新技术与产业化协同创新中心
出处
《计算机应用研究》
CSCD
北大核心
2021年第2期321-329,共9页
基金
中央高校基本科研业务费专项资金资助项目(NS2019054)。
文摘
如何针对半监督数据集,利用不完整的监督信息完成特征选择,已经成为模式识别与机器学习领域的研究热点。为方便研究者系统地了解半监督特征选择领域的研究现状和发展趋势,对半监督特征选择方法进行综述。首先探讨了半监督特征选择方法的分类,将其按理论基础的不同分为基于图的方法、基于伪标签的方法、基于支持向量机的方法以及其他方法;然后详细介绍并比较了各个类别的典型方法;之后整理了半监督特征选择的热点应用;最后展望了半监督特征选择方法未来的研究方向。
关键词
机器学习
半监督学习
特征选择
Keywords
machine learning
semi-supervised learning
feature selection
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于奖励高速路网络的多智能体强化学习中的全局信用分配算法
被引量:
1
2
作者
姚兴虎
谭晓阳
机构
南京航空航天大学
计算机科学与
技术
学院
模式分析与机器智能工业和信息化部重点实验室(
南京航空航天大学
)
南京航空航天大学软件新技术与产业化协同创新中心
出处
《计算机应用》
CSCD
北大核心
2021年第1期1-7,共7页
基金
国家自然科学基金资助项目(61976115,61672280,61732006)
装备预研基金资助项目(6140312020413)
+2 种基金
南京航空航天大学人工智能+项目(56XZA18009)
全军共用信息系统装备预研项目(315025305)
南京航空航天大学研究生创新基金资助项目(Kfjj20191608)。
文摘
针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用“中心训练-分散执行”的框架来避免联合动作空间的维数灾难并降低算法的优化代价。针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络(RHWNet)。通过在原有算法的奖励分配机制上引入奖励高速路连接,将每个智能体的值函数与全局奖励直接建立联系,进而使得每个智能体在进行策略选择时能够综合考虑全局的奖励信号与其自身实际分得的奖励值。首先,在训练过程中,通过中心化的值函数结构对每个智能体进行协调;同时,这一中心化的结构也能起到全局奖励分配的作用;然后,在中心值函数结构中引入奖励高速路链接来辅助进行全局奖励分配,从而构建出奖励高速路网络;之后,在执行阶段,每个智能体的策略仅仅依赖于其自身的值函数。在星际争霸多智能体挑战的微操作场景中的实验结果表明,相比当前较先进的反直觉的策略梯度(Coma)算法和单调Q值函数分解(QMIX)算法,该网络所提出的奖励高速路在4个复杂的地图上的测试胜率提升超过20%。更重要的是,在智能体数量较多且种类不同的3s5z和3s6z场景中,该网络在所需样本数量为QMIX和Coma等算法的30%的情况下便能取得更好的结果。
关键词
深度学习
深度强化学习
多智能体强化学习
多智能体系统
全局信用分配
Keywords
deep learning
deep reinforcement learning
multi-agent reinforcement learning
multi-agent system
global credit assignment
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
半监督特征选择综述
张东方
陈海燕
王建东
《计算机应用研究》
CSCD
北大核心
2021
8
在线阅读
下载PDF
职称材料
2
基于奖励高速路网络的多智能体强化学习中的全局信用分配算法
姚兴虎
谭晓阳
《计算机应用》
CSCD
北大核心
2021
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部