期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于本体的网络攻防博弈知识库构建方法研究
被引量:
1
1
作者
史云放
武东英
+1 位作者
刘胜利
高翔
《计算机应用研究》
CSCD
北大核心
2014年第11期3460-3464,共5页
针对目前还没有一个较为完善的攻防博弈知识库的情况,对基于本体的博弈知识库的构建方法进行了研究。首先对网络攻防博弈过程中所需要的博弈知识进行分析梳理,描述出知识库的体系结构;然后提出了一种网络攻防博弈知识库的构建框架,并根...
针对目前还没有一个较为完善的攻防博弈知识库的情况,对基于本体的博弈知识库的构建方法进行了研究。首先对网络攻防博弈过程中所需要的博弈知识进行分析梳理,描述出知识库的体系结构;然后提出了一种网络攻防博弈知识库的构建框架,并根据此构建框架提出了构建算法;最后通过一个应用示例对算法进行了验证。结果表明构建算法是可用并有效的。
展开更多
关键词
本体
网络攻防博弈
知识库
RDF(S)
在线阅读
下载PDF
职称材料
一种面向博弈场景的PPO-Dueling DQN策略优化方法
2
作者
刘鹏程
汪永伟
+2 位作者
余欣鋆
刘小虎
胡浩
《小型微型计算机系统》
北大核心
2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩...
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势.
展开更多
关键词
强化学习
深度Q
网络
PPO算法
网络攻防博弈
效能评估
在线阅读
下载PDF
职称材料
题名
基于本体的网络攻防博弈知识库构建方法研究
被引量:
1
1
作者
史云放
武东英
刘胜利
高翔
机构
数学工程与先进计算国家重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2014年第11期3460-3464,共5页
基金
国家自然科学基金资助项目(61309007)
郑州市科技创新团队项目(10CXTD150)
河南省科技公关资助项目(102102210544)
文摘
针对目前还没有一个较为完善的攻防博弈知识库的情况,对基于本体的博弈知识库的构建方法进行了研究。首先对网络攻防博弈过程中所需要的博弈知识进行分析梳理,描述出知识库的体系结构;然后提出了一种网络攻防博弈知识库的构建框架,并根据此构建框架提出了构建算法;最后通过一个应用示例对算法进行了验证。结果表明构建算法是可用并有效的。
关键词
本体
网络攻防博弈
知识库
RDF(S)
Keywords
ontology
network attack-defense game
repository
分类号
TP393.08 [自动化与计算机技术—计算机应用技术]
TP182 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
一种面向博弈场景的PPO-Dueling DQN策略优化方法
2
作者
刘鹏程
汪永伟
余欣鋆
刘小虎
胡浩
机构
信息工程大学密码工程学院
出处
《小型微型计算机系统》
北大核心
2025年第11期2594-2599,共6页
基金
国家自然科学基金项目(61902427)资助。
文摘
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势.
关键词
强化学习
深度Q
网络
PPO算法
网络攻防博弈
效能评估
Keywords
reinforcement learning
deep Q-network
PPO algorithm
network attack-defense game
performance evaluation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于本体的网络攻防博弈知识库构建方法研究
史云放
武东英
刘胜利
高翔
《计算机应用研究》
CSCD
北大核心
2014
1
在线阅读
下载PDF
职称材料
2
一种面向博弈场景的PPO-Dueling DQN策略优化方法
刘鹏程
汪永伟
余欣鋆
刘小虎
胡浩
《小型微型计算机系统》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部