期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种新的基于Sigmoid函数的分布式深度Q网络概率分布更新策略
被引量:
1
1
作者
高卓凡
郭文利
《计算机科学》
CSCD
北大核心
2024年第12期277-285,共9页
分布式深度Q网络(Distributed-Deep Q Network,Dist-DQN)是在传统期望值深度Q网络的基础上将离散的动作奖励在一个区间上连续化,通过不断更新支集区间的概率分布来解决复杂环境的随机奖励问题。奖励概率的分布更新策略作为Dist-DQN实现...
分布式深度Q网络(Distributed-Deep Q Network,Dist-DQN)是在传统期望值深度Q网络的基础上将离散的动作奖励在一个区间上连续化,通过不断更新支集区间的概率分布来解决复杂环境的随机奖励问题。奖励概率的分布更新策略作为Dist-DQN实现的重要函数,会显著影响智能体在环境中的学习效率。针对上述问题,提出了一种新的Sig-Dist-DQN概率分布更新策略。该策略综合考虑奖励概率支集之间的相关性强弱关系,提高与观察奖励强相关支集的概率质量更新速率,同时降低弱相关支集概率质量的更新速率。在OpenAI gym提供的环境下进行实验,结果表明,指数更新和调和序列更新策略在每次训练的差异性较大,而Sig-Dist-DQN策略的训练图像非常稳定。相较于指数更新和调和序列更新策略,应用Sig-Dist-DQN的智能体在学习过程中损失函数的收敛速度和收敛过程的稳定性都有显著提高。
展开更多
关键词
分布式深度q网络
奖励区间连续化
概率
分布
更新
学习效率
训练稳定性
在线阅读
下载PDF
职称材料
基于位置预测模型的空天地一体化网络切换算法
被引量:
1
2
作者
谢健骊
陈龙
+1 位作者
张泽鹏
李翠然
《通信学报》
CSCD
北大核心
2024年第12期162-178,共17页
针对6G空天地一体化网络(SAGIN)中网络环境动态变化和用户终端移动性增强导致的终端切换频繁、网络负载不均衡问题,提出了一种基于终端位置预测模型的SAGIN切换算法。该算法构建了基于麻雀搜索策略优化的长短期记忆(LSTM)网络终端位置...
针对6G空天地一体化网络(SAGIN)中网络环境动态变化和用户终端移动性增强导致的终端切换频繁、网络负载不均衡问题,提出了一种基于终端位置预测模型的SAGIN切换算法。该算法构建了基于麻雀搜索策略优化的长短期记忆(LSTM)网络终端位置预测模型,提升了终端位置预测精度,解决了网络切换时机不合理问题。基于此模型,将SAGIN选择问题建模为马尔可夫决策过程,设计以服务质量(QoS)需求、切换代价和网络负载均衡表征的网络切换算法效用函数,采用分布式深度Q网络(D-DQN)选择能够实现长期目标最大化的网络节点执行切换。与基于Q学习(Q-Learning)、双深度Q网络(DDQN)和竞争双深度Q网络(D3QN)的网络切换算法相比,所提算法在降低切换时延与切换次数、提升网络吞吐量等方面性能较优,验证了所提算法的有效性。
展开更多
关键词
空天地一体化
网络
网络
切换
效用函数
长短期记忆
网络
分布式深度q网络
在线阅读
下载PDF
职称材料
题名
一种新的基于Sigmoid函数的分布式深度Q网络概率分布更新策略
被引量:
1
1
作者
高卓凡
郭文利
机构
中国航空工业集团公司洛阳电光设备研究所
出处
《计算机科学》
CSCD
北大核心
2024年第12期277-285,共9页
基金
航空科学基金(2023Z015013001,2022Z015013002)。
文摘
分布式深度Q网络(Distributed-Deep Q Network,Dist-DQN)是在传统期望值深度Q网络的基础上将离散的动作奖励在一个区间上连续化,通过不断更新支集区间的概率分布来解决复杂环境的随机奖励问题。奖励概率的分布更新策略作为Dist-DQN实现的重要函数,会显著影响智能体在环境中的学习效率。针对上述问题,提出了一种新的Sig-Dist-DQN概率分布更新策略。该策略综合考虑奖励概率支集之间的相关性强弱关系,提高与观察奖励强相关支集的概率质量更新速率,同时降低弱相关支集概率质量的更新速率。在OpenAI gym提供的环境下进行实验,结果表明,指数更新和调和序列更新策略在每次训练的差异性较大,而Sig-Dist-DQN策略的训练图像非常稳定。相较于指数更新和调和序列更新策略,应用Sig-Dist-DQN的智能体在学习过程中损失函数的收敛速度和收敛过程的稳定性都有显著提高。
关键词
分布式深度q网络
奖励区间连续化
概率
分布
更新
学习效率
训练稳定性
Keywords
Distributed deep
q
network
Continuation of reward intervals
Updating the probability distribution
Learning rate
Training stability
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于位置预测模型的空天地一体化网络切换算法
被引量:
1
2
作者
谢健骊
陈龙
张泽鹏
李翠然
机构
兰州交通大学电子与信息工程学院
出处
《通信学报》
CSCD
北大核心
2024年第12期162-178,共17页
基金
国家自然科学基金资助项目(No.62161016)。
文摘
针对6G空天地一体化网络(SAGIN)中网络环境动态变化和用户终端移动性增强导致的终端切换频繁、网络负载不均衡问题,提出了一种基于终端位置预测模型的SAGIN切换算法。该算法构建了基于麻雀搜索策略优化的长短期记忆(LSTM)网络终端位置预测模型,提升了终端位置预测精度,解决了网络切换时机不合理问题。基于此模型,将SAGIN选择问题建模为马尔可夫决策过程,设计以服务质量(QoS)需求、切换代价和网络负载均衡表征的网络切换算法效用函数,采用分布式深度Q网络(D-DQN)选择能够实现长期目标最大化的网络节点执行切换。与基于Q学习(Q-Learning)、双深度Q网络(DDQN)和竞争双深度Q网络(D3QN)的网络切换算法相比,所提算法在降低切换时延与切换次数、提升网络吞吐量等方面性能较优,验证了所提算法的有效性。
关键词
空天地一体化
网络
网络
切换
效用函数
长短期记忆
网络
分布式深度q网络
Keywords
space-air-ground integrated network
network handover
utility function
LSTM
distributional D
q
N
分类号
TN929.5 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种新的基于Sigmoid函数的分布式深度Q网络概率分布更新策略
高卓凡
郭文利
《计算机科学》
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
2
基于位置预测模型的空天地一体化网络切换算法
谢健骊
陈龙
张泽鹏
李翠然
《通信学报》
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部