期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种新的基于Sigmoid函数的分布式深度Q网络概率分布更新策略 被引量:1
1
作者 高卓凡 郭文利 《计算机科学》 CSCD 北大核心 2024年第12期277-285,共9页
分布式深度Q网络(Distributed-Deep Q Network,Dist-DQN)是在传统期望值深度Q网络的基础上将离散的动作奖励在一个区间上连续化,通过不断更新支集区间的概率分布来解决复杂环境的随机奖励问题。奖励概率的分布更新策略作为Dist-DQN实现... 分布式深度Q网络(Distributed-Deep Q Network,Dist-DQN)是在传统期望值深度Q网络的基础上将离散的动作奖励在一个区间上连续化,通过不断更新支集区间的概率分布来解决复杂环境的随机奖励问题。奖励概率的分布更新策略作为Dist-DQN实现的重要函数,会显著影响智能体在环境中的学习效率。针对上述问题,提出了一种新的Sig-Dist-DQN概率分布更新策略。该策略综合考虑奖励概率支集之间的相关性强弱关系,提高与观察奖励强相关支集的概率质量更新速率,同时降低弱相关支集概率质量的更新速率。在OpenAI gym提供的环境下进行实验,结果表明,指数更新和调和序列更新策略在每次训练的差异性较大,而Sig-Dist-DQN策略的训练图像非常稳定。相较于指数更新和调和序列更新策略,应用Sig-Dist-DQN的智能体在学习过程中损失函数的收敛速度和收敛过程的稳定性都有显著提高。 展开更多
关键词 分布式深度q网络 奖励区间连续化 概率分布更新 学习效率 训练稳定性
在线阅读 下载PDF
基于位置预测模型的空天地一体化网络切换算法 被引量:1
2
作者 谢健骊 陈龙 +1 位作者 张泽鹏 李翠然 《通信学报》 CSCD 北大核心 2024年第12期162-178,共17页
针对6G空天地一体化网络(SAGIN)中网络环境动态变化和用户终端移动性增强导致的终端切换频繁、网络负载不均衡问题,提出了一种基于终端位置预测模型的SAGIN切换算法。该算法构建了基于麻雀搜索策略优化的长短期记忆(LSTM)网络终端位置... 针对6G空天地一体化网络(SAGIN)中网络环境动态变化和用户终端移动性增强导致的终端切换频繁、网络负载不均衡问题,提出了一种基于终端位置预测模型的SAGIN切换算法。该算法构建了基于麻雀搜索策略优化的长短期记忆(LSTM)网络终端位置预测模型,提升了终端位置预测精度,解决了网络切换时机不合理问题。基于此模型,将SAGIN选择问题建模为马尔可夫决策过程,设计以服务质量(QoS)需求、切换代价和网络负载均衡表征的网络切换算法效用函数,采用分布式深度Q网络(D-DQN)选择能够实现长期目标最大化的网络节点执行切换。与基于Q学习(Q-Learning)、双深度Q网络(DDQN)和竞争双深度Q网络(D3QN)的网络切换算法相比,所提算法在降低切换时延与切换次数、提升网络吞吐量等方面性能较优,验证了所提算法的有效性。 展开更多
关键词 空天地一体化网络 网络切换 效用函数 长短期记忆网络 分布式深度q网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部