基于深度强化学习理论框架,提出分层递进式解决方案。首先,构建融合边缘计算节点的异构数据传输架构,建立具有时变特征的多维状态空间马尔可夫决策过程。其次,在传统深度Q网络(deep Qlearning network,DQN)算法中嵌入熵正则化约束项,结...基于深度强化学习理论框架,提出分层递进式解决方案。首先,构建融合边缘计算节点的异构数据传输架构,建立具有时变特征的多维状态空间马尔可夫决策过程。其次,在传统深度Q网络(deep Qlearning network,DQN)算法中嵌入熵正则化约束项,结合同策略经验回放机制,形成增强型ESERDQN(improved DQN algorithm based on entropy and same-strategy experience replay)优化器。最终,设计五维评估指标体系(收敛速率、累积奖励值、能耗、传输时延、传输成本),开展多算法对比实验。仿真结果表明,ESERDQN在1500训练周期内达成稳定收敛,较基准贪心算法、随机算法、DDPG算法及PPO分别提升收敛速度49.2%、41.7%、30.1%和13.3%;在综合业务指标方面,其单位能耗成本降低27.8%,关键任务时延控制在12.3 ms以内,验证了所提方法在智慧城市复杂传输场景下的技术优越性。展开更多
文摘基于深度强化学习理论框架,提出分层递进式解决方案。首先,构建融合边缘计算节点的异构数据传输架构,建立具有时变特征的多维状态空间马尔可夫决策过程。其次,在传统深度Q网络(deep Qlearning network,DQN)算法中嵌入熵正则化约束项,结合同策略经验回放机制,形成增强型ESERDQN(improved DQN algorithm based on entropy and same-strategy experience replay)优化器。最终,设计五维评估指标体系(收敛速率、累积奖励值、能耗、传输时延、传输成本),开展多算法对比实验。仿真结果表明,ESERDQN在1500训练周期内达成稳定收敛,较基准贪心算法、随机算法、DDPG算法及PPO分别提升收敛速度49.2%、41.7%、30.1%和13.3%;在综合业务指标方面,其单位能耗成本降低27.8%,关键任务时延控制在12.3 ms以内,验证了所提方法在智慧城市复杂传输场景下的技术优越性。