现有研究在多QoS(quality of service)调度问题中,由于仅依赖即时奖励反馈机制,在资源受限的场景下处理时延敏感数据和具有连续传输需求的媒体数据时,存在可扩展性差和资源浪费的问题。为此,提出了一种基于奖励回溯的DQN(reward backtra...现有研究在多QoS(quality of service)调度问题中,由于仅依赖即时奖励反馈机制,在资源受限的场景下处理时延敏感数据和具有连续传输需求的媒体数据时,存在可扩展性差和资源浪费的问题。为此,提出了一种基于奖励回溯的DQN(reward backtracking based deep Q-network,RB-DQN)算法。该算法通过未来时刻的交互来回溯调整当前状态的策略评估,以更加有效地识别并解决因不合理调度策略导致的丢包。同时,设计了一种时延-吞吐均衡度量(latency throughput trade-off,LTT)指标,该指标综合考虑了时延敏感数据和媒体类型数据的业务需求,并可通过权重调整来突出不同的侧重点。大量仿真结果表明,与其他调度策略相比,所提算法能够有效降低时延敏感数据的延迟和抖动,同时确保媒体类型数据的流畅性与稳定性。展开更多
文摘现有研究在多QoS(quality of service)调度问题中,由于仅依赖即时奖励反馈机制,在资源受限的场景下处理时延敏感数据和具有连续传输需求的媒体数据时,存在可扩展性差和资源浪费的问题。为此,提出了一种基于奖励回溯的DQN(reward backtracking based deep Q-network,RB-DQN)算法。该算法通过未来时刻的交互来回溯调整当前状态的策略评估,以更加有效地识别并解决因不合理调度策略导致的丢包。同时,设计了一种时延-吞吐均衡度量(latency throughput trade-off,LTT)指标,该指标综合考虑了时延敏感数据和媒体类型数据的业务需求,并可通过权重调整来突出不同的侧重点。大量仿真结果表明,与其他调度策略相比,所提算法能够有效降低时延敏感数据的延迟和抖动,同时确保媒体类型数据的流畅性与稳定性。