边缘侧大模型应用正成为推动智能健康、智慧城市等领域智能化与数字化进程的关键驱动力。然而,大模型海量智能任务异构性和高动态网络的不可预测性,使得边缘设备有限的算力资源难以满足复杂推理任务对高效且可靠服务质量(Quality of Ser...边缘侧大模型应用正成为推动智能健康、智慧城市等领域智能化与数字化进程的关键驱动力。然而,大模型海量智能任务异构性和高动态网络的不可预测性,使得边缘设备有限的算力资源难以满足复杂推理任务对高效且可靠服务质量(Quality of Service,QoS)的需求。因此本文提出了一种基于生成对抗网络(Generative Adversarial Network,GAN)增强的多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的边缘推理与异构资源协同优化方法,以实现数字孪生(Digital Twin,DT)驱动的边缘侧大模型赋能系统中异构资源的动态负载均衡,确保推理任务高效性与可靠性。首先,本文构建并分析了DT驱动的边缘侧大模型系统中的物理网络层和孪生网络层,并采用GAN实现对物理实体的孪生映射,从而对海量异构边缘数据进行分布式处理、生成与优化。接着,利用MADRL算法来对系统中的异构资源进行综合量化与协同优化,并将边缘推理数据反馈至MADRL算法中以减少集中式训练过程中的数据通信开销。同时,借助于联邦学习,该架构能够实现多方知识共享,从而有效提升模型训练速度与性能。最后,仿真结果表明,该算法能够在动态复杂大模型赋能边缘系统环境中有效降低推理任务的时延和能耗,充分利用有限的系统资源,确保推理任务的高效性,并提升智能服务的质量。展开更多
大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基...大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基于大容量电池储能电站结构及其功率分配特性构建基于MADRL的功率分配决策框架,每个储能单元设置一个功率分配智能体,多个智能体构成合作关系;然后,设计考虑储能电站有功功率损耗、荷电状态(state of charge,SOC)一致性和健康状态损失最小优化目标的功率分配智能体模型,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法去中心化训练各智能体网络参数,算法收敛后得到储能子系统充放电功率值。最后,算例验证了所提方法的有效性,能在有效提高储能子系统SOC均衡性的同时降低有功功率损耗、健康状态损失和充放电切换次数。展开更多
针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为...针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络(double deep q-network),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。展开更多
文摘边缘侧大模型应用正成为推动智能健康、智慧城市等领域智能化与数字化进程的关键驱动力。然而,大模型海量智能任务异构性和高动态网络的不可预测性,使得边缘设备有限的算力资源难以满足复杂推理任务对高效且可靠服务质量(Quality of Service,QoS)的需求。因此本文提出了一种基于生成对抗网络(Generative Adversarial Network,GAN)增强的多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的边缘推理与异构资源协同优化方法,以实现数字孪生(Digital Twin,DT)驱动的边缘侧大模型赋能系统中异构资源的动态负载均衡,确保推理任务高效性与可靠性。首先,本文构建并分析了DT驱动的边缘侧大模型系统中的物理网络层和孪生网络层,并采用GAN实现对物理实体的孪生映射,从而对海量异构边缘数据进行分布式处理、生成与优化。接着,利用MADRL算法来对系统中的异构资源进行综合量化与协同优化,并将边缘推理数据反馈至MADRL算法中以减少集中式训练过程中的数据通信开销。同时,借助于联邦学习,该架构能够实现多方知识共享,从而有效提升模型训练速度与性能。最后,仿真结果表明,该算法能够在动态复杂大模型赋能边缘系统环境中有效降低推理任务的时延和能耗,充分利用有限的系统资源,确保推理任务的高效性,并提升智能服务的质量。
文摘大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基于大容量电池储能电站结构及其功率分配特性构建基于MADRL的功率分配决策框架,每个储能单元设置一个功率分配智能体,多个智能体构成合作关系;然后,设计考虑储能电站有功功率损耗、荷电状态(state of charge,SOC)一致性和健康状态损失最小优化目标的功率分配智能体模型,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法去中心化训练各智能体网络参数,算法收敛后得到储能子系统充放电功率值。最后,算例验证了所提方法的有效性,能在有效提高储能子系统SOC均衡性的同时降低有功功率损耗、健康状态损失和充放电切换次数。
文摘针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络(double deep q-network),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。