利用认知无线电非正交多址接入(cognitive radio non-orthogonal multiple access,CR-NOMA)技术可缓解频谱资源短缺问题,提升传感设备的吞吐量。传感设备的能效问题一直制约着传感设备的应用。为此,针对CR-NOMA中的传感设备,提出基于深...利用认知无线电非正交多址接入(cognitive radio non-orthogonal multiple access,CR-NOMA)技术可缓解频谱资源短缺问题,提升传感设备的吞吐量。传感设备的能效问题一直制约着传感设备的应用。为此,针对CR-NOMA中的传感设备,提出基于深度确定策略梯度的能效优化(deep deterministic policy gradientbased energy efficiency optimization,DPEE)算法。DPEE算法通过联合优化传感设备的传输功率和时隙分裂系数,提升传感设备的能效。将能效优化问题建模成马尔可夫决策过程,再利用深度确定策略梯度法求解。最后,通过仿真分析了电路功耗、时隙时长和主设备数对传感能效的影响。仿真结果表明,能效随传感设备电路功耗的增加而下降。此外,相比于基准算法,提出的DPEE算法提升了能效。展开更多
为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T...为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。展开更多