期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于强化学习的单电感多端口变换器调制策略设计方法
1
作者 白敬波 陈宇 +1 位作者 谢诗语 代新维 《北京航空航天大学学报》 北大核心 2025年第5期1480-1489,共10页
单电感多端口(SIMP)变换器具有多硅少磁的特性,在诸多领域有很好的应用潜力,但其开关模态多,调制策略设计复杂,目前的设计方法是人为挑选开关模态序列并进行模态分析,设计过程需要电力电子专业知识和经验。基于此,提出一种基于强化学习(... 单电感多端口(SIMP)变换器具有多硅少磁的特性,在诸多领域有很好的应用潜力,但其开关模态多,调制策略设计复杂,目前的设计方法是人为挑选开关模态序列并进行模态分析,设计过程需要电力电子专业知识和经验。基于此,提出一种基于强化学习(RL)的单电感多端口变换器调制策略设计方法,使用神经网络(NN)生成调制策略,该方法将端口电压和变换器结构等已知条件作为神经网络输入,并采用一组简单的规则提供奖励用于训练神经网络,避免繁复的人工设计。通过强化学习,神经网络无需人为干预即可在试错中总结经验,生成不同运行工况下的最优调制策略。对一种单电感多端口变换器进行调制策略设计,并通过实验验证了所提方法的有效性。 展开更多
关键词 电感多端口变换器 开关模态 调制策略 强化学习 神经网络
在线阅读 下载PDF
聚类与信息共享的多智能体深度强化学习协同控制交通灯
2
作者 杜同春 王波 +2 位作者 程浩然 罗乐 曾能民 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期538-545,共8页
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类... 该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。 展开更多
关键词 交通信号灯协同控制 集中训练分散执行 强化学习智能体聚类 生长神经气 深度循环Q网络
在线阅读 下载PDF
基于MTL-MTF-LSTM神经网络的驾驶风格识别方法
3
作者 王兴鸿 鲁燕 高雄 《汽车实用技术》 2025年第3期49-53,共5页
为了提高车辆驾驶风格的辨识准确度,文章基于长短期记忆神经网络结合混合示型神经网络搭建了一种驾驶风格识别方法。通过挖掘驾驶行为数据中时序特点,剖析驾驶人驾驶风格与时序数据的关系,使用公开数据集NGSIM,经过数据集的筛选与平滑... 为了提高车辆驾驶风格的辨识准确度,文章基于长短期记忆神经网络结合混合示型神经网络搭建了一种驾驶风格识别方法。通过挖掘驾驶行为数据中时序特点,剖析驾驶人驾驶风格与时序数据的关系,使用公开数据集NGSIM,经过数据集的筛选与平滑处理后提取描述性特征,采用主成分分析法转换高维特征为低维,通过K-means方法指定聚类数量,确定为三种驾驶风格。通过多任务学习多任务融合长短期记忆(MTL-MTF-LSTM)神经网络进行了驾驶风格的分类识别,该模型结合了强化学习和模仿学习,经过多任务分配识别池。结果表明模型对保守型、一般型和激进型驾驶风格的识别精度分别达到了95%、98%和97%,整体表现优异。 展开更多
关键词 驾驶风格识别 强化学习 混合示教神经网络 多任务学习 聚类分析
在线阅读 下载PDF
再入飞行器自适应最优姿态控制 被引量:10
4
作者 张振宁 张冉 +1 位作者 聂文明 李惠峰 《宇航学报》 EI CAS CSCD 北大核心 2019年第2期199-206,共8页
针对再入飞行器姿态控制问题,应用自适应动态规划(ADP)理论设计了姿态控制器。将再入飞行器的姿态控制建模为非线性系统的最优控制问题,提出单网络积分型强化学习(SNIRL)算法进行求解,该算法简化了积分型强化学习(IRL)算法在迭代计算中... 针对再入飞行器姿态控制问题,应用自适应动态规划(ADP)理论设计了姿态控制器。将再入飞行器的姿态控制建模为非线性系统的最优控制问题,提出单网络积分型强化学习(SNIRL)算法进行求解,该算法简化了积分型强化学习(IRL)算法在迭代计算中的执行-评价双网络结构,只需要采用评价网络估计值函数就可以求得最优控制律,其收敛性得到了理论证明。基于SNIRL算法设计了自适应最优控制器,并证明了闭环系统的稳定性。通过数值仿真校验了SNIRL算法比IRL算法计算效率更高,收敛速度更快,并校验了自适应最优姿态控制器的有效性。 展开更多
关键词 再入飞行器 姿态控制 自适应最优控制 单网络积分型强化学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部