期刊文献+
共找到115篇文章
< 1 2 6 >
每页显示 20 50 100
深度强化学习求解动态柔性作业车间调度问题 被引量:1
1
作者 杨丹 舒先涛 +3 位作者 余震 鲁光涛 纪松霖 王家兵 《现代制造工程》 北大核心 2025年第2期10-16,共7页
随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车... 随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车间调度问题。首先以最小化总延迟为目标建立动态柔性作业车间的数学模型,然后提取8个车间状态特征,建立6个复合型调度规则,采用ε-greedy动作选择策略并对奖励函数进行设计,最后利用先进的D3QN算法进行求解并在不同规模车间算例上进行了有效性验证。结果表明,提出的D3QN算法能非常有效地解决含有工件随机抵达的动态柔性作业车间调度问题,在所有车间算例中的求优胜率为58.3%,相较于传统的DQN和DDQN算法车间延迟分别降低了11.0%和15.4%,进一步提升车间的生产制造效率。 展开更多
关键词 深度强化学习 D3QN算法 工件随机抵达 柔性作业车间调度 动态调度
在线阅读 下载PDF
面向低轨卫星通信网络的联邦深度强化学习智能路由方法
2
作者 李学华 廖海龙 +1 位作者 张贤 周家恩 《电子与信息学报》 北大核心 2025年第8期2652-2664,共13页
低轨卫星通信网络拓扑结构动态变化,传统地面网络路由方法难以直接适用,同时由于卫星星载资源受限,基于人工智能的路由方法通常学习效率较低,而协同训练需要数据共享和传输,难度大且存在数据安全风险。为此,针对上述挑战,该文提出一种... 低轨卫星通信网络拓扑结构动态变化,传统地面网络路由方法难以直接适用,同时由于卫星星载资源受限,基于人工智能的路由方法通常学习效率较低,而协同训练需要数据共享和传输,难度大且存在数据安全风险。为此,针对上述挑战,该文提出一种基于卫星分簇的多智能体联邦深度强化学习路由方法。首先,设计了结合网络拓扑、通信和能耗的低轨卫星通信网络路由模型;然后,基于每颗卫星的平均连接度将星座节点划分为多个簇,在簇内采用联邦深度强化学习框架,通过簇内卫星协同共享模型参数,共同训练对应簇内的全局模型,以最大化网络能量效率。最后,仿真结果表明,该文所设计方法对比Sarsa、MAD2QN和REINFORCE 3种基准方法,网络平均吞吐量分别提高83.7%,19.8%和14.1%;数据包平均跳数分别减少25.0%,18.9%和9.1%;网络能量效率分别提升55.6%,42.9%和45.8%。 展开更多
关键词 低轨卫星通信 路由方法 卫星分簇 联邦深度强化学习 能量效率
在线阅读 下载PDF
基于深度强化学习的主动配电网动态重构综述
3
作者 江昌旭 郭辰 +2 位作者 刘晨曦 林俊杰 邵振国 《高电压技术》 北大核心 2025年第4期1801-1816,I0016-I0020,共21页
随着双碳目标的快速发展,大量以风电、光伏为代表的分布式电源接入配电网,这将进一步加剧电源出力的间歇性与波动性。主动配电网动态重构属于一个复杂的高维混合整数非线性随机优化问题,传统算法在解决该问题的过程中存在着诸多不足之... 随着双碳目标的快速发展,大量以风电、光伏为代表的分布式电源接入配电网,这将进一步加剧电源出力的间歇性与波动性。主动配电网动态重构属于一个复杂的高维混合整数非线性随机优化问题,传统算法在解决该问题的过程中存在着诸多不足之处。而深度强化学习算法结合了深度学习与强化学习的优势,非常适用于制定当前备受关注的主动配电网动态重构策略。该文首先对新型电力系统主动配电网特征进行总结,并对当前主动配电网动态重构研究在构建数学模型方面所取得的进展以及所面临的挑战进行了深入分析。其次,对配电网动态重构编码方式进行了探讨,并对深度强化学习算法进行了系统性地综述。进而,重点分析了现有算法在处理主动配电网动态重构时的不足之处,并对深度强化学习算法在主动配电网动态重构方面的研究现状与优势进行了总结与概括。最后,对主动配电网动态重构的未来研究方向进行了展望。 展开更多
关键词 主动配电网 动态重构 深度强化学习 编码方式 机器学习 人工智能
在线阅读 下载PDF
基于深度强化学习的机械臂动态避障算法设计与实验验证
4
作者 冒建亮 王展 +2 位作者 周昕 夏飞 张传林 《实验技术与管理》 北大核心 2025年第4期78-85,共8页
针对非结构化环境中的机械臂动态避障任务,提出基于深度强化学习(deep reinforcement learning,DRL)的算法设计与实验验证流程。通过设计全面的奖励函数来平衡动态避障与目标跟踪,包括末端避障、本体避障、自碰撞避免、精确到达目标和... 针对非结构化环境中的机械臂动态避障任务,提出基于深度强化学习(deep reinforcement learning,DRL)的算法设计与实验验证流程。通过设计全面的奖励函数来平衡动态避障与目标跟踪,包括末端避障、本体避障、自碰撞避免、精确到达目标和运动平滑性。利用Python编程环境搭建仿真平台训练智能体,实现高效的状态识别与动作执行。将训练好的模型应用于实际机械臂,并结合视觉伺服系统,完成实时环境感知与精准避障测试。实验结果验证了DRL算法的性能,为实验室科研智能化和自主化提供了技术支撑,同时有助于培养学生理论联系实际的能力。 展开更多
关键词 机械臂 深度强化学习 动态避障 轨迹规划
在线阅读 下载PDF
DPC-DQRL:动态行为克隆约束的离线-在线双Q值强化学习
5
作者 闫雷鸣 刘健 朱永昕 《计算机应用研究》 北大核心 2025年第4期1003-1010,共8页
离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃;后者由于保留离线约束导致性能提升缓慢,影响训练效率。为了改善上述问题,可视... 离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃;后者由于保留离线约束导致性能提升缓慢,影响训练效率。为了改善上述问题,可视化对比分析两类方法的微调过程,发现不准确的Q值估计是影响性能的主要原因,并提出了一种动态策略约束的双Q值强化学习算法(DPC-DQRL)。首先,该算法设计了遵循记忆遗忘规律的动态行为克隆约束,在微调过程中动态调整约束强度;其次,构建离线-在线双Q值网络,引入离线动作价值网络参与Q值估计,提高微调过程中Q值的准确性。在Gym仿真平台使用MuJoCo物理引擎进行了Halfcheetah、Hopper、Walker2D三个经典仿真任务,使用DPC-DQRL算法微调后性能比原预训练模型分别提升47%、63%、20%,所有任务的平均归一化得分比最优基线算法提升10%。实验结果表明,DPC-DQRL在提升模型性能的同时保证了模型的稳定,与其他算法相比具有一定的优越性。 展开更多
关键词 深度强化学习 离线-在线强化学习 动态策略约束 Q值估计
在线阅读 下载PDF
考虑动态时段划分的双策略协同强化学习无功电压控制
6
作者 郑瑜蓁 王慧芳 +2 位作者 张亦翔 马永吉 郭瑞鹏 《电力自动化设备》 北大核心 2025年第8期199-207,共9页
高比例分布式光伏接入农村配电网引起日间潮流倒送,导致日夜电压越限存在明显差异,为此,提出了一种考虑动态时段划分的双策略协同强化学习无功电压控制方法。分析了动态时段划分的必要性,并提出样本表征指标及划分方法,据此进行静止无... 高比例分布式光伏接入农村配电网引起日间潮流倒送,导致日夜电压越限存在明显差异,为此,提出了一种考虑动态时段划分的双策略协同强化学习无功电压控制方法。分析了动态时段划分的必要性,并提出样本表征指标及划分方法,据此进行静止无功补偿器优化配置;以最小化全天运行网损为目标,利用二阶锥松弛进行日前离散无功规划,并作为后续日内控制决策的依据;提出了双策略协同多智能体深度强化学习算法,将实时无功电压控制问题转化为分布式部分可观测马尔可夫决策过程,依据日内超短期与日前预测偏差对全天时段进行动态划分,构建双策略无功电压协同控制架构,对全天电压进行有效控制。利用改进IEEE33节点配电网验证了所提方法的有效性。 展开更多
关键词 动态时段划分 无功电压控制 多智能体深度强化学习 双策略协同 多时间尺度 配电网
在线阅读 下载PDF
基于深度强化学习的云订单动态接受与调度问题研究
7
作者 丁祥海 张梦钗 +1 位作者 刘春来 韩杰 《运筹与管理》 CSSCI CSCD 北大核心 2024年第9期221-226,共6页
为解决动态到达的云订单接受与调度问题,以柔性流水车间为背景,提出了结合改进策略的深度Q值网络(DQN)算法。基于研究问题的两阶段性,设计了接单智能体和排单智能体联合决策模型;其中接单智能体以最大化利润为目标,排单智能体以最小化... 为解决动态到达的云订单接受与调度问题,以柔性流水车间为背景,提出了结合改进策略的深度Q值网络(DQN)算法。基于研究问题的两阶段性,设计了接单智能体和排单智能体联合决策模型;其中接单智能体以最大化利润为目标,排单智能体以最小化拖期和最小化扰动为目标。针对订单到达动态性,设计了两个智能体的动态交互机制。在排单智能体中,考虑了关键路径的工序候选集、机器候选集、工序最早开始加工等算法改进策略,同时改进DQN网络结构,使选择工件和机器的规则增加至50种,提高云订单与现有订单生产的协同能力。经过数值仿真实验表明,所提算法在不同规模问题上,最大利润、机器负荷、算法稳定性等方面,都有较好的表现,能提高企业利润和接单率。 展开更多
关键词 订单接受 动态决策 深度强化学习 柔性流水车间
在线阅读 下载PDF
基于深度强化学习的多区域通风系统风量控制方法研究
8
作者 李春晓 崔璨 黎明 《控制工程》 北大核心 2025年第2期265-272,共8页
通风系统在实际运行时,其风量负荷动态变化,且各区域风量之间存在强耦合,导致其风量调节的难度高、调节时间长。针对此问题,提出一种基于深度确定性策略梯度的多区域通风系统风量控制方法,实现对各区域风量的快速、准确控制。此外,提出... 通风系统在实际运行时,其风量负荷动态变化,且各区域风量之间存在强耦合,导致其风量调节的难度高、调节时间长。针对此问题,提出一种基于深度确定性策略梯度的多区域通风系统风量控制方法,实现对各区域风量的快速、准确控制。此外,提出一种动态目标训练机制,有效提高强化学习训练的效率。最后,建立通风系统仿真环境,验证所提控制方法的性能。仿真结果表明,所提控制方法能够快速实现对风量的准确控制,能够抵抗一定程度的系统噪声,并且适用于不同拓扑结构的通风系统。 展开更多
关键词 风量控制方法 深度强化学习 深度确定性策略梯度 动态目标 多区域通风系统
在线阅读 下载PDF
深度强化学习算法求解动态流水车间实时调度问题 被引量:1
9
作者 杨媛媛 胡蓉 +2 位作者 钱斌 张长胜 金怀平 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第6期1047-1055,共9页
本文针对动态流水车间调度问题(DFSP),以最小化最大完工时间为优化目标,提出一种自适应深度强化学习算法(ADRLA)进行求解.首先,将DFSP的新工件动态到达过程模拟为泊松过程,进而采用马尔科夫决策过程(MDP)对DFSP的求解过程进行描述,将DFS... 本文针对动态流水车间调度问题(DFSP),以最小化最大完工时间为优化目标,提出一种自适应深度强化学习算法(ADRLA)进行求解.首先,将DFSP的新工件动态到达过程模拟为泊松过程,进而采用马尔科夫决策过程(MDP)对DFSP的求解过程进行描述,将DFSP转化为可由强化学习求解的序贯决策问题.然后,根据DFSP的排序模型特点,设计具有较好状态特征区分度和泛化性的状态特征向量,并依此提出5种特定动作(即调度规则)来选择当前需加工的工件,同时构造基于问题特性的奖励函数以获取动作执行效果的评价值(即奖励值),从而确定ADRLA的3类基本要素.进而,以深度双Q网络(DDQN)作为ADRLA中的智能体,用于进行调度决策.该智能体采用由少量小规模DFSP确定的数据集(即3类基本要素在不同问题上的数据)训练后,可较准确刻画不同规模DFSP的状态特征向量与Q值向量(由各动作的Q值组成)间的非线性关系,从而能对各种规模DFSP进行自适应实时调度.最后,通过在不同测试问题上的仿真实验和与算法比较,验证了所提ADRLA求解DFSP的有效性和实时性. 展开更多
关键词 流水车间调度 新工件到达 深度强化学习 动态实时调度 智能调度
在线阅读 下载PDF
基于深度强化学习的多无人机能量传输与边缘计算联合优化方法
10
作者 林绍福 陈盈盈 李硕朋 《计算机工程》 北大核心 2025年第3期144-154,共11页
由于有限的机载资源和续航能力,无人机(UAV)在空中停留时间有限,无法长时间连续执行计算密集型任务。为了满足军事行动、紧急救援等连续作业场景中UAV的不间断任务执行需求,设计一种基于无线能量传输的多UAV边缘计算方法。采用一组具备... 由于有限的机载资源和续航能力,无人机(UAV)在空中停留时间有限,无法长时间连续执行计算密集型任务。为了满足军事行动、紧急救援等连续作业场景中UAV的不间断任务执行需求,设计一种基于无线能量传输的多UAV边缘计算方法。采用一组具备无线能量传输和移动边缘计算能力的大型无人机作为空中边缘能量服务器(AEES),为多个空中执勤UAV提供能量传输和边缘计算服务,以提高UAV的任务执行效率。通过联合UAV的三维位置、电量和任务量信息,建立多UAV能量与算力联合优化模型,并采用多智能体深度Q网络(MADQN)算法实现AEES服务位置点和能量发射功率智能化决策,以最大化固定服务时长内的系统吞吐量和能量传输效率,同时最小化能耗。仿真结果表明,所提出的MADQN方法有效地优化了AEES的服务位置和能耗,能够高效地为UAV提供算力、能量等资源。与启发式学习算法和贪婪算法等其他基线方法相比,明显提升了能量传输效益和系统吞吐量,同时保证了能量传输、能耗和吞吐量等多个优化目标的平衡。 展开更多
关键词 多无人机 动态资源分配 深度强化学习 无线功率传输 移动边缘计算
在线阅读 下载PDF
基于知识辅助深度强化学习的巡飞弹组动态突防决策 被引量:1
11
作者 孙浩 黎海青 +2 位作者 梁彦 马超雄 吴翰 《兵工学报》 EI CAS CSCD 北大核心 2024年第9期3161-3176,共16页
巡飞弹组(Loitering Munition Group,LMG)突防控制决策是提高巡飞弹群组作战自主性与智能性的关键。针对存在截击拦截器和临机防空火力区的动态环境中弹组突防机动指令在线生成困难的问题,提出一种基于知识辅助强化学习方法的LMG突防控... 巡飞弹组(Loitering Munition Group,LMG)突防控制决策是提高巡飞弹群组作战自主性与智能性的关键。针对存在截击拦截器和临机防空火力区的动态环境中弹组突防机动指令在线生成困难的问题,提出一种基于知识辅助强化学习方法的LMG突防控制决策算法。结合领域知识、规则知识改进状态空间和回报函数设计提高算法泛化能力与训练收敛速度。构建基于软动作-评价方法的LMG突防控制决策框架,以提高算法探索效率。利用专家经验和模仿学习方法改善多弹多威胁带来的解空间狭窄、算法初始高效训练经验匮乏的问题。实验结果表明,新算法能够在动态环境中实时生成有效的突防机动指令,相较于对比方法效果更好,验证了算法的有效性。 展开更多
关键词 巡飞弹组 知识辅助深度强化学习 Soft Actor-Critic算法 动态环境突防 控制决策
在线阅读 下载PDF
融合自适应势场法和深度强化学习的三维水下AUV路径规划方法
12
作者 郝琨 孟璇 +1 位作者 赵晓芳 李志圣 《浙江大学学报(工学版)》 北大核心 2025年第7期1451-1461,共11页
在复杂海洋环境中,AUV路径规划方法的生成路径质量低、动态避障能力差,为此提出新的三维水下AUV路径规划方法(IADQN).针对AUV在未知水下环境中障碍物识别和规避能力不足的问题,提出自适应势场法以提高AUV的动作选择效率.为了解决传统深... 在复杂海洋环境中,AUV路径规划方法的生成路径质量低、动态避障能力差,为此提出新的三维水下AUV路径规划方法(IADQN).针对AUV在未知水下环境中障碍物识别和规避能力不足的问题,提出自适应势场法以提高AUV的动作选择效率.为了解决传统深度Q网络(DQN)经验回放策略中样本选择效率低的问题,采用优先经验回放策略,从经验池中选择对训练贡献较高的样本来提高训练的效率. AUV根据当前状态动态调整奖励函数,加快DQN在训练期间的收敛速度.仿真结果表明,与DQN方案相比,IADQN能够在真实的海洋环境下高效规划出省时、无碰撞的路径,使AUV运行时间缩短6.41 s,与洋流的最大夹角减少10.39°. 展开更多
关键词 路径规划 深度强化学习 自适应势场法 自主水下航行器(AUV) 动态奖励函数
在线阅读 下载PDF
基于数据质量评估的高效强化联邦学习节点动态采样优化
13
作者 赵泽华 梁美玉 +2 位作者 薛哲 李昂 张珉 《智能系统学报》 CSCD 北大核心 2024年第6期1552-1561,共10页
系统异构性和统计异构性的存在使得通信开销和通信效率成为联邦学习的关键瓶颈之一,在众多参与方中只选取一部分客户端执行模型更新和聚合可以有效降低通信开销,但是选择偏差和客户端上的数据质量分布不平衡对客户端采样方法提出了额外... 系统异构性和统计异构性的存在使得通信开销和通信效率成为联邦学习的关键瓶颈之一,在众多参与方中只选取一部分客户端执行模型更新和聚合可以有效降低通信开销,但是选择偏差和客户端上的数据质量分布不平衡对客户端采样方法提出了额外的挑战。为此,提出数据质量评估的高效强化联邦学习节点动态采样优化方法(client dynamic sampling optimization of efficient reinforcement federated learning based on data quality assessment,RQCS),该方法采用沙普利值的贡献指数评估客户端上的数据质量,基于深度强化学习模型,智能的动态选择具有高数据质量且能提高最终模型精度的客户端参与每一轮的联邦学习,以抵消数据质量分布不平衡引入的偏差,加速模型收敛并提高模型精度。在MNIST及CIFAR-10数据集上的实验表明,所提出算法与其他算法相比,在减少通信开销的同时进一步加快了收敛速度,同时在模型最终准确性上也有较好的性能。 展开更多
关键词 联邦学习 深度强化学习 客户端动态采样 贡献指数 数据质量 通信效率 沙普利值 模型精度
在线阅读 下载PDF
一种采用联邦深度强化学习的车联网资源分配方法 被引量:1
14
作者 王辛果 王昶 《电讯技术》 北大核心 2024年第7期1065-1071,共7页
在车联网中,为了充分利用可用资源,车到车(Vehicle to Vehicle,V2V)链路需要动态地复用固定分配给车到基础设施(Vehicle to Infrastructure,V2I)链路的信道。传统的集中式信道资源分配方法会产生较大的通信开销,也难以适应转瞬即逝的车... 在车联网中,为了充分利用可用资源,车到车(Vehicle to Vehicle,V2V)链路需要动态地复用固定分配给车到基础设施(Vehicle to Infrastructure,V2I)链路的信道。传统的集中式信道资源分配方法会产生较大的通信开销,也难以适应转瞬即逝的车辆环境。为此,提出了一种基于分布式联邦深度强化学习(Federated Deep Reinforcement Learning,FDRL)的信道资源分配方法。首先,所有V2V智能体基于局部观察的环境信息独立地训练自己的模型,但彼此间保持相同的奖励以激励它们相互协作进而达成全局最优方案;然后,这些V2V智能体通过基站的帮助聚合部分模型参数,以增加接入公平性并加快模型学习效率。通过上述两阶段的迭代训练,每个V2V智能体训练出独特的决斗深度神经网络信道接入决策模型。仿真结果表明,所提出的FDRL方法与现有的优化方法相比具有更高的V2I链路总容量和V2V链路传输成功率。 展开更多
关键词 车联网通信 信道资源分配 联邦学习 深度强化学习
在线阅读 下载PDF
基于深度强化学习的单线路公交动态驻站控制策略研究 被引量:1
15
作者 刘东 张大鹏 +1 位作者 万芸 肖峰 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第5期173-184,共12页
公交运行中,车辆车头时距波动过大会导致公交系统出现串车等运行不稳定现象,针对该问题,本文提出一种基于深度强化学习的动态驻站控制策略,实现公交系统的稳定运行,以及避免出现串车问题。首先,构造线形公交系统,并确定车辆运行和乘客... 公交运行中,车辆车头时距波动过大会导致公交系统出现串车等运行不稳定现象,针对该问题,本文提出一种基于深度强化学习的动态驻站控制策略,实现公交系统的稳定运行,以及避免出现串车问题。首先,构造线形公交系统,并确定车辆运行和乘客行为规则;然后,介绍基于深度强化学习建立动态控制方法,定义强化学习框架的各要素,并开发事件驱动的模拟器环境,训练和测试智能体;最后,利用仿真模拟对所提方法与基准方法进行大量的数值实验,选取不同评价指标进行对比分析,并实施敏感性分析。实验结果发现,本文方法实现了最稳定的车辆运行轨迹和最小的载客分散度;在车头时距变动上,比无控制策略、基于时刻表控制策略和基于车头时距控制策略分别降低61.90%、60.98%和37.98%;在平均等待时间上,分别降低28.36%、26.53%和23.61%。此外,所提方法在不同行驶时间变异性和车头时距情景下,具有很强的鲁棒性。 展开更多
关键词 智能交通 动态驻站控制 深度强化学习 公交系统 事件驱动
在线阅读 下载PDF
基于深度强化学习的机械臂动态目标抓取方法
16
作者 张轩 卢惠民 +4 位作者 任君凯 莫新民 肖浩然 张伟杰 杨璇 《兵工自动化》 北大核心 2024年第6期91-96,共6页
针对现有机械臂动态目标抓取方法轨迹规划困难、实时性不足、难以实现六自由度抓取等问题,提出一种基于深度强化学习(deep reinforcement learning,DRL)的机械臂动态目标抓取方法。进行马尔可夫决策过程(Markov decision process,MDP)建... 针对现有机械臂动态目标抓取方法轨迹规划困难、实时性不足、难以实现六自由度抓取等问题,提出一种基于深度强化学习(deep reinforcement learning,DRL)的机械臂动态目标抓取方法。进行马尔可夫决策过程(Markov decision process,MDP)建模,设计状态空间、动作空间以及奖励函数,实现机械臂对动态目标的六自由度抓取。基于Pybullet构建机械臂动态目标抓取仿真试验环境,对该方法进行训练,将训练得到的策略在新颖场景进行测试,并与经典规划控制的动态目标抓取方法进行对比。仿真结果表明:该方法能实现机械臂对动态目标的六自由度抓取,在抓取成功率和速度上具有优势。 展开更多
关键词 动态目标抓取 马尔科夫 轨迹规划 深度强化学习 六自由度抓取
在线阅读 下载PDF
一种基于可解释深度强化学习的动态频谱接入方法
17
作者 耿凯 张建照 姚昌华 《电讯技术》 北大核心 2024年第12期1981-1989,共9页
针对基于强化学习的动态频谱接入模型性能有限、可解释性差的问题,提出了一种基于权重分析的动态频谱接入方法。采用储备池计算(Reservoir Computing,RC)网络来替代传统的深度Q学习网络(Deep Q-Learning Network,DQN),以简化网络结构并... 针对基于强化学习的动态频谱接入模型性能有限、可解释性差的问题,提出了一种基于权重分析的动态频谱接入方法。采用储备池计算(Reservoir Computing,RC)网络来替代传统的深度Q学习网络(Deep Q-Learning Network,DQN),以简化网络结构并提高计算效率。同时引入权重分析的可解释方法,通过生成热力图来反映神经网络对不同信道的认知和偏好,从而提高了模型的可解释性。仿真结果表明,在多用户环境中,该算法在平均成功率、平均碰撞率和平均奖励等关键指标上显著优于Q-Learning等传统强化学习算法。相较于DQN+MLP算法,该算法不仅加快了收敛速度,而且在平均成功率达到0.8、平均碰撞率接近0以及平均奖励等关键指标上的表现与之相当。 展开更多
关键词 动态频谱接入 可解释人工智能 储备池计算 深度强化学习
在线阅读 下载PDF
边缘辅助的自适应稀疏联邦学习优化算法 被引量:1
18
作者 陈晓 仇洪冰 李燕龙 《电子与信息学报》 北大核心 2025年第3期645-656,共12页
联邦学习中,高模型贡献率的无线网络设备通常由于算力不足、能量有限成为掉队者,进而增加模型聚合时延并影响全局模型精度。针对此问题,该文设计了联合边缘服务器辅助训练和模型自适应稀疏联邦学习架构,并提出了基于边缘辅助训练的自适... 联邦学习中,高模型贡献率的无线网络设备通常由于算力不足、能量有限成为掉队者,进而增加模型聚合时延并影响全局模型精度。针对此问题,该文设计了联合边缘服务器辅助训练和模型自适应稀疏联邦学习架构,并提出了基于边缘辅助训练的自适应稀疏联邦学习优化算法。首先,引入边缘服务器为算力不足或能量受限的设备提供辅助训练。构建了辅助训练和通信、计算资源分配的优化模型,并采用多种深度强化学习方法求解优化的辅助训练决策。其次,基于辅助训练决策,在每个通信轮次自适应地对全局模型进行非结构化剪枝,进一步降低设备的时延和能耗开销。实验结果表明,所提算法极大地减少了掉队设备,其模型测试精度优于经典联邦学习的测试精度;利用深度确定性策略梯度(DDPG)优化辅助资源分配的算法有效地减少了系统训练时延,提升了模型训练效率。 展开更多
关键词 联邦学习 边缘服务器 自适应稀疏 深度强化学习 非结构化剪枝
在线阅读 下载PDF
基于深度强化学习的风场中浮空器驻留控制 被引量:2
19
作者 柏方超 杨希祥 +1 位作者 邓小龙 侯中喜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第7期2354-2366,共13页
建立了平流层浮空器区域驻留模型,在有动力和无动力推进的情况下,基于马尔可夫决策过程,将具有优先经验回放的双深度Q学习应用于平流层浮空器区域驻留控制。通过平均区域驻留半径、区域驻留有效时间比等参数来评价区域驻留控制方法的效... 建立了平流层浮空器区域驻留模型,在有动力和无动力推进的情况下,基于马尔可夫决策过程,将具有优先经验回放的双深度Q学习应用于平流层浮空器区域驻留控制。通过平均区域驻留半径、区域驻留有效时间比等参数来评价区域驻留控制方法的效果。典型风场中仿真分析结果指出:在区域驻留半径为50 km、区域驻留时间为3天的任务下,无动力推进的平流层浮空器的平均区域驻留半径为28.16 km,区域驻留有效时间比为83%;有动力推进平流层浮空器的平均区域驻留半径可达8.84 km,可实现区域驻留半径为20 km的飞行控制,区域驻留有效时间比为100%。 展开更多
关键词 平流层浮空器 动态风场 区域驻留控制 深度强化学习 动力推进
在线阅读 下载PDF
GenFedRL:面向深度强化学习智能体的通用联邦强化学习框架 被引量:2
20
作者 金彪 李逸康 +2 位作者 姚志强 陈瑜霖 熊金波 《通信学报》 EI CSCD 北大核心 2023年第6期183-197,共15页
针对智能物联网中,搭载深度强化学习智能体的智能设备缺乏有效安全数据共享机制的问题,提出一种面向深度强化学习智能体的通用联邦强化学习(GenFedRL)框架。GenFedRL不需要共享深度强化学习智能体的本地私有数据,而通过模型共享技术实... 针对智能物联网中,搭载深度强化学习智能体的智能设备缺乏有效安全数据共享机制的问题,提出一种面向深度强化学习智能体的通用联邦强化学习(GenFedRL)框架。GenFedRL不需要共享深度强化学习智能体的本地私有数据,而通过模型共享技术实现共同训练,在保护各智能体私有数据隐私的同时,有效地利用其数据资源和计算资源。为应对现实通信环境的复杂性与满足加速训练的需要,为GenFedRL设计了基于同步并行的模型共享机制。结合常见深度强化学习算法自身的模型结构特点,基于FedAvg算法设计了适用于单网络结构与多网络结构的通用联邦强化学习算法,进而实现了具有同种网络结构的智能体间的模型共享机制,更好地保护各类智能体的私有数据。仿真实验表明,即使在大部分数据节点无法参与训练的恶劣通信环境下,常见深度强化学习算法智能体在所提框架上仍表现出良好的性能。 展开更多
关键词 智能物联网 联邦学习 联邦强化学习 深度强化学习
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部