期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
基于深度强化学习算法的全视角人脸纹理图像生成方法 被引量:1
1
作者 吕周澍 《湖南邮电职业技术学院学报》 2024年第2期34-38,共5页
由于人脸的面部特征复杂且纹理结构多样,传统方法往往受到完整性、纹理真实性、清晰度以及鲁棒性等方面的局限。因此,本研究提出基于深度强化学习算法的全视角人脸纹理图像生成方法。首先,对全视角人脸面部区域进行细致划分,建立坐标系... 由于人脸的面部特征复杂且纹理结构多样,传统方法往往受到完整性、纹理真实性、清晰度以及鲁棒性等方面的局限。因此,本研究提出基于深度强化学习算法的全视角人脸纹理图像生成方法。首先,对全视角人脸面部区域进行细致划分,建立坐标系以精确提取各区域的关键纹理结构特征点。随后,将这些特征点输入深度强化学习模型中,通过算法优化整合成一套全面的全视角特征点集合。利用马尔科夫权重场进一步处理特征点,通过计算联合概率,并结合重叠区域约束条件,生成了细节丰富、纹理清晰的全视角人脸纹理图像。实验结果表明,所提出方法生成的图像具有较高的峰值信噪比和较高的纹理清晰度,且鲁棒性较好,有效满足了高质量人脸纹理图像生成的需求。 展开更多
关键词 人脸图像生成 人脸纹理图像 深度强化学习算法 图像生成
在线阅读 下载PDF
基于强化学习算法的蚕种催青温度控制系统研究
2
作者 兰自勉 陈梦吉 +1 位作者 潘庆流 陆正杰 《广东蚕业》 2024年第11期4-6,共3页
蚕种催青是桑蚕生产的关键环节,催青过程中温度控制十分重要。文章分析了传统蚕种催青方式的缺点,提出了蚕种催青温度控制系统设计方案,包括软件设计与硬件设计,构建了基于强化学习的催青室温度控制模型。该方案利用强化学习算法对环境... 蚕种催青是桑蚕生产的关键环节,催青过程中温度控制十分重要。文章分析了传统蚕种催青方式的缺点,提出了蚕种催青温度控制系统设计方案,包括软件设计与硬件设计,构建了基于强化学习的催青室温度控制模型。该方案利用强化学习算法对环境变化进行实时监测和分析,结合蚕种的生长特性和需求,采取动态调整温度的控制策略,提高了系统对温度变化的适应能力和控制精度。实验结果表明,相比传统催青的温度控制方法,基于强化学习算法的蚕种催青温度控制系统在控制精度和稳定性方面均有显著提升。 展开更多
关键词 强化学习算法 蚕种催青 温度控制 系统设计
在线阅读 下载PDF
基于深度强化学习算法的弹性供应链调度优化方法 被引量:1
3
作者 张进军 《信息技术与信息化》 2024年第4期89-92,共4页
由于参与供应链的客户需求和供应者配置的多元性,导致供应链的配送成本难以得到有效控制,主要是因为在模型求解过程中,受困于参数本身的矛盾性,求解过程很容易陷入局部最优。为此,提出基于深度强化学习算法的弹性供应链调度优化方法研... 由于参与供应链的客户需求和供应者配置的多元性,导致供应链的配送成本难以得到有效控制,主要是因为在模型求解过程中,受困于参数本身的矛盾性,求解过程很容易陷入局部最优。为此,提出基于深度强化学习算法的弹性供应链调度优化方法研究。分别从供应者配置角度和客户需求角度构建了供应链模型,以供应链配送成本最小化为目标函数,应用深度强化学习算法中的深度Q网络(deepQ-network,DQN)算法进行训练,同步进行弹性供应链优化调度。DQN能够有效地处理这种高维状态空间,通过深度神经网络学习状态与动作之间的映射关系,自动提取关键特征,从而简化问题的复杂性。将收敛输出结果期望误差,输入供应链模型进行迭代计算,输出优化调度结果。测试结果表明,设计的方法可以实现对配送成本的有效控制。 展开更多
关键词 深度强化学习算法 弹性供应链调度 供应者配置 客户需求 供应链模型 配送成本最小化 DeepQ-Network 误差收敛
在线阅读 下载PDF
基于深度强化学习算法的汽车发动机智能控制研究 被引量:1
4
作者 陈孝威 《汽车测试报告》 2024年第8期32-34,共3页
现有的汽车发动机控制方法低压涡轮转速为3000 r/min,发动机压比值与期望值存在出入。该文设计汽车发动机智能控制器,通过校正的方式来降低动态不确定性对控制器的影响,更新发动机转速。定义奖励函数,针对使燃气轮机转速趋向稳定的动作... 现有的汽车发动机控制方法低压涡轮转速为3000 r/min,发动机压比值与期望值存在出入。该文设计汽车发动机智能控制器,通过校正的方式来降低动态不确定性对控制器的影响,更新发动机转速。定义奖励函数,针对使燃气轮机转速趋向稳定的动作添加大量奖励值,针对影响转速偏离目标值的动作添加少量奖励值,建立控制发动机的动作空间,并设计回报函数,调节网络参数,从而实现控制。试验结果表明,提出的控制方法低压涡轮转速为3400r/min,提高了发动机的性能,并且发动机压比值稳定在1.8,与预期结果一致,未出现明显的超调现象,显示出控制方法的稳定性。 展开更多
关键词 深度强化学习算法 汽车发动机 智能控制
在线阅读 下载PDF
基于改进深度强化学习算法的电力调度策略分析
5
作者 贺明强 靳君 +1 位作者 关新宇 宋德琦 《集成电路应用》 2024年第10期404-405,共2页
阐述电力系统的运行状态,建立电力系统模型,设计基于改进深度强化学习算法的辅助决策方法,并针对电力系统中存在的随机扰动问题,采用深度强化学习算法的辅助决策策略。
关键词 深度强化学习算法 电力系统模型设计 辅助决策
在线阅读 下载PDF
多步截断SARSA强化学习算法 被引量:5
6
作者 李春贵 林海涛 刘永信 《广西工学院学报》 CAS 2002年第1期1-4,共4页
提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)
关键词 强化学习 MARKOV决策过程 Q学习 SQRSA学习 机器学习 多步截断SARSA强化学习算法
在线阅读 下载PDF
基于有限理性的期望强化学习算法在电力市场中的应用
7
作者 黄金红 周晓阳 《应用数学》 CSCD 北大核心 2007年第S1期6-9,共4页
在分析电力市场时,一般有效的工具是博弈论知识,经典博弈论研究的是理性的决策者.但实际上发电公司在决策时不可能采取完全理性的行为,即决策者的行为总是有限理性的,这是与现实相接近的,能更好的解释现实情况.因此以有限理性为分析前提... 在分析电力市场时,一般有效的工具是博弈论知识,经典博弈论研究的是理性的决策者.但实际上发电公司在决策时不可能采取完全理性的行为,即决策者的行为总是有限理性的,这是与现实相接近的,能更好的解释现实情况.因此以有限理性为分析前提,用期望强化学习算法来研究发电商行为的多样性给市场带来不同的均衡状态是有意义的. 展开更多
关键词 有限理性 期望强化学习算法 Roth-Erev强化学习算法 期望利润 实际利润
在线阅读 下载PDF
基于强化学习算法的供应链管理订单策略研究 被引量:4
8
作者 刘梦婷 牟永敏 +1 位作者 赵刚 欧阳腾飞 《数据通信》 2013年第1期22-25,共4页
供应链管理中的订单制定环节,经常存在一种需求被变异放大的现象即牛鞭效应,从而引起成本的增加。利用强化学习算法进行供应链管理中的订单制定,使得供应链中的节点能够做出较好的订单策略,从而降低整体成本,以提高效益。实验结果证明,... 供应链管理中的订单制定环节,经常存在一种需求被变异放大的现象即牛鞭效应,从而引起成本的增加。利用强化学习算法进行供应链管理中的订单制定,使得供应链中的节点能够做出较好的订单策略,从而降低整体成本,以提高效益。实验结果证明,提出的基于强化学习算法的订单制定策略比传统的固定库存策略更加有效的降低了成本。 展开更多
关键词 供应链管理 强化学习算法 订单策略
在线阅读 下载PDF
基于强化学习算法原则的出行选择行为建模与仿真 被引量:1
9
作者 赵思萌 《大连交通大学学报》 CAS 2020年第6期6-11,共6页
针对目前高峰时段交通拥堵的问题,基于强化学习算法原则,提出了一种对出行者出行选择行为建模及仿真的方法.首先对出行者的认知更新过程进行建模,然后利用Logit模型来描述出行者的决策过程,最后采用MATLAB软件仿真了在不同小汽车出行成... 针对目前高峰时段交通拥堵的问题,基于强化学习算法原则,提出了一种对出行者出行选择行为建模及仿真的方法.首先对出行者的认知更新过程进行建模,然后利用Logit模型来描述出行者的决策过程,最后采用MATLAB软件仿真了在不同小汽车出行成本费用下,出行者出行时间和出行方式选择的变化规律.仿真结果表明:随着小汽车出行成本的增加,部分小汽车出行者逐渐选择公共交通出行,并且当出行成本增加到15元以上时,出行方式选择变化趋于平缓;同时,出行者倾向于提前出行且高峰时段出行需求有所减少,进而有利于减缓高峰拥堵状况. 展开更多
关键词 强化学习算法原则 认知更新过程 决策过程
在线阅读 下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究 被引量:3
10
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度Q网络强化学习算法 资源分配
在线阅读 下载PDF
基于分布式强化学习算法的精准助学数据分析方法研究
11
作者 邢文娜 宁睿 《电子设计工程》 2021年第10期28-31,36,共5页
针对传统助学金评选方法中存在虚假申请材料难以鉴别、无法准确了解学生真实经济水平的问题。文中提出了基于分布式强化学习算法的精准助学数据分析方法,该方法通过收集数字化校园中学生的各项消费数据,经过数据预处理后找出具有分类能... 针对传统助学金评选方法中存在虚假申请材料难以鉴别、无法准确了解学生真实经济水平的问题。文中提出了基于分布式强化学习算法的精准助学数据分析方法,该方法通过收集数字化校园中学生的各项消费数据,经过数据预处理后找出具有分类能力的变量。然后,将RBF神经网络通过归一化与选取合适的隐藏层层数、神经元个数来提高聚类速度。由于数字化校园存在多个消费场景,使用Markov对策与Bayesian网络可以建立各个智能体之间的互相关系,从而增强各个智能体之间的交互性。由数据测试分析结果可知,文中所述方案识别贫困生的准确率可达80.9%,优于Adaboost算法。同时具有更低的平均绝对误差,适用于高校贫困生的资格认定。 展开更多
关键词 分布式强化学习算法 精准助学数据分析技术 归一化RBF神经网络 MARKOV对策 BAYESIAN网络
在线阅读 下载PDF
基于深度强化学习算法的高能效数据负载均衡方法 被引量:1
12
作者 张思松 《安阳工学院学报》 2022年第2期43-46,共4页
网络用户大幅度增加为网络发展带来机遇的同时也带来了挑战,当前使用的数据负载均衡方法节点数据分发能力较差导致网络节点吞吐量较低。因此,设计了基于深度强化学习算法的高能效数据负载均衡方法。选择隐式并行程序设计方法,设计网络... 网络用户大幅度增加为网络发展带来机遇的同时也带来了挑战,当前使用的数据负载均衡方法节点数据分发能力较差导致网络节点吞吐量较低。因此,设计了基于深度强化学习算法的高能效数据负载均衡方法。选择隐式并行程序设计方法,设计网络数据并行程序。根据存储节点个数,设计数据分配与迁移方法。根据存储节点数据量与特征,选择深度强化学习算法,实现高能效数据负载均衡。构建仿真分析环节,经多次测试证实,深度强化学习负载均衡方法具有调节网络节点平均吞吐量的能力,且此方法的使用效果优于当前所使用的其他方法。 展开更多
关键词 并行程序 深度强化学习算法 负载均衡 数据分发 数据迁移
在线阅读 下载PDF
基于强化学习的柴油机调速算法研究 被引量:1
13
作者 姚崇 董璕 +2 位作者 李瑞 龙云 宋恩哲 《内燃机工程》 CAS CSCD 北大核心 2024年第4期71-80,共10页
为了更好地调节柴油机转速,提出一种强化学习–比例积分微分(proportional integral derivative, PID)控制器,并应用到了柴油机转速控制中。基于连续动作空间的柔性动作–评价(soft actor-critic, SAC)算法,结合连续型PID控制器,设计了... 为了更好地调节柴油机转速,提出一种强化学习–比例积分微分(proportional integral derivative, PID)控制器,并应用到了柴油机转速控制中。基于连续动作空间的柔性动作–评价(soft actor-critic, SAC)算法,结合连续型PID控制器,设计了一种强化学习–PID控制器,可代替传统PID控制的转速环。优化设计了基于演员–评论家(actor-critic)框架的输入输出和奖励函数以匹配柴油机特性,采用随机动作增加寻优效率,形成SAC-PID控制柴油机转速的网络交互结构,达到快速调整转速,减小稳定时间的效果。构建了以柴油机D6114为原型机的MATLAB/Simulink平均值模型,并利用试验数据验证了仿真模型的有效性。利用平均值模型,仿真验证了该控制算法效果。经过仿真验证本算法使柴油机转速响应曲线超调量更小,响应时间更快,鲁棒性更强,SAC-PID控制负载瞬态调速率和稳定时间均已达到1级精度指标。仿真对比验证了SAC算法的联合控制效果,结果表明其较其他算法更佳。 展开更多
关键词 柴油机调速 比例积分微分控制器 强化学习算法 非线性复杂系统
在线阅读 下载PDF
基于强化学习的航班动态定价研究
14
作者 朱星辉 赵谦 +2 位作者 陈欣 简露露 梁龙文 《航空计算技术》 2025年第2期1-5,共5页
旅客订购机票时具备票价提醒功能,为了减少由于旅客行为差异而产生的经济损失,在对航空公司进行航班动态定价售票研究中,增加了旅客行为的考虑。将旅客分为两类:耐心型和短视型。耐心旅客倾向于等待票价降至其心理预期,而短视旅客则根... 旅客订购机票时具备票价提醒功能,为了减少由于旅客行为差异而产生的经济损失,在对航空公司进行航班动态定价售票研究中,增加了旅客行为的考虑。将旅客分为两类:耐心型和短视型。耐心旅客倾向于等待票价降至其心理预期,而短视旅客则根据当前价格迅速做出决策。在市场环境中模拟不同类型旅客购票行为,将航班动态定价建模为马尔可夫决策过程(MDP),应用DQN、ARS和PPO强化学习算法来解决复杂市场中的定价问题。结果显示,PPO算法在处理复杂环境时更加稳定且能获得较高收益。根据评估后的平均定价策略得出,航空公司的定价应随市场中存在的不同类型的旅客数量进行调整。 展开更多
关键词 强化学习算法 收益管理 旅客行为 动态定价
在线阅读 下载PDF
基于双估计强化学习结合前向预测控制的自动驾驶运动控制研究 被引量:3
15
作者 杜国栋 邹渊 +2 位作者 张旭东 孙文景 孙巍 《汽车工程》 EI CSCD 北大核心 2024年第4期564-576,共13页
运动控制研究是实现自动驾驶目标的重要组成部分,针对传统强化学习算法在求解中因单步决策局限而导致控制序列次优的问题,提出了一种基于双估计强化学习算法及前向预测控制方法结合的运动控制框架(DEQL-FPC)。在该框架中引入双估计器以... 运动控制研究是实现自动驾驶目标的重要组成部分,针对传统强化学习算法在求解中因单步决策局限而导致控制序列次优的问题,提出了一种基于双估计强化学习算法及前向预测控制方法结合的运动控制框架(DEQL-FPC)。在该框架中引入双估计器以解决传统强化学习方法动作值过估计问题并提高训练优化的速度,设计前向预测多步决策方法替代传统强化学习的单步决策,以有效提高全局控制策略的性能。通过虚拟驾驶环境仿真,证明了该控制框架应用在自动驾驶汽车的路径跟踪以及安全避障的优越性,保证了运动控制中的精确性、安全性、快速性以及舒适性。 展开更多
关键词 自动驾驶汽车 运动控制优化 双估计强化学习算法 前向预测控制方法
在线阅读 下载PDF
基于EA-RL算法的分布式能源集群调度方法
16
作者 程小华 王泽夫 +2 位作者 曾君 曾婧瑶 谭豪杰 《华南理工大学学报(自然科学版)》 北大核心 2025年第1期1-9,共9页
目前对于分布式能源集群调度的研究大多局限于单一场景,同时也缺少高效、准确的算法。该文针对以上问题提出了一种基于进化算法经验指导的深度强化学习(EA-RL)的分布式能源集群多场景调度方法。分别对分布式能源集群中的电源、储能、负... 目前对于分布式能源集群调度的研究大多局限于单一场景,同时也缺少高效、准确的算法。该文针对以上问题提出了一种基于进化算法经验指导的深度强化学习(EA-RL)的分布式能源集群多场景调度方法。分别对分布式能源集群中的电源、储能、负荷进行个体建模,并基于个体调度模型建立了包含辅助调峰调频的多场景分布式能源集群优化调度模型;基于进化强化学习算法框架,提出了一种EA-RL算法,该算法融合了遗传算法(GA)与深度确定性策略梯度(DDPG)算法,以经验序列作为遗传算法个体进行交叉、变异、选择,筛选出优质经验加入DDPG算法经验池对智能体进行指导训练以提高算法的搜索效率和收敛性;根据多场景调度模型构建分布式能源集群多场景调度问题的状态空间和动作空间,再以最小化调度成本、最小化辅助服务调度指令偏差、最小化联络线越限功率以及最小化源荷功率差构建奖励函数,完成强化学习模型的建立;为验证所提算法模型的有效性,基于多场景的仿真算例对调度智能体进行离线训练,形成能够适应电网多场景的调度智能体,通过在线决策的方式进行验证,根据决策结果评估其调度决策能力,并通过与DDPG算法的对比验证算法的有效性,最后对训练完成的智能体进行了连续60d的加入不同程度扰动的在线决策测试,验证智能体的后效性和鲁棒性。 展开更多
关键词 分布式能源集群 深度强化学习 进化强化学习算法 多场景一体化调度
在线阅读 下载PDF
基于强化学习的大数据频繁项集挖掘算法 被引量:1
17
作者 肖坚 《信息通信》 2020年第6期62-63,共2页
所谓的频繁项集挖掘是指关联规则挖掘的步骤之一,而关联规则是指给定训练项集上频繁出现的项集与项集之间的一种紧密关联性。文章对频繁项集挖掘算法进行概括性描述,其次对几何导向多目标强化学习算法进行阐述,最后分析了基于强化学习... 所谓的频繁项集挖掘是指关联规则挖掘的步骤之一,而关联规则是指给定训练项集上频繁出现的项集与项集之间的一种紧密关联性。文章对频繁项集挖掘算法进行概括性描述,其次对几何导向多目标强化学习算法进行阐述,最后分析了基于强化学习的频繁项集挖掘算法,以期为现代关联规则应用提供借鉴。 展开更多
关键词 强化学习算法 大数据 频繁项集挖掘 算法
在线阅读 下载PDF
基于DDPG算法的数据传输研究
18
作者 闫丹婷 焦新泉 《电子技术应用》 2025年第1期69-74,共6页
针对目前数据传输系统可靠性差、传输速率低的情况,利用FPGA和UDP协议设计了一款数据传输系统。系统采用FPGA为主控芯片,Flash为存储介质,通过上位机发送指令控制系统进行数据的存取,采用千兆以太网进行数据通信与指令接收,增加了数据... 针对目前数据传输系统可靠性差、传输速率低的情况,利用FPGA和UDP协议设计了一款数据传输系统。系统采用FPGA为主控芯片,Flash为存储介质,通过上位机发送指令控制系统进行数据的存取,采用千兆以太网进行数据通信与指令接收,增加了数据重传机制以及流量控制模块,以保证数据高速可靠传输。为提高带宽利用率、降低网络时延,加入了改进的深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)进行拥塞控制。实验测试结果表明,采用该算法能够显著降低网络时延,系统传输速率可达912 Mb/s,且系统可靠性高、成本低,具有移植性和实际的推广价值,也便于升级维护。 展开更多
关键词 数据传输 深度强化学习算法 FPGA 可靠传输 DDPG算法 千兆以太网
在线阅读 下载PDF
基于强化学习的模块机器人故障自修复方法
19
作者 管恩广 王尧 +1 位作者 曹家彬 赵言正 《中国民航大学学报》 CAS 2023年第1期53-57,64,共6页
针对晶格式模块机器人的鲁棒性设计问题,提出一种基于强化学习算法的故障自修复方法。该方法将系统内以空位填充为目标的自修复过程转化为以包含空位的子群模块运动为手段的系统自重构过程。同时,基于强化学习算法提出一种离散方式下的... 针对晶格式模块机器人的鲁棒性设计问题,提出一种基于强化学习算法的故障自修复方法。该方法将系统内以空位填充为目标的自修复过程转化为以包含空位的子群模块运动为手段的系统自重构过程。同时,基于强化学习算法提出一种离散方式下的空位移动路径规划,并按此引导空位在系统内穿行。仿真试验结果表明,该故障自修复方法的有效性在晶格式模块机器人系统上得到了验证,且可广泛应用于其他同构模块机器人系统。 展开更多
关键词 模块机器人 自重构 强化学习算法 故障自修复
在线阅读 下载PDF
FTTB场景下基于强化学习的智慧保供电决策方法 被引量:2
20
作者 王愚 李佩 +2 位作者 李江伟 符华 聂雷刚 《信息技术》 2022年第10期147-152,共6页
为了提高智慧保供电决策能力,在FTTB场景下提出基于强化学习的智慧保供电决策方法。采用4G/光纤通信和中压载波网络,构建智慧保供电决策系统结构模型;利用车载采集终端与电源车的机组控制器采集智慧保供电参数,实现输出控制;通过光时域... 为了提高智慧保供电决策能力,在FTTB场景下提出基于强化学习的智慧保供电决策方法。采用4G/光纤通信和中压载波网络,构建智慧保供电决策系统结构模型;利用车载采集终端与电源车的机组控制器采集智慧保供电参数,实现输出控制;通过光时域反射和光纤Raman散射技术,建立发电机组数据及环境数据分析模型;结合强化学习算法,利用智慧保供电决策函数,实现智慧保供电决策和优化调度。测试结果表明,设计的方法寻优能力较强,稳定性和自适应性较好。 展开更多
关键词 FTTB场景 强化学习算法 优化调度 决策函数 智慧保供电决策
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部