期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
求解在线三维装箱问题的启发式深度强化学习算法
1
作者 张长勇 姚凯超 张宇浩 《计算机工程与应用》 北大核心 2025年第17期329-336,共8页
货物装载是物流运输过程中的关键一环,属于NP-Hard问题。为解决智慧物流领域货物“即到即码”的实时性问题,提出了一种候选启发式与深度强化学习相结合的在线三维装箱算法。将在线三维装箱表述为带约束的马尔科夫决策过程,并考虑七种实... 货物装载是物流运输过程中的关键一环,属于NP-Hard问题。为解决智慧物流领域货物“即到即码”的实时性问题,提出了一种候选启发式与深度强化学习相结合的在线三维装箱算法。将在线三维装箱表述为带约束的马尔科夫决策过程,并考虑七种实际约束条件,在此基础上设计强化学习要素。设置货物码垛的候选缓存区,根据人工启发式生成有价值的先验知识,以此来初始化深度强化学习算法的训练过程,最终经过对决网络评估后输出最优动作。实验结果表明,算法空间利用率为85.3%,收敛速度提高25%,决策时间平均快15 ms,有效解决了面对大规模动作空间增长导致的智能体初期探索困难的问题,提高了算法的效率和实用性,更适用于实际在线装箱场景。 展开更多
关键词 NP-HARD问题 在线三维装箱 候选启发 深度强化学习 马尔可夫决策
在线阅读 下载PDF
基于强化学习的正弦优化算法求解能耗分布式流水车间节能调度问题
2
作者 郎峻 殷晓明 顾幸生 《华东理工大学学报(自然科学版)》 北大核心 2025年第5期623-632,共10页
针对分布式流水车间节能调度中最大完工时间(makespan)与总能耗(TEC)的多目标优化难题,本文提出一种基于强化学习的正弦优化算法(RLSOA)。算法通过双重Q-learning策略协同优化加工序列与速度调整:底层Q-learning优先加速关键路径任务以... 针对分布式流水车间节能调度中最大完工时间(makespan)与总能耗(TEC)的多目标优化难题,本文提出一种基于强化学习的正弦优化算法(RLSOA)。算法通过双重Q-learning策略协同优化加工序列与速度调整:底层Q-learning优先加速关键路径任务以缩短makespan,顶层Q-learning降低非关键任务速度以减少TEC。结合自适应参数与4种速度调整算子,设计基于精英解导向的局部搜索策略,平衡全局探索与局部开发。基于480组不同规模算例的实验表明,相较于KCA、INSGA等对比算法,RLSOA在覆盖率(C-metric)和反世代距离(IGD)指标上平均提升23.6%和降低41.8%。消融实验验证双重Q-learning与局部搜索分别贡献65.3%和28.7%的解质量提升。统计检验(p<0.05)证实本文算法优越性,为分布式制造系统提供了高效的节能调度工具。 展开更多
关键词 节能 分布流水车间调度 强化学习 启发算法 多目标优化
在线阅读 下载PDF
基于强化学习的混合元启发式暂态电压稳定特征选择方法及可解释性研究 被引量:4
3
作者 甄永赞 阮程 《电网技术》 EI CSCD 北大核心 2024年第4期1519-1531,I0043,共14页
新型电力系统发展背景下,使用有效的特征选择方法来提取与暂态电压稳定强相关的关键响应特征,对研究暂态电压失稳机理与系统潜在安全隐患具有重要意义。为此,提出一种基于改进过滤法与混合元启发式包装法的复合框架进行特征选择的新方... 新型电力系统发展背景下,使用有效的特征选择方法来提取与暂态电压稳定强相关的关键响应特征,对研究暂态电压失稳机理与系统潜在安全隐患具有重要意义。为此,提出一种基于改进过滤法与混合元启发式包装法的复合框架进行特征选择的新方法。基于对称不确定性值改进的最大相关最小冗余性准则进行特征粗筛;将Q学习强化学习融合至元启发式优化算法中,并采用开发探索折衷策略以增强特征细选能力,获取最优关键响应特征子集。在此基础上,采用沙普利值加性解释归因理论综合分析各筛选特征对暂态电压稳定的影响与系统薄弱环节。新型电力系统算例验证了所提方法的有效性。 展开更多
关键词 暂态电压稳定 特征选择 强化学习 混合元启发 沙普利值加性解释
在线阅读 下载PDF
一种基于启发式轮廓表的逻辑强化学习方法 被引量:8
4
作者 刘全 高阳 +2 位作者 陈道蓄 孙吉贵 姚望舒 《计算机研究与发展》 EI CSCD 北大核心 2008年第11期1824-1830,共7页
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表... 强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表的一阶谓词表示状态、活动和Q-函数,充分发挥Prolog表的优势,将逻辑谓词规则与强化学习相结合,形成一种新的逻辑强化学习方法——CCLORRL,并对其收敛性进行了证明.该方法使用轮廓形状谓词产生形状状态表,大幅度地减少状态空间;利用启发式规则指导动作的选择,减少了样本中不存在状态选择的盲目性.CCLORRL算法应用于俄罗斯方块中,实验表明,该方法是比较高效的. 展开更多
关键词 维数灾 启发轮廓表 谓词 逻辑强化学习 CCLORRL算法
在线阅读 下载PDF
一种基于启发式奖赏函数的分层强化学习方法 被引量:11
5
作者 刘全 闫其粹 +2 位作者 伏玉琛 胡道京 龚声蓉 《计算机研究与发展》 EI CSCD 北大核心 2011年第12期2352-2358,共7页
针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还... 针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习的收敛速度.将此算法应用到俄罗斯方块的仿真平台中,通过对实验中的参数进行设置及对算法性能进行分析,结果表明:采用启发式奖赏函数的分层强化学习方法能在一定程度上解决"维数灾"问题,并具有很好的收敛速度. 展开更多
关键词 分层强化学习 试错 启发奖赏函数 俄罗斯方块 “维数灾”
在线阅读 下载PDF
基于强化学习的高铁列车运行图编制模型优化方法研究 被引量:6
6
作者 范文天 曾勇程 +2 位作者 郭一唯 杨宁 张海峰 《铁道运输与经济》 北大核心 2025年第1期70-81,共12页
针对高铁列车运行图中可能存在的停站时间超出范围、运行时间超出范围、超车和间隔时间不足这4类冲突,基于强化学习理论,实现一个用于调解列车运行图冲突的智能体。通过建立列车运行图编制环境,研究设计用于调解不同冲突的算子集,利用... 针对高铁列车运行图中可能存在的停站时间超出范围、运行时间超出范围、超车和间隔时间不足这4类冲突,基于强化学习理论,实现一个用于调解列车运行图冲突的智能体。通过建立列车运行图编制环境,研究设计用于调解不同冲突的算子集,利用近端策略优化算法在搭建好的环境中训练智能体。为提升算法性能,采用启发式贪心算法采集样本对网络进行监督学习作为前期预训练,利用熵增加算法的探索力度和多策略决策让最终的调解方案更加有效,并使用模型预热让算法网络在每个测试环境中进行参数微调以适应新环境。结果表明,在相同初始环境下,该方法消解所有冲突所需步骤显著少于启发式贪心算法,且100%消解所有冲突的概率远大于启发式贪心算法,该方法为列车运行图编制模型提供了新的参考。 展开更多
关键词 列车运行图 强化学习 PPO算法 冲突调解 启发贪心算法
在线阅读 下载PDF
强化学习算法中启发式回报函数的设计及其收敛性分析 被引量:14
7
作者 魏英姿 赵明扬 《计算机科学》 CSCD 北大核心 2005年第3期190-193,共4页
(中国科学院沈阳自动化所机器人学重点实验室沈阳110016)
关键词 强化学习算法 启发回报函数 收敛性 马尔可夫决策过程 机器学习 人工智能
在线阅读 下载PDF
基于深度强化学习的自适应股票交易策略 被引量:3
8
作者 孙志磊 唐俊洋 +4 位作者 丰硕 刘炜 兰雪锋 张文珠 赵澄 《浙江工业大学学报》 CAS 北大核心 2024年第2期188-195,共8页
股票交易策略的制定在金融市场投资中起着至关重要的作用。为帮助投资者在多变复杂的股票市场作出最优决策,降低制定投资策略的难度,基于LSTM-SAC模型构建自适应股票交易策略。首先,将堆叠式长短期记忆网络(Long short-term memory,LSTM... 股票交易策略的制定在金融市场投资中起着至关重要的作用。为帮助投资者在多变复杂的股票市场作出最优决策,降低制定投资策略的难度,基于LSTM-SAC模型构建自适应股票交易策略。首先,将堆叠式长短期记忆网络(Long short-term memory,LSTM)预测的股票收益率与股票历史数据相结合来表示市场状况;其次,根据观测的市场信息强化学习智能体,基于自动熵调节(Soft actor-critic,SAC)进行自我交易决策调整以适应市场变化;最后,以微分夏普比率作为智能体学习的目标函数以平衡利益和风险,同时优化交易频率以降低交易成本。研究结果表明:相较于其他股票交易策略,该策略在道琼斯30和上证50市场均具有较高的年化收益,验证了其在不同市场的有效性和稳定性。 展开更多
关键词 深度强化学习 股票交易策略 堆叠长短期记忆网络 柔性演员评论家
在线阅读 下载PDF
一种基于元启发式策略的迭代自学习K-Means算法 被引量:2
9
作者 雷小锋 杨阳 +2 位作者 张克 谢昆青 夏征义 《计算机科学》 CSCD 北大核心 2009年第7期175-178,共4页
类内误差平方和最小化的聚类准则求解是NP难问题,K-Means采用的迭代重定位方法本质上是一种局部搜索的爬山算法,因此聚类结果对初始代表点的选择非常敏感,只能保证局部最优。为此,引入元启发式策略,通过建立评估函数对K-Means初始代表... 类内误差平方和最小化的聚类准则求解是NP难问题,K-Means采用的迭代重定位方法本质上是一种局部搜索的爬山算法,因此聚类结果对初始代表点的选择非常敏感,只能保证局部最优。为此,引入元启发式策略,通过建立评估函数对K-Means初始代表点和目标函数之间的依赖关系进行近似,然后利用近似评估函数指导新的初始代表点的选择,构成一种迭代自学习框架下的K-Means算法。实验表明算法可以很好地克服K-Means对初始代表点的依赖性,获得较高质量的聚类结果。 展开更多
关键词 聚类问题K-Means算法 启发策略 迭代自学习框架
在线阅读 下载PDF
基于启发式强化学习的AGV路径规划 被引量:13
10
作者 唐恒亮 唐滋芳 +2 位作者 董晨刚 尹棋正 海秋茹 《北京工业大学学报》 CAS CSCD 北大核心 2021年第8期895-903,共9页
针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智... 针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势. 展开更多
关键词 自动引导小车(automated guided vehicle AGV) 强化学习 Q(λ)算法 启发奖励函数 启发动作选择策略 路径规划
在线阅读 下载PDF
基于深度强化学习的插电式柴电混合动力汽车多目标优化控制策略 被引量:17
11
作者 隗寒冰 贺少川 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第1期44-52,共9页
插电式混合动力汽车工作模式切过程中发动机频繁启停引起的发动机排气温度和进气流速波动明显,导致SCR催化器催化效率降低和排放恶化,尤其是低温冷启动阶段更为明显。另一方面,建立精确的SCR催化器瞬态模型较为困难,传统基于模型的混合... 插电式混合动力汽车工作模式切过程中发动机频繁启停引起的发动机排气温度和进气流速波动明显,导致SCR催化器催化效率降低和排放恶化,尤其是低温冷启动阶段更为明显。另一方面,建立精确的SCR催化器瞬态模型较为困难,传统基于模型的混合动力控制策略开发方法效果较差。以某P2构型插电式柴电混合动力汽车为研究对象,建立了包括发动机、电池和SCR后处理系统的整车纵向动力学模型;在此基础上将深度强化学习应用于插电式混合动力汽车的能量管理问题,采用DQN算法对油耗和排放组成的加权目标函数进行求解,得到以需求功率、蓄电池SOC和SCR温度为状态变量、以电机最优功率为输出变量的控制策略;最后将测试结果与DP算法进行对比分析。结果表明,燃油消耗为2.623 L/100 km,SCR催化器出口NO x排放为0.2275 g/km,与DP控制策略相比,分别下降10.12%和25.69%,证明了提出控制策略的有效性。 展开更多
关键词 车辆工程 深度强化学习 控制策略 多目标优化 插电混合动力汽车 动态规划算法
在线阅读 下载PDF
基于双层多智能体深度强化学习的移动储能低碳时空优化调度
12
作者 张华瑞 韩冬 +1 位作者 鲁卓欣 严正 《中国电机工程学报》 北大核心 2025年第20期7974-7986,I0011,共14页
全球气候变化问题日益紧迫,创新的能源调度方式是节能减碳的重要解决方案。移动储能因其时空灵活性能有效推动低碳用能,提高碳交易市场的活跃度。为实现电-碳耦合市场下移动储能的时空优化调度,该文提出一种基于双层多智能体深度强化学... 全球气候变化问题日益紧迫,创新的能源调度方式是节能减碳的重要解决方案。移动储能因其时空灵活性能有效推动低碳用能,提高碳交易市场的活跃度。为实现电-碳耦合市场下移动储能的时空优化调度,该文提出一种基于双层多智能体深度强化学习并考虑电-碳市场耦合的调度方法。首先,构建计及阶梯碳交易成本、空间转移成本、容量衰减成本和充放电套利收益的优化调度模型。其次,将调度问题描述为马尔可夫博弈,并构建双层多智能体深度强化学习框架求解该模型。最后,利用美国加州圣地亚哥地区30个充电站2020—2022年的节点边际电价数据和地址位置信息进行模型训练和算例仿真。结果表明,所提方法的适用性、稳定性与可拓展性,实现移动储能时空调度过程的节能减碳。 展开更多
关键词 移动储能系统 阶梯碳交易 双层多智能体深度强化学习 低碳经济调度 多智能体近端策略优化
在线阅读 下载PDF
基于分层强化学习的在线三维装箱模型
13
作者 亓明凯 王迪 张立晔 《计算机工程》 北大核心 2025年第6期136-145,共10页
在过去的一些研究中,人工智能如何以一种分层的方式在多个抽象级别和多个时间尺度上表示感知和行动规划逐渐成为一个研究热点。受限于技术手段,多数工作都局限在人工分解任务阶段,如在三维装箱问题(3D-BPP)中,通过启发式规则指导神经网... 在过去的一些研究中,人工智能如何以一种分层的方式在多个抽象级别和多个时间尺度上表示感知和行动规划逐渐成为一个研究热点。受限于技术手段,多数工作都局限在人工分解任务阶段,如在三维装箱问题(3D-BPP)中,通过启发式规则指导神经网络解析打包点帮助智能体分解状态空间,将原本庞大、复杂的空间转换为一个个子空间,为神经网络提供更好的备选解决方案。然而这种方式受限于规则本身,若规则不能完美地拆解问题,则这种固定规则的辅助会限制神经网络的性能,使得更好的解决方案被规则本身忽略。针对这种情况,提出一种基于启发式规则融合策略的改进装箱配置树(PCT)模型,通过分层强化学习的思想将问题分层,引入图注意力分类模型来判断在当前情况下最优的空间点拓展方案,由此为拆解箱体内部空间点与探寻可行性位置提供更多的排列组合方式。实验结果表明,基于启发式规则融合策略的改进模型在多个数据集上表现优于原始模型,在包含额外密度信息的数据集中平均装箱利用率高达77.2%,较原始模型提升1.7百分点,能够在合理的时间内给出性能更优的解决方案。 展开更多
关键词 分层强化学习 三维装箱 图注意力网络 启发空间拓展 深度强化学习
在线阅读 下载PDF
启发式强化学习机制的异构双种群蚁群算法 被引量:6
14
作者 刘中强 游晓明 刘升 《计算机科学与探索》 CSCD 北大核心 2020年第3期460-469,共10页
针对传统蚁群算法在解决TSP问题时易陷入局部最优、收敛速度较慢的问题,提出了一种基于启发式强化学习的异构双种群蚁群算法。蚁群分为主种群和子种群,主种群负责解的构建和信息素的更新,子种群则是在构建解的同时对主种群的解集进行替... 针对传统蚁群算法在解决TSP问题时易陷入局部最优、收敛速度较慢的问题,提出了一种基于启发式强化学习的异构双种群蚁群算法。蚁群分为主种群和子种群,主种群负责解的构建和信息素的更新,子种群则是在构建解的同时对主种群的解集进行替换。算法初期利用启发式算子自适应地控制两个种群的交流频率,通过偏离度系数控制解的交换方式。前期让子种群的最优解去替换主种群的随机解,增加解的多样性,同时引入强化学习机制对交流后主种群最优路径上的信息素进行自适应的奖赏,以增大最优公共路径以后被选择的概率。后期则控制子种群的最优解去替换主种群的最差解,强化最优路径上信息素的量,并对主种群最优路径上的信息素进行奖赏,进一步提高算法的收敛速度。实验仿真表明,算法能够有效地跳出局部最优,并且解的质量在大规模测试集上有明显的改善。 展开更多
关键词 商旅问题(TSP) 异构双种群 偏离度系数 启发强化学习
在线阅读 下载PDF
求解二维装箱问题的强化学习启发式算法 被引量:6
15
作者 阳名钢 陈梦烦 +1 位作者 杨双远 张德富 《软件学报》 EI CSCD 北大核心 2021年第12期3684-3697,共14页
二维带形装箱问题是一个经典的NP-hard的组合优化问题,该问题在实际的生活和工业生产中有着广泛的应用.研究该问题,对企业节约成本、节约资源以及提高生产效率有着重要的意义.提出了一个强化学习求解算法.新颖地使用强化学习为启发式算... 二维带形装箱问题是一个经典的NP-hard的组合优化问题,该问题在实际的生活和工业生产中有着广泛的应用.研究该问题,对企业节约成本、节约资源以及提高生产效率有着重要的意义.提出了一个强化学习求解算法.新颖地使用强化学习为启发式算法提供一个初始的装箱序列,有效地改善启发式冷启动的问题.该强化学习模型能进行自我驱动学习,仅使用启发式计算的解决方案的目标值作为奖励信号来优化网络,使网络能学习到更好的装箱序列.使用简化版的指针网络来解码输出装箱序列,该模型由嵌入层、解码器和注意力机制组成.使用Actor-Critic算法对模型进行训练,提高了模型的效率.在714个标准问题实例和随机生成的400个问题实例上测试提出的算法,实验结果显示:提出的算法能有效地改善启发式冷启动的问题,性能超过当前最优秀的启发式求解算法. 展开更多
关键词 二维装箱问题 强化学习 指针网络 启发算法 分层搜索
在线阅读 下载PDF
策略梯度的超启发算法求解带容量约束车辆路径问题 被引量:4
16
作者 张景玲 孙钰粟 +2 位作者 赵燕伟 余孟凡 蒋玉勇 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第6期1111-1122,共12页
有容量车辆路径问题是组合优化问题中比较热门的问题,它属于经典的NP-hard问题并且时间复杂度高.本文提出了一种基于策略梯度的超启发算法,将强化学习中的确定性策略梯度算法引入到超启发算法的高层策略中的底层算法选择策略,确定性策... 有容量车辆路径问题是组合优化问题中比较热门的问题,它属于经典的NP-hard问题并且时间复杂度高.本文提出了一种基于策略梯度的超启发算法,将强化学习中的确定性策略梯度算法引入到超启发算法的高层策略中的底层算法选择策略,确定性策略梯度算法采用Actor-Critic框架,另外为了能够在后续计算和神经网络参数更新中引用历史经验数据,在确定性策略梯度算法中设计了经验池用于存储状态转移数据.在超启发算法解的接受准则方面,文中通过实验对比了3种接受准则的效果,最终选择了自适应接受准则作为高层策略中解的接受准则.通过对有容量车辆路径问题标准算例的计算,并将求解结果与其他算法对比,验证了所提算法在该问题求解上的有效性和稳定性. 展开更多
关键词 车辆路径问题 强化学习 策略梯度算法 神经网络 启发算法
在线阅读 下载PDF
基于深度强化学习的园区综合能源系统低碳经济调度 被引量:7
17
作者 杨挺 刘豪 +3 位作者 王静 党兆帅 耿毅男 盆海波 《电网技术》 EI CSCD 北大核心 2024年第9期3604-3613,I0022,I0023,共12页
为降低园区综合能源系统的运行成本和碳排放量,同时应对系统不确定性带来的随机波动,提出一种考虑阶梯式碳交易的园区综合能源系统低碳经济调度模型,并采用深度强化学习方法求解。首先构建园区阶梯式碳交易模型,将碳交易成本考虑在内对... 为降低园区综合能源系统的运行成本和碳排放量,同时应对系统不确定性带来的随机波动,提出一种考虑阶梯式碳交易的园区综合能源系统低碳经济调度模型,并采用深度强化学习方法求解。首先构建园区阶梯式碳交易模型,将碳交易成本考虑在内对园区综合能源系统低碳经济调度问题进行数学描述;其次将该调度问题表述为马尔可夫决策过程框架,定义系统的观测状态、调度动作和奖励函数;继而采用近端策略优化算法进行低碳经济调度决策。所提方法无需进行负荷预测或不确定性建模,能够对源和荷的随机波动做出实时响应。最后基于多场景多算法进行算例仿真,结果表明所提方法提高系统运行经济性的同时降低了系统碳排放量。 展开更多
关键词 园区综合能源系统 阶梯碳交易 深度强化学习 近端策略优化算法 低碳经济调度
在线阅读 下载PDF
基于Q—学习的超启发式模型及算法求解多模式资源约束项目调度问题 被引量:8
18
作者 崔建双 吕玥 徐子涵 《计算机集成制造系统》 EI CSCD 北大核心 2022年第5期1472-1481,共10页
为了更好地解决传统的元启发式算法机制单一和面向问题定制不足等问题,提高算法的整体通用性,本文提出一种基于Q—学习的超启发式模型,并基于该模型设计实现了一种超启发式算法,求解多模式资源约束项目调度问题(MRCPSP)。该模型架构分... 为了更好地解决传统的元启发式算法机制单一和面向问题定制不足等问题,提高算法的整体通用性,本文提出一种基于Q—学习的超启发式模型,并基于该模型设计实现了一种超启发式算法,求解多模式资源约束项目调度问题(MRCPSP)。该模型架构分为高低两层,低层由具有多种异构机制和不同参数的元启发式算子组成,高层则依据Q—学习策略自动选择低层算子。模型将多种优秀的元启发式算法与反馈—学习强化机制有机整合,具备灵活的可扩展性。为检验算法效果,从MRCPSP标杆算例库中选取了上千个规模不等的算例,设计了等价比较实验环节,并与最新公开文献提供的结果进行了比较。结果表明,基于Q—学习的超启发式算法在目标值、通用性、鲁棒性等多项性能指标上均表现优异,可以借鉴应用到其他各种组合优化问题。值得一提的是,针对J30算例的计算结果有多达41个算例获得了比当前公开文献报告的已知最优解更好的结果。 展开更多
关键词 启发模型 强化学习 Q—学习 多模资源约束项目调度问题 启发算法 反馈—学习强化机制
在线阅读 下载PDF
促进师范生掌握启发式教学的策略 被引量:3
19
作者 王瑞珍 《华南师范大学学报(自然科学版)》 CAS 北大核心 2010年第S1期27-29,共3页
启发式教学在中学教学中非常重要,但一直以来是师范生的学习难点.依据对师范生学习启发式教学感觉困难的原因分析,采用专项训练、优化目标及实施方案、做中学等策略,促进师范生对启发式教学的掌握.
关键词 师范生 启发教学 学习策略
在线阅读 下载PDF
滚动优化下的对偶启发规划车辆路径跟踪控制
20
作者 郭洪艳 李光尧 +3 位作者 刘俊 郭景征 谭中秋 吕颖 《控制理论与应用》 北大核心 2025年第9期1746-1756,共11页
为提高智能车辆的路径跟踪精度,降低高速、大曲率工况下车辆模型不确定性对跟踪性能的影响,本文提出了一种基于滚动优化对偶启发式规划(RHDHP)的智能车辆路径跟踪控制策略.首先,结合魔术公式建立了可表征侧向轮胎力非线性特性的车辆系... 为提高智能车辆的路径跟踪精度,降低高速、大曲率工况下车辆模型不确定性对跟踪性能的影响,本文提出了一种基于滚动优化对偶启发式规划(RHDHP)的智能车辆路径跟踪控制策略.首先,结合魔术公式建立了可表征侧向轮胎力非线性特性的车辆系统模型.其次,设计了滚动优化思想下对偶启发式规划(DHP)的最优控制方法.该方法中的DHP结构确保了车辆非线性特性下的近似最优解,滚动优化的引入提高了车辆系统对环境变化的自适应性.同时,从理论上分析了RHDHP方法的收敛性以及闭环系统的稳定性.最后,通过仿真验证了所提方法的有效性. 展开更多
关键词 车辆路径跟踪 对偶启发规划 模型预测控制 强化学习
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部