期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
嵌入式通信系统中基于动态多因素的马尔可夫决策路由
1
作者 刘甜甜 贾智平 Edwin H.-M.Sha 《上海交通大学学报》 EI CAS CSCD 北大核心 2007年第11期1816-1819,共4页
为了适应嵌入式通信系统的资源匮乏性、多因素、异构性和对等性等特点,提出了动态多因素马尔可夫决策路由(DMMDR)算法,分析了算法的时间和空间复杂度,并设计了路由的建立过程和链路状态的更新策略.研究结果表明,该算法能综合考虑各种因... 为了适应嵌入式通信系统的资源匮乏性、多因素、异构性和对等性等特点,提出了动态多因素马尔可夫决策路由(DMMDR)算法,分析了算法的时间和空间复杂度,并设计了路由的建立过程和链路状态的更新策略.研究结果表明,该算法能综合考虑各种因素,均衡和减少计算量和存储需求,并避免环路的产生. 展开更多
关键词 嵌入式 马尔可夫决策过程 动态多因素马尔可夫决策路由算法 状态更新
在线阅读 下载PDF
基于动态规划的作物种植优化决策模型
2
作者 李钰瑾 杜玫 +1 位作者 李昊天 胡鑫 《农村实用技术》 2025年第7期65-66,共2页
基于市场需求,充分利用有限的耕地资源实现作物利润最大的作物种植决策尤为重要。本文针对作物的习性和生长规律,开展了作物种植优化研究。首先以最大收益作为目标,建立单目标规划决策模型;在此基础上,基于动态规划建立马尔可夫决策模型... 基于市场需求,充分利用有限的耕地资源实现作物利润最大的作物种植决策尤为重要。本文针对作物的习性和生长规律,开展了作物种植优化研究。首先以最大收益作为目标,建立单目标规划决策模型;在此基础上,基于动态规划建立马尔可夫决策模型,选用最大化价值函数开展优化策略的迭代计算;这为提高作物的生产效益提供了有效手段,对于促进乡村经济的长期健康发展具有重要的现实意义。 展开更多
关键词 动态规划 作物种植优化 模拟退火算法 马尔可夫决策模型
在线阅读 下载PDF
计及不确定因素的售电公司动态购电决策多目标优化研究 被引量:21
3
作者 贾晨 杜欣慧 姚宏民 《电力系统保护与控制》 EI CSCD 北大核心 2019年第21期134-143,共10页
随着电力体制改革的进行,售电公司的数量及市场交易的形式不断增加,同时竞争也日益激烈。针对即将开展的电力现货市场交易,提出了包含多市场、多时段的售电公司动态交易策略,全面考虑了用户电量,市场电价等不确定因素,引入用户侧负荷作... 随着电力体制改革的进行,售电公司的数量及市场交易的形式不断增加,同时竞争也日益激烈。针对即将开展的电力现货市场交易,提出了包含多市场、多时段的售电公司动态交易策略,全面考虑了用户电量,市场电价等不确定因素,引入用户侧负荷作为平衡资源。利用多目标优化思想,建立了包含售电公司综合售电收益和用户满意度最大化的优化模型。并提出一种结合拉丁超立方抽样,场景缩减法和改进多目标差分进化算法的优化方法对所提模型进行求解。最后通过算例分析,验证了所建模型和方法的有效性,为售电公司参与市场竞争提供了有效的参考。 展开更多
关键词 不确定因素 动态购电决策 现货市场 差分进化算法 多目标优化
在线阅读 下载PDF
基于机器学习的线上线下联合服务模式下医生排班算法
4
作者 张越 王子翔 +2 位作者 周博 刘冉 杨之涛 《智能系统学报》 北大核心 2025年第4期800-812,共13页
线上线下联合的医疗服务模式已经成为我国大型医院普遍采用的新型医疗服务模式,为了优化大型医院在此类模式下的医生资源配置,本文研究考虑切换成本的医生排班问题。针对此问题,建立考虑服务水平限制的医生排班马尔可夫决策过程模型,并... 线上线下联合的医疗服务模式已经成为我国大型医院普遍采用的新型医疗服务模式,为了优化大型医院在此类模式下的医生资源配置,本文研究考虑切换成本的医生排班问题。针对此问题,建立考虑服务水平限制的医生排班马尔可夫决策过程模型,并设计近似动态规划算法对马尔可夫决策过程高效求解。进一步,考虑患者高度时变到达以及医疗服务时长等多维不确定性,基于合作医院的实际数据,构建数据驱动的循环神经网络模型,提出基于数据驱动的线上线下患者排队系统的性能评估方法。数值实验显示,所提出的方法能够降低医生总工作时长,并有效控制患者等待时间,保证系统的高效运行。本文研究结果可为大型医院合理配置线上线下医疗资源提供理论依据和决策支持。 展开更多
关键词 线上医疗 医生排班 时变排队系统 数据驱动 深度学习 马尔可夫决策过程 近似动态规划 启发式算法
在线阅读 下载PDF
基于因素化表示的TD(λ)算法
5
作者 戴帅 殷苌茗 张欣 《计算机工程》 CAS CSCD 北大核心 2009年第13期190-192,195,共4页
提出一种新的基于因素法方法的TD(λ)算法。其基本思想是状态因素化表示,通过动态贝叶斯网络表示Markov决策过程(MDP)中的状态转移概率函数,结合决策树表示TD(λ)算法中的状态值函数,降低状态空间的搜索与计算复杂度,因而适用于求解大... 提出一种新的基于因素法方法的TD(λ)算法。其基本思想是状态因素化表示,通过动态贝叶斯网络表示Markov决策过程(MDP)中的状态转移概率函数,结合决策树表示TD(λ)算法中的状态值函数,降低状态空间的搜索与计算复杂度,因而适用于求解大状态空间的MDPs问题,实验证明该表示方法是有效的。 展开更多
关键词 因素化表示 动态贝叶斯网络 决策 TD(λ)算法
在线阅读 下载PDF
基于深度确定性策略梯度与注意力Critic的多智能体协同清障算法 被引量:1
6
作者 王宪伟 冯翔 虞慧群 《计算机科学》 CSCD 北大核心 2024年第7期319-326,共8页
动态障碍物一直是阻碍智能体自主导航发展的关键因素,而躲避障碍物和清理障碍物是两种解决动态障碍物问题的有效方法。近年来,多智能体躲避动态障碍物(避障)问题受到了广大学者的关注,优秀的多智能体避障算法纷纷涌现。然而,多智能体清... 动态障碍物一直是阻碍智能体自主导航发展的关键因素,而躲避障碍物和清理障碍物是两种解决动态障碍物问题的有效方法。近年来,多智能体躲避动态障碍物(避障)问题受到了广大学者的关注,优秀的多智能体避障算法纷纷涌现。然而,多智能体清理动态障碍物(清障)问题却无人问津,相对应的多智能体清障算法更是屈指可数。为解决多智能体清障问题,文中提出了一种基于深度确定性策略梯度与注意力Critic的多智能体协同清障算法(Multi-Agent Cooperative Algorithm for Obstacle Clearance Based on Deep Deterministic Policy Gradient and Attention Critic, MACOC)。首先,创建了首个多智能体协同清障的环境模型,定义了多智能体及动态障碍物的运动学模型,并根据智能体和动态障碍物数量的不同,构建了4种仿真实验环境;其次,将多智能体协同清障过程定义为马尔可夫决策过程(Markov Decision Process, MDP),构建了多智能体t的状态空间、动作空间和奖励函数;最后,提出一种基于深度确定性策略梯度与注意力Critic的多智能体协同清障算法,并在多智能体协同清障仿真环境中与经典的多智能体强化学习算法进行对比。实验证明,相比对比算法,所提出的MACOC算法清障的成功率更高、速度更快,对复杂环境的适应性更好。 展开更多
关键词 强化学习算法 马尔可夫决策过程 多智能体协同控制 动态障碍物清除 注意力机制
在线阅读 下载PDF
动态武器目标分配问题的研究现状与展望 被引量:47
7
作者 刘传波 邱志明 +1 位作者 吴玲 王航宇 《电光与控制》 北大核心 2010年第11期43-48,共6页
动态武器目标分配(DWTA)是现代指控系统亟待解决的重要理论问题,由于时间因素和随机事件的影响,使得解决该问题的复杂程度进一步增加。在介绍DWTA问题研究基本内容的基础上,重点归纳和分析了目前解决DW-TA问题的一系列方法,包括分阶段... 动态武器目标分配(DWTA)是现代指控系统亟待解决的重要理论问题,由于时间因素和随机事件的影响,使得解决该问题的复杂程度进一步增加。在介绍DWTA问题研究基本内容的基础上,重点归纳和分析了目前解决DW-TA问题的一系列方法,包括分阶段求解法、马尔可夫决策过程及anytime算法等,提出了现阶段对于DWTA问题研究的不足和未来尚需解决的问题,并指出在充分考虑时空约束的基础上,寻求一种具有任意时间特性且能灵活处理随机事件的智能算法是解决DWTA问题的有效途径。 展开更多
关键词 动态武器目标分配 马尔可夫决策过程 时间窗 ANYTIME算法
在线阅读 下载PDF
基于深度强化学习的节能工艺路线发现方法 被引量:2
8
作者 陶鑫钰 王艳 纪志成 《智能系统学报》 CSCD 北大核心 2023年第1期23-35,共13页
由于传统基于固定加工环境的工艺路线制定规则,无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络(deep Q network,DQN)的节能工艺路线发现方法。基于马尔可夫决策过程,定义状态向量、动作空间、奖励函数,建立... 由于传统基于固定加工环境的工艺路线制定规则,无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络(deep Q network,DQN)的节能工艺路线发现方法。基于马尔可夫决策过程,定义状态向量、动作空间、奖励函数,建立节能工艺路线模型,并将加工环境动态变化的节能工艺路线规划问题,转化为DQN智能体决策问题,利用决策经验的可复用性和可扩展性,进行求解,同时为了提高DQN的收敛速度和解的质量,提出了基于S函数探索机制和加权经验池,并使用了双Q网络。仿真结果表明,相比较改进前,改进后的算法在动态加工环境中能够更快更好地发现节能工艺路线;与遗传算法、模拟退火算法以及粒子群算法相比,改进后的算法不仅能够以最快地速度发现节能工艺路线,而且能得到相同甚至更高精度的解。 展开更多
关键词 深度强化学习 深度Q网络 动态加工环境 工艺线 马尔可夫决策过程 智能体决策 双Q网络 启发式算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部