期刊文献+
共找到94篇文章
< 1 2 5 >
每页显示 20 50 100
Modeling of UAV path planning based on IMM under POMDP framework 被引量:4
1
作者 YANG Qiming ZHANG Jiandong SHI Guoqing 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2019年第3期545-554,共10页
In order to enhance the capability of tracking targets autonomously of unmanned aerial vehicle (UAV), the partially observable Markov decision process (POMDP) model for UAV path planning is established based on the PO... In order to enhance the capability of tracking targets autonomously of unmanned aerial vehicle (UAV), the partially observable Markov decision process (POMDP) model for UAV path planning is established based on the POMDP framework. The elements of the POMDP model are analyzed and described. The state transfer law in the model can be described by the method of interactive multiple model (IMM) due to the diversity of the target motion law, which is used to switch the motion model to accommodate target maneuvers, and hence improving the tracking accuracy. The simulation results show that the model can achieve efficient planning for the UAV route, and effective tracking for the target. Furthermore, the path planned by this model is more reasonable and efficient than that by using the single state transition law. 展开更多
关键词 partially observable markov decision process (pomdp) interactive multiple model (IMM) filtering path planning target tracking state transfer law
在线阅读 下载PDF
基于POMDP的信道感知接入算法 被引量:2
2
作者 郭文慧 王亚林 韩迎鸽 《计算机工程与应用》 CSCD 2014年第5期203-207,共5页
在认知无线电中,为了最大化次用户的吞吐量,同时对主用户的干扰低于预定值,提出一种基于POMDP的信道感知接入算法。次用户将主用户信道在时间轴上细分成等间隔的时隙,在每个时隙开始时,次用户从频谱感知、以较高的功率接入信道和以较低... 在认知无线电中,为了最大化次用户的吞吐量,同时对主用户的干扰低于预定值,提出一种基于POMDP的信道感知接入算法。次用户将主用户信道在时间轴上细分成等间隔的时隙,在每个时隙开始时,次用户从频谱感知、以较高的功率接入信道和以较低的功率接入信道三种可选策略中选择最优的策略。将次用户的选择过程建模成一个POMDP问题,并采用一些相应的最优策略求解。计算机仿真结果验证了算法的有效性。 展开更多
关键词 认知无线电 频谱感知 吞吐量 半马尔科夫链 partially observable markov decision process(pomdp)
在线阅读 下载PDF
基于分层POMDP的智能轮椅行为控制方法 被引量:3
3
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《高技术通讯》 CAS CSCD 北大核心 2010年第6期613-617,共5页
针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综... 针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综合了动作的不确定性和状态的部分可观测性,通过对环境的观测和信息的采集,得到不确定环境下的最优策略选择,进而选择相应的最优动作,从而提高了动作的执行效率。在室内家居环境下进行的交互任务与导航控制试验以及对实验结果进行的分析验证了这一方法的实时性、有效性和可靠性。 展开更多
关键词 智能轮椅 行为控制方法 分层的部分可观测马尔可夫决策过程(pomdp)模型
在线阅读 下载PDF
基于POMDP的机载网络信道接入策略研究 被引量:4
4
作者 卓琨 张衡阳 +2 位作者 徐丁海 郑博 黄国策 《系统工程与电子技术》 EI CSCD 北大核心 2016年第3期658-664,共7页
针对机载网络随机竞争类媒介接入控制(medium access control,MAC)协议在网络负载较重时性能下降严重、接入门限值设置缺乏理论依据和多优先级业务服务质量无法有效支持等问题,提出一种基于部分可观测马尔可夫决策过程的信道接入策略。... 针对机载网络随机竞争类媒介接入控制(medium access control,MAC)协议在网络负载较重时性能下降严重、接入门限值设置缺乏理论依据和多优先级业务服务质量无法有效支持等问题,提出一种基于部分可观测马尔可夫决策过程的信道接入策略。在以不同优先级分组占用信道代价作为目标函数的基础上建立动态规划方程,采用状态空间压缩方法对问题求解进行简化,得到各优先级分组间理论近似最优接入门限值的数学表达式,可为不同优先级分组的接入决策过程提供理论依据并实现接入冲突的有效控制。仿真结果表明,该算法能够有效提高数据传输的时延、成功概率等性能,满足军事航空通信中数据传输的实时性和可靠性需求。 展开更多
关键词 机载网络 自组织网络 媒介接入控制协议 马尔可夫决策过程 接入门限
在线阅读 下载PDF
异构密集网络下基于POMDP负载感知的负载均衡算法研究 被引量:4
5
作者 唐伦 梁荣 +1 位作者 张亚 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2017年第9期2134-2140,共7页
针对异构密集网络场景中业务不确定性而引起的网络负载不均衡,该文提出一种基于部分可测马尔科夫决策过程(POMDP)负载感知的负载均衡方法。该方法首先通过对系统用户在感知周期内数据包传输数量进行观察,预测出下一周期系统可能出现的... 针对异构密集网络场景中业务不确定性而引起的网络负载不均衡,该文提出一种基于部分可测马尔科夫决策过程(POMDP)负载感知的负载均衡方法。该方法首先通过对系统用户在感知周期内数据包传输数量进行观察,预测出下一周期系统可能出现的负载状态。其次根据负载感知结果动态调整小区范围扩展偏置值(DCRE),以达到优化系统整体负载均衡性的目的。最后采用启发式算法近似求解,能够快速得到次优解。仿真结果表明,该方案能在异构密集网络下提高系统负载均衡性,同时提升了系统吞吐量与系统资源利用率。 展开更多
关键词 异构密集网络 负载均衡 小区范围扩展 部分可测马尔科夫决策过程
在线阅读 下载PDF
一种基于最优策略概率分布的POMDP值迭代算法 被引量:4
6
作者 刘峰 王崇骏 骆斌 《电子学报》 EI CAS CSCD 北大核心 2016年第5期1078-1084,共7页
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该... 随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率. 展开更多
关键词 部分可观测马尔科夫决策过程 基于最优策略概率的值迭代算法 蒙特卡罗法
在线阅读 下载PDF
基于POMDP模型的分布式机会频谱接入算法 被引量:2
7
作者 张士兵 王惠建 邹丽 《南京邮电大学学报(自然科学版)》 北大核心 2014年第1期10-16,共7页
针对认知无线电(cognitive radio,CR)信道的动态特性,以部分可观测马尔科夫决策过程(POMDP)为模型对认知无线电网络用户的频谱感知和频谱接入过程进行研究,提出了基于POMDP模型的分布式机会频谱接入算法。该算法利用网络信道的历史频谱... 针对认知无线电(cognitive radio,CR)信道的动态特性,以部分可观测马尔科夫决策过程(POMDP)为模型对认知无线电网络用户的频谱感知和频谱接入过程进行研究,提出了基于POMDP模型的分布式机会频谱接入算法。该算法利用网络信道的历史频谱感知信息对主用户接入信道的状况作出估计,以认知用户吞吐量最大化为目标进行频谱接入。同时,通过贪心算法得到此优化策略的次优解,降低了最优策略的计算复杂度。论文分析了认知用户接入吞吐量与网络中信道数目以及信道状态转移概率之间的关系,将贪心算法与随机检测接入算法进行了仿真比较。仿真结果显示,该算法获得的吞吐量比随机检测接入算法提高了约25%,能够更有效地做出接入策略。 展开更多
关键词 认知无线电 机会频谱接入 吞吐量 pomdp
在线阅读 下载PDF
杂合启发式在线POMDP规划 被引量:3
8
作者 章宗长 陈小平 《软件学报》 EI CSCD 北大核心 2013年第7期1589-1600,共12页
许多不确定环境下的自主机器人规划任务都可以用部分可观察的马氏决策过程(partially observableMarkov decision process,简称POMDP)建模.尽管研究者们在近似求解技术的设计方面已经取得了显著的进展,开发高效的POMDP规划算法依然是一... 许多不确定环境下的自主机器人规划任务都可以用部分可观察的马氏决策过程(partially observableMarkov decision process,简称POMDP)建模.尽管研究者们在近似求解技术的设计方面已经取得了显著的进展,开发高效的POMDP规划算法依然是一个具有挑战性的问题.以前的研究结果表明:在线规划方法能够高效地处理大规模的POMDP问题,因而是一类具有研究前景的近似求解方法.这归因于它们采取的是"按需"作决策而不是预前对整个状态空间作决策的方式.旨在通过设计一个新颖的杂合启发式函数来进一步加速POMDP在线规划过程,该函数能够充分利用现有算法里一些被忽略掉的启发式信息.实现了一个新的杂合启发式在线规划(hybrid heuristiconline planning,简称HHOP)算法.在一组POMDP基准问题上,HHOP有明显优于现有在线启发式搜索算法的实验性能. 展开更多
关键词 部分可观察的马氏决策过程 在线规划 杂合启发法
在线阅读 下载PDF
SHP-VI:一种基于最短哈密顿通路的POMDP值迭代算法 被引量:1
9
作者 冯奇 周雪忠 +1 位作者 黄厚宽 张小平 《计算机研究与发展》 EI CSCD 北大核心 2011年第12期2343-2351,共9页
基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时... 基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时间是不容忽视的.提出一种基于最短哈密顿通路(shortest Hamiltonian path)的值迭代算法(shortest Hamiltonian path-based value iteration,SHP-VI).该方法用求解最短哈密顿通路问题的蚁群算法计算一条最优信念状态轨迹,然后在这些信念状态上反向更新值函数.通过与FSVI算法的实验比较,结果表明SHP-VI算法很大程度地提高了基于试探的算法计算信念状态轨迹的效率. 展开更多
关键词 部分可观察markov决策过程 值迭代 基于点的算法 基于试探的算法 哈密顿通路
在线阅读 下载PDF
异构无线传感器网络中基于POMDP的实时调度算法 被引量:2
10
作者 冯延蓬 仵博 郑红燕 《仪表技术与传感器》 CSCD 北大核心 2012年第8期101-104,共4页
针对异构无线传感器网络节点性能存在差异和易受环境影响的特点,提出一种基于部分可观察Markov决策过程(partially observable markov decision process,POMDP)的实时休眠调度算法,使用状态转移函数和观察函数表示系统完成用户请求任务... 针对异构无线传感器网络节点性能存在差异和易受环境影响的特点,提出一种基于部分可观察Markov决策过程(partially observable markov decision process,POMDP)的实时休眠调度算法,使用状态转移函数和观察函数表示系统完成用户请求任务中存在的环境噪声和传输冲突等不确定性,使用回报函数表示采用不同调度策略对异构网络感知准确度和能量消耗的影响,采用基于当前信念点的在线求解算法求取最优策略。仿真结果表明:该算法能够平衡数据准确性与能量消耗,延长网络生存时间。 展开更多
关键词 异构无线传感器网络 部分可观察markov决策过程 调度
在线阅读 下载PDF
求解POMDP的动态合并激励学习算法 被引量:1
11
作者 殷苌茗 王汉兴 +1 位作者 陈焕文 谢丽娟 《计算机工程》 EI CAS CSCD 北大核心 2005年第22期4-6,148,共4页
把POMDP作为激励学习(ReinforcementLearning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性。但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决。该文基于这样的背景,在... 把POMDP作为激励学习(ReinforcementLearning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性。但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决。该文基于这样的背景,在给定一些特殊的约束条件下提出的一种求解POMDP的方法,即求解POMDP的动态合并激励学习算法。该方法利用区域的概念,在环境状态空间上建立一个区域系统,Agent在区域系统的每个区域上独自并行地实现其最优目标,加快了运算速度。然后把各组成部分的最优值函数按一定的方式整合,最后得出POMDP的最优解。 展开更多
关键词 部分可观测markov决策过程 激励学习 动态合并 信度状态
在线阅读 下载PDF
基于点的FO-POMDP值迭代方法研究 被引量:1
12
作者 陈丽娜 黄宏斌 邓苏 《计算机工程》 CAS CSCD 2013年第10期217-220,共4页
在部分可观测马尔可夫决策过程(POMDP)的基础上,给出一阶部分可观测马尔科夫决策过程(FO-POMDP),用一阶逻辑的情景演算结构表达POMDP。对FO-POMDP模型中状态的抽象层次进行刻画,提出状态粒度、信念状态粒度的概念。采用粒度归结方法,将... 在部分可观测马尔可夫决策过程(POMDP)的基础上,给出一阶部分可观测马尔科夫决策过程(FO-POMDP),用一阶逻辑的情景演算结构表达POMDP。对FO-POMDP模型中状态的抽象层次进行刻画,提出状态粒度、信念状态粒度的概念。采用粒度归结方法,将信念状态的粒度归结到某一确定粒度下,运用确定粒度下的信念点距离度量方法,将基于点的价值迭代(PBVI)扩展到逻辑抽象层面提出一阶PBVI(FO-PBVI)。实验结果证明,该算法的求解速度较快,求解质量较好。 展开更多
关键词 部分可观测马尔科夫决策过程 状态空间 信念状态 粒度归结 基于点的值迭代
在线阅读 下载PDF
非时齐部分可观察Markov决策规划的最优策略问题 被引量:1
13
作者 张继红 郭世贞 章芸 《运筹学学报》 CSCD 北大核心 2004年第2期81-87,共7页
本文讨论了一类非时齐部分可观察Markov决策模型.在不改变状态空间可列 性的条件下,把该模型转化为[5]中的一般化折扣模型,从而解决了其最优策略问题,并 且得到了该模型的有限阶段逼近算法,其中该算法涉及的状态是可列的.
关键词 部分可观察markov决策规划 最优策略 非时齐 折扣模型 逼近
在线阅读 下载PDF
基于POMDP的动态客户关系管理建模研究 被引量:2
14
作者 马少辉 刘金兰 《系统工程学报》 CSCD 北大核心 2010年第3期387-393,共7页
从多阶段、延迟回报的角度提出基于部分可观察马尔可夫决策过程(POMDP)对客户关系的动态发展与管理进行建模的方法.模型以客户关系作为隐状态,以客户购买水平作为隐状态的观察值,以客户管理行动为决策变量.通过模型,可以动态估计客户的... 从多阶段、延迟回报的角度提出基于部分可观察马尔可夫决策过程(POMDP)对客户关系的动态发展与管理进行建模的方法.模型以客户关系作为隐状态,以客户购买水平作为隐状态的观察值,以客户管理行动为决策变量.通过模型,可以动态估计客户的关系状态,可以估计各行动对客户关系动态演化的影响,并以客户终生价值为目标优化管理行动.以客户保持-流失两状态客户关系模型为例,说明了模型的具体应用. 展开更多
关键词 客户关系管理 客户终生价值 部分可观察马尔可夫决策模型
在线阅读 下载PDF
基于FPOMDP的无线传感器网络动态调度算法 被引量:1
15
作者 冯延蓬 仵博 郑红燕 《计算机应用与软件》 CSCD 北大核心 2012年第8期55-58,77,共5页
针对无线传感器网络节点能量有限、数据采集易受环境影响的问题,提出一种基于可分解部分可观察Markov决策过程FPOMDP(Factored Partially Observable Markov Decision Process)的节点休眠调度算法。通过节点空时相关模型求取休眠节点数... 针对无线传感器网络节点能量有限、数据采集易受环境影响的问题,提出一种基于可分解部分可观察Markov决策过程FPOMDP(Factored Partially Observable Markov Decision Process)的节点休眠调度算法。通过节点空时相关模型求取休眠节点数据,利用网络数据准确性和节点能量间的条件独立关系,构造状态转移函数、观察函数和奖赏函数,采用值迭代求解算法求取最优策略,实现节点动态调度。仿真结果表明,该算法能够在保证数据准确性的前提下,有效降低节点能量消耗,延长网络生存时间。 展开更多
关键词 无线传感器网络 可分解部分可观察markov决策过程 空时相关模型
在线阅读 下载PDF
基于MADDPG的多无人机协同攻击方法
16
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分可观测马尔可夫决策过程(Dec-pomdp) 多智能体深度确定性策略梯度算法(MADDPG) 无人机集群
在线阅读 下载PDF
基于改进Transformer的多智能体供应链库存管理方法
17
作者 朴明杰 张冬冬 +2 位作者 卢鹄 李汝鹏 葛小丽 《计算机科学》 北大核心 2025年第S1期186-195,共10页
有效的供应链库存管理对诸如民用飞机和汽车制造等大规模制造业至关重要,它能确保高效的生产运作。通常情况下,主制造商制定年度库存管理计划,并根据实际生产进度,在某些物料接近临界库存水平时与供应商进行联系。但实际生产情况的变化... 有效的供应链库存管理对诸如民用飞机和汽车制造等大规模制造业至关重要,它能确保高效的生产运作。通常情况下,主制造商制定年度库存管理计划,并根据实际生产进度,在某些物料接近临界库存水平时与供应商进行联系。但实际生产情况的变化可能会导致年度库存管理计划的改变,因此根据实际生产情况和库存水平对未来物料采购情况进行决策相对更为灵活与高效。近年来,许多研究者关注采用强化学习方法来研究库存管理问题。当前的方法在解决具有多节点多物料模式的民用飞机制造供应链库存管理问题时虽然能够一定程度上提供高效管理,但是带来了较高的复杂度。为解决这一问题,将问题形式化为一个部分可观察马尔可夫决策过程模型,并提出了一种基于改进Transformer的多智能体供应链库存管理方法。该方法基于多智能体强化学习序列决策的本质,将多智能体强化学习问题转化为编码器-解码器架构的序列建模问题,从逻辑上降低算法的复杂度。实验结果表明,相较于现有的基于强化学习的方法,所提方法在保持性能相近的基础上,于复杂度方面约有90%的改善。 展开更多
关键词 多智能体强化学习 飞机供应链库存管理 部分可观察马尔可夫决策过程 TRANSFORMER
在线阅读 下载PDF
基于部分可观察马尔科夫决策过程(POMDP)的贪婪算法次优频谱接入 被引量:1
18
作者 张娟 《科学技术与工程》 北大核心 2014年第15期193-196,218,共5页
在ad hoc网络中,由于受硬件和能量的限制,在没有数据发送的情况下,次用户无法监控到频谱,不能执行全频谱的感知,因此,针对现有的机会频谱接入(OSA)算法大都基于信道状态具有完全知识的马尔科夫建模的情况,提出了基于部分可观察的马尔科... 在ad hoc网络中,由于受硬件和能量的限制,在没有数据发送的情况下,次用户无法监控到频谱,不能执行全频谱的感知,因此,针对现有的机会频谱接入(OSA)算法大都基于信道状态具有完全知识的马尔科夫建模的情况,提出了基于部分可观察的马尔科夫(POMDP)的决策论方法,该方法综合考虑了机会频谱共享系统的感知和接入优化策略。由于受维数灾难的影响,设计了一种基于贪婪算法次优的频谱接入方法,并从理想感知和感知错误存在两方面进行仿真分析。结果表明,在POMDP模型下该方法能有效地避免主次用户之间的资源使用冲突,实现对频谱的有效利用。 展开更多
关键词 pomdp 机会频谱接入 贪婪算法 AD HOC网络
在线阅读 下载PDF
一种基于POMDP用户意图建模的智能轮椅导航控制方法
19
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第S1期95-99,共5页
通过部分可观测马尔可夫决策过程(POMDP)模型对用户意图进行建模,提出了一种基于POMDP用户意图建模的智能轮椅导航控制方法.该方法考虑了动作的不确定性和状态的部分可观测性,对用户意图、智能轮椅导航控制的动作空间进行建模,通过状态... 通过部分可观测马尔可夫决策过程(POMDP)模型对用户意图进行建模,提出了一种基于POMDP用户意图建模的智能轮椅导航控制方法.该方法考虑了动作的不确定性和状态的部分可观测性,对用户意图、智能轮椅导航控制的动作空间进行建模,通过状态预测进而选择行为的最优规划,实现用户期望总值的最大化.首先介绍了POMDP的原理及模型,然后提出了基于POMDP用户意图的智能轮椅控制状态空间、动作空间、观察值集合、奖赏值和概率分布,进而提出了一种基于概率密度函数的用户意图求解方法.最后,对基于POMDP用户意图建模的智能轮椅导航控制进行了试验,并对试验结果进行了分析,从而验证了所提方法的实时性和有效性. 展开更多
关键词 智能轮椅 用户意图模型 部分可观测马尔可夫决策过程 控制方法
在线阅读 下载PDF
部分可观测Markov环境下的激励学习综述
20
作者 谢丽娟 陈焕文 《长沙电力学院学报(自然科学版)》 2002年第2期23-27,共5页
对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为... 对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为基于状态的值函数学习 ;一类为策略空间的直接搜索 .最后分析了这些方法尚存在的问题 ,并指出了未来可能的研究方向 . 展开更多
关键词 激励学习 部分可观测markov决策过程 机器学习 人工智能 智能体 值函数学习 策略空间
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部