期刊文献+
共找到11,281篇文章
< 1 2 250 >
每页显示 20 50 100
玻尔兹曼优化Q-learning的高速铁路越区切换控制算法 被引量:3
1
作者 陈永 康婕 《控制理论与应用》 北大核心 2025年第4期688-694,共7页
针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误... 针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误码率等构建Q-learning算法回报函数;然后,提出玻尔兹曼搜索策略优化动作选择,以提高切换算法收敛性能;最后,综合考虑基站同频干扰的影响进行Q表更新,得到切换判决参数,从而控制切换执行.仿真结果表明:改进算法在不同运行速度和不同运行场景下,较传统算法能有效提高切换成功率,且满足无线通信服务质量QoS的要求. 展开更多
关键词 越区切换 5G-R q-learning算法 玻尔兹曼优化策略
在线阅读 下载PDF
融合Q-learning的A^(*)预引导蚁群路径规划算法
2
作者 殷笑天 杨丽英 +1 位作者 刘干 何玉庆 《传感器与微系统》 北大核心 2025年第8期143-147,153,共6页
针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素... 针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素,引导初始路径快速逼近最优解;其次,构建全局-局部双层信息素协同模型,利用全局层保留历史精英路径经验、局部层实时响应环境变化;最后,引入Q-learning方向性奖励函数优化决策过程,在路径拐点与障碍边缘施加强化引导信号。实验表明:在25×24中等复杂度地图中,QHACO算法较传统ACO算法最优路径缩短22.7%,收敛速度提升98.7%;在50×50高密度障碍环境中,最优路径长度优化16.9%,迭代次数减少95.1%。相比传统ACO算法,QHACO算法在最优性、收敛速度与避障能力上均有显著提升,展现出较强环境适应性。 展开更多
关键词 蚁群优化算法 路径规划 局部最优 收敛速度 q-learning 分层信息素 A^(*)算法
在线阅读 下载PDF
改进的自校正Q-learning应用于智能机器人路径规划 被引量:1
3
作者 任伟 朱建鸿 《机械科学与技术》 北大核心 2025年第1期126-132,共7页
为了解决智能机器人路径规划中存在的一些问题,提出了一种改进的自校正Q-learning算法。首先,对其贪婪搜索因子进行了改进,采用动态的搜索因子,对探索和利用之间的关系进行了更好地平衡;其次,在Q值初始化阶段,利用当前位置和目标位置距... 为了解决智能机器人路径规划中存在的一些问题,提出了一种改进的自校正Q-learning算法。首先,对其贪婪搜索因子进行了改进,采用动态的搜索因子,对探索和利用之间的关系进行了更好地平衡;其次,在Q值初始化阶段,利用当前位置和目标位置距离的倒数代替传统的Q-learning算法中的全零或随机初始化,大大加快了收敛速度;最后,针对传统的Q-learning算法中Q函数的最大化偏差,引入自校正估计器来修正最大化偏差。通过仿真实验对提出的改进思路进行了验证,结果表明:改进的算法能够很大程度的提高算法的学习效率,在各个方面相比传统算法都有了较大的提升。 展开更多
关键词 路径规划 q-learning 贪婪搜索 初始化 自校正
在线阅读 下载PDF
基于Double Q-Learning的改进蝗虫算法求解分布式柔性作业车间逆调度问题
4
作者 胡旭伦 唐红涛 《机床与液压》 北大核心 2025年第20期52-63,共12页
针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合... 针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合三层编码方式;提出一种基于逆调度特点的种群初始化方式以提高种群质量;引入权重平衡因子来提高非支配解存档中解集的多样性;将强化学习中的Double Q-Learning机制融入非支配解的选择过程,通过动态动作策略优化目标解的选取,提升调度方案的全局搜索能力与局部优化效率。最后构建26组算例,通过策略有效性分析证明了所提策略可显著提升DQIGOA算法的性能,并通过与NSGA-II、DE和SPEA-II算法进行对比证明DQIGOA算法的有效性。结果表明:相比NSGA-II、DE和SPEA-II算法,DQIGOA算法在HV、IGD、SP指标上均有优势,证明了DQIGOA能够有效提升解的收敛速度和多样性分布,在动态扰动条件下表现出更强的鲁棒性。 展开更多
关键词 分布式柔性作业车间 逆调度 蝗虫算法 Double q-learning机制
在线阅读 下载PDF
Fault-observer-based iterative learning model predictive controller for trajectory tracking of hypersonic vehicles 被引量:2
5
作者 CUI Peng GAO Changsheng AN Ruoming 《Journal of Systems Engineering and Electronics》 2025年第3期803-813,共11页
This work proposes the application of an iterative learning model predictive control(ILMPC)approach based on an adaptive fault observer(FOBILMPC)for fault-tolerant control and trajectory tracking in air-breathing hype... This work proposes the application of an iterative learning model predictive control(ILMPC)approach based on an adaptive fault observer(FOBILMPC)for fault-tolerant control and trajectory tracking in air-breathing hypersonic vehicles.In order to increase the control amount,this online control legislation makes use of model predictive control(MPC)that is based on the concept of iterative learning control(ILC).By using offline data to decrease the linearized model’s faults,the strategy may effectively increase the robustness of the control system and guarantee that disturbances can be suppressed.An adaptive fault observer is created based on the suggested ILMPC approach in order to enhance overall fault tolerance by estimating and compensating for actuator disturbance and fault degree.During the derivation process,a linearized model of longitudinal dynamics is established.The suggested ILMPC approach is likely to be used in the design of hypersonic vehicle control systems since numerical simulations have demonstrated that it can decrease tracking error and speed up convergence when compared to the offline controller. 展开更多
关键词 hypersonic vehicle actuator fault tracking control iterative learning control(ILC) model predictive control(MPC) fault observer
在线阅读 下载PDF
基于Q-learning分布式训练的无人机自组织网络AODV路由协议
6
作者 孙晨 王宇昆 +1 位作者 万家梅 侯亮 《现代电子技术》 北大核心 2025年第15期103-109,共7页
针对无人机自组织网络节点的高度动态性和拓扑稀疏性,现有的结合Q学习的路由协议暴露出Q值更新滞后、难以迅速适应网络拓扑快速变动的问题,文中提出一种基于Q-learning分布式训练的AODV(DQL-AODV)路由协议。该协议中将每个节点视为一个... 针对无人机自组织网络节点的高度动态性和拓扑稀疏性,现有的结合Q学习的路由协议暴露出Q值更新滞后、难以迅速适应网络拓扑快速变动的问题,文中提出一种基于Q-learning分布式训练的AODV(DQL-AODV)路由协议。该协议中将每个节点视为一个智能体,依据分布式训练的Q值对需转发的数据包进行下一跳选择,每个节点的Q值进行局部更新和全局更新。首先,根据节点间链路的寿命和节点负载能力计算局部奖励值,每次Hello消息接收将更稳定的下一跳链路更新为较高的Q值;其次,路由请求消息到达目标节点后将执行一次全局Q值更新,根据数据包的转发跳数和平均端到端延迟计算全局奖励值;最后,结合Q-learning算法优化Hello消息发送机制,有效地平衡网络拓扑感知程度与路由开销。仿真结果证明,相比于QL-AODV,所提方法在平均端到端时延、数据吞吐量、包到达率和路由开销4个网络性能指标总体上分别优化了19.93%、15.48%、6.24%、11.76%,且收敛能力更强,验证了该协议的有效性。 展开更多
关键词 无人机自组网 AODV路由协议 q-learning分布式训练 链路质量 Hello消息 路由决策
在线阅读 下载PDF
A New Technique for Constructing Higher-order Iterative Methods to Solve Nonlinear Systems
7
作者 XIAO Xiaoyong 《应用数学》 北大核心 2025年第3期762-774,共13页
In this paper,a new technique is introduced to construct higher-order iterative methods for solving nonlinear systems.The order of convergence of some iterative methods can be improved by three at the cost of introduc... In this paper,a new technique is introduced to construct higher-order iterative methods for solving nonlinear systems.The order of convergence of some iterative methods can be improved by three at the cost of introducing only one additional evaluation of the function in each step.Furthermore,some new efficient methods with a higher-order of convergence are obtained by using only a single matrix inversion in each iteration.Analyses of convergence properties and computational efficiency of these new methods are made and testified by several numerical problems.By comparison,the new schemes are more efficient than the corresponding existing ones,particularly for large problem sizes. 展开更多
关键词 Systems of nonlinear equation Order of convergence Higher-order method Extended Newton iteration Computational efficiency
在线阅读 下载PDF
Adaptive dwell scheduling based on Q-learning for multifunctional radar system
8
作者 HENG Siyu CHENG Ting +2 位作者 HE Zishu WANG Yuanqing LIU Luqing 《Journal of Systems Engineering and Electronics》 2025年第4期985-993,共9页
The dwell scheduling problem for a multifunctional radar system is led to the formation of corresponding optimiza-tion problem.In order to solve the resulting optimization prob-lem,the dwell scheduling process in a sc... The dwell scheduling problem for a multifunctional radar system is led to the formation of corresponding optimiza-tion problem.In order to solve the resulting optimization prob-lem,the dwell scheduling process in a scheduling interval(SI)is formulated as a Markov decision process(MDP),where the state,action,and reward are specified for this dwell scheduling problem.Specially,the action is defined as scheduling the task on the left side,right side or in the middle of the radar idle time-line,which reduces the action space effectively and accelerates the convergence of the training.Through the above process,a model-free reinforcement learning framework is established.Then,an adaptive dwell scheduling method based on Q-learn-ing is proposed,where the converged Q value table after train-ing is utilized to instruct the scheduling process.Simulation results demonstrate that compared with existing dwell schedul-ing algorithms,the proposed one can achieve better scheduling performance considering the urgency criterion,the importance criterion and the desired execution time criterion comprehen-sively.The average running time shows the proposed algorithm has real-time performance. 展开更多
关键词 multifunctional radar dwell scheduling reinforce-ment learning q-learning.
在线阅读 下载PDF
Iterative solution and numerical analysis of vehicle-track-bridge nonlinear coupled vibration considering viscoelasticity of rail pads
9
作者 CUI Wei-tao GAO Liang +3 位作者 XIAO Hong MIAO Shuai-jie NIU Zhen-yu XIAO Yi-xiong 《Journal of Central South University》 2025年第7期2750-2765,共16页
To investigate the effect of rail pad viscoelasticity on vehicle-track-bridge coupled vibration,the fractional Voigt and Maxwell model in parallel(FVMP)was used to characterize the viscoelastic properties of the rail ... To investigate the effect of rail pad viscoelasticity on vehicle-track-bridge coupled vibration,the fractional Voigt and Maxwell model in parallel(FVMP)was used to characterize the viscoelastic properties of the rail pad based on dynamic performance test results.The FVMP model was then incorporated into the vehicle-track-bridge nonlinear coupled model,and its dynamic response was solved using a cross-iteration algorithm with a relaxation factor.Results indicate that the nonlinear coupled model achieves good convergence when the time step is less than 0.001 s,with the cross-iteration algorithm adjusting the wheel-rail force.In particular,the best convergence is achieved when the relaxation factor is within the range of 0.3-0.5.The FVMP model effectively characterizes the viscoelasticity of rail pads across a temperature range of±20℃and a frequency range of 1-1000 Hz.The viscoelasticity of rail pads significantly affects high-frequency vibrations in the coupled system,particularly around 50 Hz,corresponding to the wheel-rail coupled resonance range.Considering rail pad viscoelasticity is essential for accurately predicting track structure vibrations. 展开更多
关键词 high-speed railway rail pads fractional derivative vehicle-track-bridge coupled model iterative algorithm
在线阅读 下载PDF
基于Q-learning的移动群智感知任务分配算法 被引量:11
10
作者 胡华 张强 +2 位作者 胡海洋 陈洁 李忠金 《计算机集成制造系统》 EI CSCD 北大核心 2018年第7期1774-1783,共10页
移动群智感知环境中的任务分配是工作流研究领域中一个新方向,为解决应用任务在移动智能用户间的合理调度与分配,本文将机器学习中的Q-learning方法引入到工作流任务分配问题中,提出一种针对多目标的强化贪婪迭代方法。该算法从宏观层... 移动群智感知环境中的任务分配是工作流研究领域中一个新方向,为解决应用任务在移动智能用户间的合理调度与分配,本文将机器学习中的Q-learning方法引入到工作流任务分配问题中,提出一种针对多目标的强化贪婪迭代方法。该算法从宏观层面上通过强化学习的每一次探索进行学习优化,微观层面上通过贪心算法为每一次迭代选择局部最优解,增强了算法的性能。对比其他3种算法,所提算法不但能降低时间和能耗开销,而且收敛速度较快,能够提高感知效率,可作为移动群体感知的工作流调度问题走向智能化的一种尝试。 展开更多
关键词 移动群智感知 q-learning方法 任务分配 算法
在线阅读 下载PDF
基于Q-learning算法的vEPC虚拟网络功能部署方法 被引量:16
11
作者 袁泉 汤红波 +2 位作者 黄开枝 王晓雷 赵宇 《通信学报》 EI CSCD 北大核心 2017年第8期172-182,共11页
针对虚拟化演进分组核心网(v EPC)环境下,现有虚拟网络功能(VNF)部署方法无法在优化时延的同时保证服务链部署收益的问题,提出一种改进的基于Q-learning算法的v EPC虚拟网络功能部署方法。在传统0-1规划模型的基础上,采用马尔可夫决策... 针对虚拟化演进分组核心网(v EPC)环境下,现有虚拟网络功能(VNF)部署方法无法在优化时延的同时保证服务链部署收益的问题,提出一种改进的基于Q-learning算法的v EPC虚拟网络功能部署方法。在传统0-1规划模型的基础上,采用马尔可夫决策过程建立了v EPC服务链部署的空间—时间优化模型,并设计了改进的Q-learning算法求解。该方法同时考虑了空间维度下的EPC服务链虚拟映射和时间维度下的VNF生命周期管理,实现了VNF部署的收益—时延多目标优化。仿真结果表明,与其他VNF部署方法相比,该方法在降低网络时延的同时提高了VNF部署的收益和请求接受率。 展开更多
关键词 5G 虚拟网络功能 服务功能链部署 q-learning
在线阅读 下载PDF
Q-learning算法及其在囚徒困境问题中的实现 被引量:7
12
作者 张春阳 陈小平 +1 位作者 刘贵全 蔡庆生 《计算机工程与应用》 CSCD 北大核心 2001年第13期121-122,128,共3页
Q-learning是一种优良的强化学习算法。该文首先阐述了Q-learning的基本学习机制,然后以囚徒困境问题为背景,分析、对比T Q-learning算法与TFT算法,验证了 Q-learning算法的优良特性。
关键词 机器学习 强化学习 q-learning算法 囚徒困境问题 人工智能
在线阅读 下载PDF
基于Q-Learning的自适应容错路由算法的研究 被引量:3
13
作者 姚怡 覃华 苏一丹 《计算机工程与应用》 CSCD 北大核心 2006年第10期123-125,共3页
提出了使用Q-Learning来构作容错路由算法的方法,利用Q-Learning算法的自适应性来实现路由容错,在二维格子环境下的实验证明了算法的可行性。算法工作时只需利用源点本地存储的其它节点的状态、互连信息,即可迭代找出一条到达目标节点... 提出了使用Q-Learning来构作容错路由算法的方法,利用Q-Learning算法的自适应性来实现路由容错,在二维格子环境下的实验证明了算法的可行性。算法工作时只需利用源点本地存储的其它节点的状态、互连信息,即可迭代找出一条到达目标节点的容错通路,不增加网络的通信量,不依赖其它的路由控制节点。 展开更多
关键词 增强学习 q-learning 容错路由
在线阅读 下载PDF
QL-OLSR:一种基于Q-Learning思想优化的移动自组织网络路由协议 被引量:7
14
作者 熊轲 金鑫 刘强 《北京交通大学学报》 CAS CSCD 北大核心 2020年第2期66-73,共8页
现有的OLSR中能够完成对全网路由信息的交互,但是随着节点的移动速度增加,网络拓扑也在快速动态变化,从而导致了路由信息更新慢,网络性能下降,端到端时延大、包丢失率增加和节点吞吐量小等问题.针对上述问题,提出了一种基于Q-Learning... 现有的OLSR中能够完成对全网路由信息的交互,但是随着节点的移动速度增加,网络拓扑也在快速动态变化,从而导致了路由信息更新慢,网络性能下降,端到端时延大、包丢失率增加和节点吞吐量小等问题.针对上述问题,提出了一种基于Q-Learning思想的移动自组网OLSR路由策略,该路由策略从节点移动性、链路速率和节点跳数三方面进行考虑.与传统方法相比,QLearning能够在线学习,适应MANET高度动态变化的拓扑结构,检测不同时间点的节点移动程度,使每个节点能相应的更新路由度量,从而提高路由协议的稳定性,提供可靠的路由路径.实验结果表明,改进的方法具有更低的端到端延迟、更小的包丢失率以及更高的吞吐量. 展开更多
关键词 q-learning思想 OLSR 路由策略 节点移动性 路由路径
在线阅读 下载PDF
基于Q-learning的工业互联网资源优化调度 被引量:3
15
作者 张延华 杨乐 +3 位作者 李萌 吴文君 杨睿哲 司鹏搏 《北京工业大学学报》 CAS CSCD 北大核心 2020年第11期1213-1221,共9页
面对5G与工业互联网中日益增长的数据传输与计算需求,移动边缘计算已逐渐成为一种新兴的解决方法,可有效应对工业互联网设备自身计算能力的不足,并充分缓解网络拥塞等问题.然而,当数量庞大的设备同时发送计算请求时,往往会超出边缘计算... 面对5G与工业互联网中日益增长的数据传输与计算需求,移动边缘计算已逐渐成为一种新兴的解决方法,可有效应对工业互联网设备自身计算能力的不足,并充分缓解网络拥塞等问题.然而,当数量庞大的设备同时发送计算请求时,往往会超出边缘计算服务器的计算负载.此外,工业互联网设备通常仅装配有限的能量供给,无法承受能源消耗过多的任务,且庞大的设备数量还决定了网络连接、数据计算等系统开销.因此,面向工业互联网场景中机器类型通信设备的计算任务卸载问题,提出一种基于Q-learning的计算任务卸载决策方法,综合考虑任务卸载过程中的网络环境和服务器状态,并联合优化卸载过程产生的时延、能耗和经济开销.仿真结果表明,所提优化框架可有效减少计算任务卸载系统的时延、能耗和经济的总开销. 展开更多
关键词 资源优化 计算任务卸载 工业互联网 移动边缘计算 q-learning 机器类型通信设备
在线阅读 下载PDF
基于情绪认知评价理论和Q-learning的人机交互中情感决策 被引量:2
16
作者 赵涓涓 杨建峰 +1 位作者 陈俊杰 王玉友 《太原理工大学学报》 CAS 北大核心 2012年第6期710-714,共5页
在情感认知的学习与决策中引入了情绪认知评价理论,提出了基于情绪认知评价理论的人机交互情感决策,对情感行为的选取进行了优化;在情感迷宫模型中,对该决策算法进行了Matlab仿真试验,试验结果表明使用BpQ-learning算法的智能体在寻找... 在情感认知的学习与决策中引入了情绪认知评价理论,提出了基于情绪认知评价理论的人机交互情感决策,对情感行为的选取进行了优化;在情感迷宫模型中,对该决策算法进行了Matlab仿真试验,试验结果表明使用BpQ-learning算法的智能体在寻找目标情感过程中得到的平均奖励值高、试探的次数少,达到了预期的试验目标。 展开更多
关键词 情感计算 q-learning算法 情绪认知评价 情感决策
在线阅读 下载PDF
改进Q-Learning的路径规划算法研究 被引量:7
17
作者 宋丽君 周紫瑜 +2 位作者 李云龙 侯佳杰 何星 《小型微型计算机系统》 CSCD 北大核心 2024年第4期823-829,共7页
针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在... 针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在更新函数中设计深度学习因子以保证算法探索概率;融合遗传算法,避免陷入局部路径最优同时按阶段探索最优迭代步长次数,以减少动态地图探索重复率;最后提取输出的最优路径关键节点采用贝塞尔曲线进行平滑处理,进一步保证路径平滑度和可行性.实验通过栅格法构建地图,对比实验结果表明,改进后的算法效率相较于传统算法在迭代次数和路径上均有较大优化,且能够较好的实现动态地图下的路径规划,进一步验证所提方法的有效性和实用性. 展开更多
关键词 移动机器人 路径规划 q-learning算法 平滑处理 动态避障
在线阅读 下载PDF
改进麻雀算法和Q-Learning优化集成学习轨道电路故障诊断 被引量:9
18
作者 徐凯 郑浩 +1 位作者 涂永超 吴仕勋 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第11期4426-4437,共12页
无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻... 无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻雀算法和Q-Learning优化集成学习的轨道电路故障诊断新方法,该方法有机地将集成学习与计算智能和强化学习相结合,充分挖掘轨道电路故障特征,提高性能评价指标。首先,使用卷积神经网络、长短期记忆网络和多层感知器深度学习模型,以及支持向量机和随机森林传统机器学习模型,共同构成集成学习基学习器,解决单一学习模型的不足,不同基学习器的使用保证集成学习的多样性。从自动化机器学习角度出发,采用改进麻雀算法优化该集成学习模型的结构和参数,克服其结构和参数难以确定的问题。在此之上,引入强化学习Q-learning对集成模型中各基学习器组合权重进行优化,智能地确定集成学习各基学习器的组合权重。最后,将集成学习模型的预测结果与真实结果比较后得到误差,再采用BP神经网络对预测结果进行补偿修正,进一步提高轨道电路的故障诊断性能评价指标。仿真结果表明,利用所提方法进一步改善了轨道电路故障诊断的准确度、精确度、召回率和F1值等性能评价指标。 展开更多
关键词 无绝缘轨道电路 故障诊断 集成学习 改进麻雀算法 q-learning 误差修正
在线阅读 下载PDF
基于不完全信息随机博弈与Q-learning的防御决策方法 被引量:10
19
作者 张红旗 杨峻楠 张传富 《通信学报》 EI CSCD 北大核心 2018年第8期56-68,共13页
针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问... 针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问题,将Q-learning引入随机博弈中,使防御者在攻防对抗中通过学习得到的相关参数求解贝叶斯纳什均衡。在此基础上,设计了能够在线学习的防御决策算法。仿真实验验证了所提方法的有效性。 展开更多
关键词 网络攻防 随机博弈 q-learning 贝叶斯纳什均衡 防御决策
在线阅读 下载PDF
Femtocell双层网络中基于Q-learning的子信道分配方案 被引量:1
20
作者 杨秀清 陈禹 李正富 《电子与信息学报》 EI CSCD 北大核心 2017年第3期598-604,共7页
在Femtocell家庭基站(Femtocell Base Station,FBS)组成的异构网络中,为提升网络的频谱效率,FBS与Macrocell宏基站(Macrocell Base Station,MBS)一般要求是同频部署,然而同频部署会产生同信道干扰。为了实现FBS的大规模部署,降低网络同... 在Femtocell家庭基站(Femtocell Base Station,FBS)组成的异构网络中,为提升网络的频谱效率,FBS与Macrocell宏基站(Macrocell Base Station,MBS)一般要求是同频部署,然而同频部署会产生同信道干扰。为了实现FBS的大规模部署,降低网络同信道干扰影响变得尤为重要。该文提出一种基于Q-learning的子信道分配方案,既保证大量部署的FBS不会对MBS带来过高的跨层干扰,同时也降低了FBS之间的同层干扰。同时针对FBS稀疏部署和密集部署的场景,分别进行了算法的仿真验证,其仿真结果表明该算法降低了干扰,验证了理论的正确性。 展开更多
关键词 FEMTOCELL 双层网络 q-learning 子信道分配
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部