期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
采用时间差分算法的九路围棋机器博弈系统 被引量:5
1
作者 张小川 唐艳 梁宁宁 《智能系统学报》 北大核心 2012年第3期278-282,共5页
围棋机器博弈是机器博弈中重要的分支之一,其庞大的博弈空间给机器博弈研究者带来了巨大挑战.目前围棋机器博弈多采用静态估值搜索与蒙特卡洛树搜索,故将时间差分算法引入至九路围棋机器博弈系统中,提出基于时间差分算法的围棋机器博弈... 围棋机器博弈是机器博弈中重要的分支之一,其庞大的博弈空间给机器博弈研究者带来了巨大挑战.目前围棋机器博弈多采用静态估值搜索与蒙特卡洛树搜索,故将时间差分算法引入至九路围棋机器博弈系统中,提出基于时间差分算法的围棋机器博弈系统模型,该博弈系统具有一定的自学习能力,能在不断的对弈中逐步提高博弈能力.通过与采用α-β搜索算法的博弈系统进行实际对弈,证明了该方法的可行性. 展开更多
关键词 机器博弈 九路围棋 围棋机器博弈 时间差分算法
在线阅读 下载PDF
一种基于随机投影的贝叶斯时间差分算法 被引量:1
2
作者 刘全 于俊 +2 位作者 王辉 傅启明 朱斐 《电子学报》 EI CAS CSCD 北大核心 2016年第11期2752-2757,共6页
在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来... 在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来求解新样本的近似线性逼近,以提高算法的执行速度,但时间复杂度依然较高.针对在状态空间中近似状态的选择问题,在高斯过程框架下提出一种基于随机投影的贝叶斯时间差分算法,该算法利用哈希函数把字典状态集合中的元素映射成哈希值,根据哈希值进行分组,进而减少状态之间的比较.实验结果表明,该方法不仅能够提高算法的执行速度,而且较好地平衡了评估状态值函数精度和算法执行时间. 展开更多
关键词 强化学习 马尔科夫决策过程 高斯过程 随机投影 时间差分算法
在线阅读 下载PDF
一种加速时间差分算法收敛的方法 被引量:3
3
作者 何斌 刘全 +3 位作者 张琳琳 时圣苗 陈红名 闫岩 《自动化学报》 EI CAS CSCD 北大核心 2021年第7期1679-1688,共10页
时间差分算法(Temporal difference methods,TD)是一类模型无关的强化学习算法.该算法拥有较低的方差和可以在线(On-line)学习的优点,得到了广泛的应用.但对于一种给定的TD算法,往往只能通过调整步长参数或其他超参数来加速收敛,这也就... 时间差分算法(Temporal difference methods,TD)是一类模型无关的强化学习算法.该算法拥有较低的方差和可以在线(On-line)学习的优点,得到了广泛的应用.但对于一种给定的TD算法,往往只能通过调整步长参数或其他超参数来加速收敛,这也就造成了加速TD算法收敛的方法匮乏.针对此问题提出了一种利用蒙特卡洛算法(Monte Carlo methods,MC)来加速TD算法收敛的方法(Accelerate TD by MC,ATDMC).该方法不仅可以适用于绝大部分的TD算法,而且不需要改变在线学习的方式.为了证明方法的有效性,分别在同策略(On-policy)评估、异策略(Off-policy)评估和控制(Control)三个方面进行了实验.实验结果表明ATDMC方法可以有效地加速各类TD算法. 展开更多
关键词 强化学习 时间差分算法 蒙特卡罗算法 加速收敛
在线阅读 下载PDF
基于钟差预测辅助的TDCP测速研究 被引量:2
4
作者 张翼 夏林元 +1 位作者 李欢 夏敬潮 《河南理工大学学报(自然科学版)》 CAS 北大核心 2019年第3期47-53,共7页
针对重特大灾害发生时密集废墟或城市峡谷造成的信号频繁遮挡,以及由高压电力通讯设施或发生地震等灾害时产生的复杂强电子干扰而无法测速的问题,基于时间序列理论,对接收机钟差进行短期预测,并将钟差预测辅助载波相位时间差分(time-dif... 针对重特大灾害发生时密集废墟或城市峡谷造成的信号频繁遮挡,以及由高压电力通讯设施或发生地震等灾害时产生的复杂强电子干扰而无法测速的问题,基于时间序列理论,对接收机钟差进行短期预测,并将钟差预测辅助载波相位时间差分(time-differenced carrier phase,TDCP)算法进行解算,以实现恶劣环境下载体获取三维测速信息的功能。由于TDCP避免了整周模糊度解算的问题,能够有效削弱具有明显时间序列的共模误差,具有短期精度高的特点,因此,本文利用少于4颗的GPS有效卫星星座,通过ARIMA模型得到一定精度的接收机钟差短期预测值,来扩充测速观测条件,并结合TDCP获取短期较高精度的测速结果。实测数据表明,本方案能在80 s的时间尺度内,在有效卫星数不足的情况下,无需增加额外硬件即可满足载体测速需求,且测速精度在动态条件下可以达到分米级。 展开更多
关键词 ARIMA模型 钟差预测 载波相位时间差分算法 测速
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部