离线强化学习旨在仅通过使用预先收集的离线数据集进行策略的有效学习,从而减少与环境直接交互所带来的高昂成本。然而,由于缺少环境对智能体行为的交互反馈,从离线数据集中学习到的策略可能会遇到数据分布偏移的问题,进而导致外推误差...离线强化学习旨在仅通过使用预先收集的离线数据集进行策略的有效学习,从而减少与环境直接交互所带来的高昂成本。然而,由于缺少环境对智能体行为的交互反馈,从离线数据集中学习到的策略可能会遇到数据分布偏移的问题,进而导致外推误差的不断加剧。当前方法多采用策略约束或模仿学习方法来缓解这一问题,但其学习到的策略通常较为保守。针对上述难题,提出一种基于自适应分位数的方法。具体而言,该方法在双Q估计的基础上进一步利用双Q的估计差值大小对分布外未知动作的价值高估情况进行评估,同时结合分位数思想自适应调整分位数来校正过估计偏差。此外,构建分位数优势函数作为策略约束项权重以平衡智能体对数据集的探索和模仿,从而缓解策略学习的保守性。最后在D4RL(datasets for deep data-driven reinforcement learning)数据集上验证算法的有效性,该算法在多个任务数据集上表现优异,同时展现出在不同场景应用下的广泛潜力。展开更多
针对现有MEMS零位随机漂移的缺陷,本文建立关于温度约束的确定性模型MEMS陀螺零位漂移补偿模型。首先,依据MEMS陀螺信号的测量模型,将陀螺信号误差分解为确定性误差和随机性误差,针对由温度引入的确定性误差,建立温度-零偏和温度-主频...针对现有MEMS零位随机漂移的缺陷,本文建立关于温度约束的确定性模型MEMS陀螺零位漂移补偿模型。首先,依据MEMS陀螺信号的测量模型,将陀螺信号误差分解为确定性误差和随机性误差,针对由温度引入的确定性误差,建立温度-零偏和温度-主频率分量确定性约束模型,有效消除信号序列中的温度引入趋势项和辨识周期项;其次,利用自回归滑动平均模型(Auto-Regressive and Moving Average Model,简称为ARMA模型)逼近MEMS陀螺信号中的随机误差项,准确地预测出随机误差的变化趋势;最后,采用Kalman滤波优化ARMA模型的预测效果,进一步提高模型的状态估计精度。理论分析和实验结果验证了该模型的鲁棒性和有效性。展开更多
给出一种改进的立体匹配算法。根据视差场的极限约束,采用图像线分割的匹配方法得到初始视差,由基于初始视差的交叉检测技术和可信度约束提取高可靠度的GCP点。针对视差图中的不可靠点,加入Bilateral Filter的自适应加权中值滤波,在由...给出一种改进的立体匹配算法。根据视差场的极限约束,采用图像线分割的匹配方法得到初始视差,由基于初始视差的交叉检测技术和可信度约束提取高可靠度的GCP点。针对视差图中的不可靠点,加入Bilateral Filter的自适应加权中值滤波,在由均值偏移图像分割算法得到的分割区域内,对像素的视差值进行投票,有效遏制局外点,得到更合理的视差图。在Middlebury test set上进行的测试结果表明,该算法具有较好的视差估计精度。展开更多
文摘离线强化学习旨在仅通过使用预先收集的离线数据集进行策略的有效学习,从而减少与环境直接交互所带来的高昂成本。然而,由于缺少环境对智能体行为的交互反馈,从离线数据集中学习到的策略可能会遇到数据分布偏移的问题,进而导致外推误差的不断加剧。当前方法多采用策略约束或模仿学习方法来缓解这一问题,但其学习到的策略通常较为保守。针对上述难题,提出一种基于自适应分位数的方法。具体而言,该方法在双Q估计的基础上进一步利用双Q的估计差值大小对分布外未知动作的价值高估情况进行评估,同时结合分位数思想自适应调整分位数来校正过估计偏差。此外,构建分位数优势函数作为策略约束项权重以平衡智能体对数据集的探索和模仿,从而缓解策略学习的保守性。最后在D4RL(datasets for deep data-driven reinforcement learning)数据集上验证算法的有效性,该算法在多个任务数据集上表现优异,同时展现出在不同场景应用下的广泛潜力。
文摘针对现有MEMS零位随机漂移的缺陷,本文建立关于温度约束的确定性模型MEMS陀螺零位漂移补偿模型。首先,依据MEMS陀螺信号的测量模型,将陀螺信号误差分解为确定性误差和随机性误差,针对由温度引入的确定性误差,建立温度-零偏和温度-主频率分量确定性约束模型,有效消除信号序列中的温度引入趋势项和辨识周期项;其次,利用自回归滑动平均模型(Auto-Regressive and Moving Average Model,简称为ARMA模型)逼近MEMS陀螺信号中的随机误差项,准确地预测出随机误差的变化趋势;最后,采用Kalman滤波优化ARMA模型的预测效果,进一步提高模型的状态估计精度。理论分析和实验结果验证了该模型的鲁棒性和有效性。
文摘给出一种改进的立体匹配算法。根据视差场的极限约束,采用图像线分割的匹配方法得到初始视差,由基于初始视差的交叉检测技术和可信度约束提取高可靠度的GCP点。针对视差图中的不可靠点,加入Bilateral Filter的自适应加权中值滤波,在由均值偏移图像分割算法得到的分割区域内,对像素的视差值进行投票,有效遏制局外点,得到更合理的视差图。在Middlebury test set上进行的测试结果表明,该算法具有较好的视差估计精度。