-
题名结合元学习和安全区域探索的进化强化学习方法
- 1
-
-
作者
李晓益
胡滨
秦进
彭安浪
-
机构
贵州大学计算机科学与技术学院公共大数据国家重点实验室
贵州大学计算机科学与技术学院
贵州兆信数码技术有限公司
-
出处
《计算机工程与应用》
北大核心
2025年第1期361-367,共7页
-
基金
贵州省科技计划项目([2020]1Y275)
贵州省科技计划项目(黔科合支撑[2022]一般267)
国家自然科学基金(62066006)。
-
文摘
最近提出的进化强化学习(evolutionary reinforcement learning,ERL)框架表明了利用进化算法提高强化学习的探索能力对性能提升的好处。然而,现有的基于ERL的方法并没有完全解决进化算法中突变的可伸缩性问题且由于进化算法本身的限制使得ERL解决问题的速度较为缓慢。为了使算法每一步的探索都被限制在安全区域中且能在较短的时间内收敛,运用元学习的思想,预训练一个初始的种群,这个种群只需要经过几次进化就能得到任务中不错的效果。将预训练过后的种群用于处理任务,在此过程中,利用敏感度调整种群突变的范围,限制种群在安全区域内进行突变,确保种群的突变不会带来无法预料的后果。该方法在来自OpenAI gym中的五种机器人运动中进行了评估。最终在所有测试的环境中,该方法在以ERL、CEM-RL以及两种最先进的RL算法、PPO和TD3为基线的比较中,取得了具有竞争性的效果。
-
关键词
进化强化学习
元学习
预训练
安全区域
突变算子
-
Keywords
evolutionary reinforcement learning
meta-learning
pre-training
safe region
mutation operator
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名鲁棒物联网多维时序数据预测方法
- 2
-
-
作者
沈忱
何勇
彭安浪
-
机构
贵州大学公共大数据国家重点实验室
贵州大学计算机科学与技术学院
贵州兆信数码技术有限公司
-
出处
《计算机工程》
北大核心
2025年第4期107-118,共12页
-
基金
贵州省科技支撑计划项目(黔科合支撑[2022]一般267)。
-
文摘
在物联网(IoT)场景中,数据在采集和传输过程中易受噪声的干扰,导致数据中存在一定的离群值与缺失值。现有的时间正则化矩阵分解模型通常考虑平方损失来衡量重构误差,忽略了处理存在异常数据的多维时间序列时,矩阵分解的质量同样是影响模型预测性能的关键因素。提出一种基于L_(2,log)范数的时间感知鲁棒非负矩阵分解多维时序预测框架(TARNMF)。TARNMF通过非负矩阵分解(NMF)和参数可学习的自回归(AR)时间正则项建立多维时序数据的时空相关性,基于存在离群值的数据服从拉普拉斯分布的假设,使用L_(2,log)范数来估计非负鲁棒矩阵分解中原始数据和重建矩阵的误差,以减小异常数据对预测模型的干扰。L_(2,log)范数具备现有鲁棒度量函数的性质,解决了L_(1)损失的近似问题,并通过压缩异常值的残差来减少其对目标函数的影响。此外,提出一种基于投影梯度下降的优化方法对模型进行优化。实验结果表明,TARNMF具有良好的可扩展性和鲁棒性,尤其在高维Solar数据集上,较次优结果的相对平均绝对误差降低了8.64%。同时,在噪声数据上的实验结果验证了TARNMF能高效地处理和预测存在异常数据的IoT时序数据。
-
关键词
L_(2
log)范数
非负矩阵分解
时间正则化矩阵分解
多维时序数据预测
鲁棒性
-
Keywords
L_(2,log)norm
Nonnegative Matrix Factorization(NMF)
temporal regularized matrix factorization
multidimensional time series data prediction
robustness
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-