- 
                题名基于不确定性权重的保守Q学习离线强化学习算法
                    被引量:2
            
- 1
- 
                
            
- 
                
                            作者
                                王天久
                                刘全
                                乌兰
                
            
- 
                    机构
                    
                            苏州大学计算机科学与技术学院
                            苏州大学江苏省计算机信息处理技术重点实验室
                    
                
- 
                出处
                
                
                    《计算机科学》
                    
                            CSCD
                            北大核心
                    
                2024年第9期265-272,共8页
            
- 
                        基金
                        
                                    国家自然科学基金(61772355,61702055,61876217,62176175)
                                    新疆维吾尔自治区自然科学基金(2022D01A238)
                                    江苏高校优势学科建设工程资助项目。
                        
                    
- 
                    文摘
                        离线强化学习(Offline RL)中,智能体不与环境交互而是从一个固定的数据集中获得数据进行学习,这是强化学习领域研究的一个热点。目前多数离线强化学习算法对策略训练过程进行保守正则化处理,训练策略倾向于选择存在于数据集中的动作,从而解决离线强化学习中对数据集分布外(OOD)的状态-动作价值估值错误的问题。保守Q学习算法(CQL)通过值函数正则赋予分布外状态-动作较低的价值来避免该问题。然而,由于该算法正则化过于保守,数据集内的分布内状态-动作也被赋予了较低的价值,难以达到训练策略选择数据集中动作的目的,因此很难学习到最优策略。针对该问题,提出了一种基于不确定性权重的保守Q学习算法(UWCQL)。该方法引入不确定性计算,在保守Q学习算法的基础上添加不确定性权重,对不确定性高的动作给予更高的保守权重,使得策略能更合理地选择数据集分布内的状态-动作。将UWCQL算法应用于D4RL的MuJoCo数据集中进行了实验,实验结果表明,UWCQL算法具有更好的性能表现,从而验证了算法的有效性。
                        
                    
            
- 
                    关键词
                    
                            离线强化学习
                            深度强化学习
                            强化学习
                            保守q学习
                            不确定性
                    
                
- 
                    Keywords
                    
                            Offline reinforcement learning
                            Deep reinforcement learning
                            Reinforcement learning
                            Conservative q-learning
                            Uncertainty
                    
                
- 
                    分类号
                    
                            
                                
                                    TP181
[自动化与计算机技术—控制理论与控制工程]                                
                            
                    
                
-