- 
                题名基于梯度分布调节策略的Xgboost算法优化
                    被引量:9
            
- 1
- 
                
            
- 
                
                            作者
                                李浩
                                朱焱
                
            
- 
                    机构
                    
                            西南交通大学信息科学与技术学院
                    
                
- 
                出处
                
                
                    《计算机应用》
                    
                            CSCD
                            北大核心
                    
                2020年第6期1633-1637,共5页
            
- 
                        基金
                        
                                    四川省科技计划项目(2019YFSY0032)。
                        
                    
- 
                    文摘
                        为了解决集成学习模型Xgboost在二分类问题中少数类检出率低的问题,提出了基于梯度分布调节策略的改进的Xgboost算法--LCGHA-Xgboost。首先,通过定义损失贡献(LC)来模拟Xgboost算法中样本个体的损失量;而后,通过定义损失贡献密度(LCD)来衡量Xgboost算法中样本被正确分类的难易程度;最后,提出了梯度分布调节算法LCGHA,依据LCD动态调整样本个体的一阶梯度分布,间接地增大难分样本(主要存在于少数类中)的损失量,减小易分样本(主要存在于多数类中)的损失量,使Xgboost算法偏向对难分样本的学习。实验结果表明,与Xgboost、GBDT、随机森林(Random_Forest)这三大集成学习算法相比,LCGHA-Xgboost算法在多个UCI数据集上的召回率(Recall)值有5.4%~16.7%的提高,AUC值有0.94%~7.41%的提高;在垃圾网页数据集WebSpam-UK2007和DC2010数据集上所提算法的Recall值更是有44.4%~383.3%的提高,AUC值有5.8%~35.6%的提高。LCGHA-Xgboost算法可以有效提高对少数类的分类检出能力,减小少数类的分类错误率。
                        
                    
            
- 
                    关键词
                    
                            不平衡分类
                            Xgboost
                            梯度分布
                            损失贡献
                            损失贡献密度
                    
                
- 
                    Keywords
                    
                            imbalanced classification
                            Xgboost
                            gradient distribution
                            loss contribution
                            loss contribution density
                    
                
- 
                    分类号
                    
                            
                                
                                    TP181
[自动化与计算机技术—控制理论与控制工程]                                
                            
                    
                
-