摘要
为更好的预测二手车价格,根据二手车数据集,将随机森林和XGBoost算法相结合进行预测。首先对原始数据进行数据预处理,对奇异值与缺失值进行预处理以及数据的结构化处理。再利用随机森林算法进行变量选择,根据随机森林输出的得分排序选择分数不为零的变量作为预测价格的特征变量。再将XGBoost,GBDT和lightGBM三种算法进行网格搜索寻到最优参数,对比后选用XGBoost算法进行二手车价格预测得到最优的二手车价格预测结果。
In order to better predict the price of second-hand cars,according to the second-hand car data set,the random forest and XGBoost algorithm are combined to make predictions.First,the original data is preprocessed,singular values and missing values are preprocessed,and the data is structured.Then use the random forest algorithm for variable selection,and select the variable with a score that is not zero according to the score output of the random forest as the feature variable of the predicted price.The three algorithms of XGBoost,GBDT and lightGBM are searched to find the optimal parameters.After comparison,the XGBoost algorithm is selected to predict the used car price to obtain the optimal used car price prediction result.
作者
郑婕
ZHENG Jie(North China University of Technology,Beijing 100144)
出处
《数字技术与应用》
2021年第6期90-93,188,共5页
Digital Technology & Application
基金
北方工业大学毓优人才项目(107051360021XN083/058)
北方工业大学新教师科研启动经费(110051360002)。
作者简介
郑婕(1996-),女,山西忻州人,研究生,研究方向:应用统计。