基于改进K-means的大气污染物高维度信息研究

Study Honigh-dimensional Information of Atmospheric Pollutants Based on Improved K-means

在线阅读下载PDF

导出

摘要对中国2013~2018年高分辨率大气污染分析开放数据集采用传统数据挖掘方法时,面临数据量大、挖掘效率低等难题,改用基于Spark K-means的聚类方法对大气污染物海量信息进行研究。以6种常见大气污染物和5种环境影响因子为例,建立了Pm_(2.5)、Pm_(10)、SO_(2)、NO_(2)、CO、O_(3)和Temp等数据维度模型。对K-means算法选择初始聚类数K值时,利用Gap Statistic算法相比传统K-means算法利用SSE算法确定K值,Gap Statistic算法在高维度样本数据模型中确定K值更合理且直观。 For the high-resolution air pollution reanalysis of air pollution in China in 2013 and 2018,using the traditional data mining method was faced on the problems of large data volume and low mining efficiency,hence,the clustering method based on K-means was used to study the massive information of air pollutants under Spark.Using six common atmospheric pollutants and five environmental impact factors as examples,the data-dimensional model of Pm_(2.5),Pm_(10),So_(2),No_(2),Co,O_(3),Temp et al.is presented.When selecting the initial cluster number K value of the K-means algorithm,the gap statistic algorithm achieves the value of the best cluster number K in the high-dimensional sample data model,which is more convincing than the traditional K-means to determine the K value using the SSE algorithm.It demonstrates that the K values determined using the Gap Statistic algorithm are more reasonable and intuitive than the SSE algorithm.

作者黄乐成陈超韩存鑫赵彬 HUANG Lecheng;CHEN Chao;HAN Cunxin;ZHAO Bin(School of Computer Science and Engineering,Sichuan University of Light Chemical Technology,Zigong 643000,Sichuan,China)

机构地区四川轻化工大学计算机科学与工程学院

出处《实验室研究与探索》 CAS 北大核心 2022年第9期135-139,共5页 Research and Exploration In Laboratory

关键词大气污染数据聚类分析 Gap Statistic算法误差分析 air pollution data cluster analysis Gap Statistic error analysis

分类号 TP399 [自动化与计算机技术—计算机应用技术]

作者简介黄乐成(1999-),男,湖南衡阳人,硕士生,研究方向为数据挖掘和数据可视。Tel.:17780426997,E-mail:2534490581@qq.com。

引文网络
相关文献

参考文献12

1葛文飞.中国火电大气污染防治现状及挑战[J].山西化工,2021,41(4):250-251. 被引量：5
2锁利铭.关联区域大气污染治理的协作困境、共治体系与数据驱动[J].地方治理研究,2019(1):57-69. 被引量：12
3姜澒月,闫亚琛,李海蓉.中国2013年城市大气污染现状及探索性空间数据分析[J].安全与环境学报,2016,16(2):352-357. 被引量：16
4Yoshimasa Tanaka,Atsuki Shinbori,Tomoaki Hori,Yukinobu Koyama,Shuji Abe,No-rio Umemura,Yuka Sato,Manabu Yagi,Satoru UeNo,Akiyo Yatagai,Yasunobu Ogawa,Yoshizumi Miyoshi.Analysis software for upper atmospheric data developed by the IUGONET project and its application to polar science[J].Advances in Polar Science,2013,24(4):231-240. 被引量：2
5金国栋,卞昊穹,陈跃国,杜小勇.HDFS存储和优化技术研究综述[J].软件学报,2020,31(1):137-161. 被引量：37
6王万良,张兆娟,高楠,赵燕伟.基于人工智能技术的大数据分析方法研究进展[J].计算机集成制造系统,2019,25(3):529-547. 被引量：141
7苏玲,高婵婵,曹闪闪,阎路宇,孟紫琪,田慧敏,刘敏.长三角地区空气质量国控环境监测点空间代表性评价--以PM_(2.5)为例[J].环境科学学报,2021,41(11):4377-4387. 被引量：10
8李晓瑜,俞丽颖,雷航,唐雪飞.一种K-means改进算法的并行化实现与应用[J].电子科技大学学报,2017,46(1):61-68. 被引量：50
9冯波,郝文宁,陈刚,占栋辉.K-means算法初始聚类中心选择的优化[J].计算机工程与应用,2013,49(14):182-185. 被引量：51
10陆进,郭跃飞.一种含噪音处理的K-means聚类算法[J].计算机应用与软件,2015,32(10):265-268. 被引量：5

二级参考文献210

1贾玉霞.环境质量综合指数评价方法的应用[J].城市环境与城市生态,2003,16(S1):10-11. 被引量：25
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3黄永平,邹力鹍.数据仓库中基于密度的批量增量聚类算法[J].计算机工程与应用,2004,40(29):206-208. 被引量：9
4周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
5唐亚林.长三角城市政府合作体制反思[J].探索与争鸣,2005(1):35-37. 被引量：33
6高小梅,冯云,冯兴杰.增量式K-Medoids聚类算法[J].计算机工程,2005,31(B07):181-183. 被引量：9
7霍雨,宝荣,周延林.AQI在呼和浩特市大气环境质量评价中的应用[J].内蒙古环境保护,2005,17(3):39-43. 被引量：9
8杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：192
9陈新,刘晓冬,宋旭.API法及其在城市大气环境质量评价中的应用[J].黑龙江八一农垦大学学报,2006,18(1):89-92. 被引量：16
10谢花林,刘黎明,李波,张新时.土地利用变化的多尺度空间自相关分析——以内蒙古翁牛特旗为例[J].地理学报,2006,61(4):389-400. 被引量：187

共引文献327

1蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：93
2周坤,李小松.人工智能与计算智能在物联网方面的应用探索[J].计算机产品与流通,2020,9(11):152-152. 被引量：5
3邱莉萍,鞠海军,龚晓敏,邓拓,刘林玉.分布式计算框架的大数据机器学习探析[J].计算机产品与流通,2020(10):179-179.
4张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：21
5郭恒川.人工智能中的机器学习技术应用[J].电子技术（上海）,2021,50(10):294-296. 被引量：3
6胡常礼,邵剑飞.基于分布式计算框架的机器学习系统分析[J].电视技术,2021,45(11):115-118. 被引量：2
7骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
8魏巍巍.空间数据挖掘的方法进展及其问题探究[J].产业与科技论坛,2020(8):35-36.
9杨德建.大数据分析中的计算智能研究现状与展望[J].新一代信息技术,2022,5(7):120-122.
10易心.CIS的意义与作用[J].湖南包装,2000,15(1):41-43.

1李林晏,韩爽,乔延辉,李莉,刘永前,阎洁,刘海东.面向高比例新能源并网场景的风光-电动车协同调度方法[J].上海交通大学学报,2022,56(5):554-563. 被引量：14
2刘克新,姜红,段斌,刘峰.基于多元分析的食用油油桶差分拉曼光谱的分类研究[J].包装工程,2022,43(3):129-134. 被引量：3
3孙家政,姜红,刘新磊,屈音璇,段斌,刘峰.差分拉曼光谱技术结合K-means聚类法对牙膏的快速分类[J].理化检验（化学分册）,2022,58(1):84-89. 被引量：6
4徐腊梅.气象条件及风廓线雷达数据在大气污染分析中的应用[J].新疆农垦科技,2021,44(6):68-69.
5邱信丰.互联网发展与企业能源效率提升——基于中国企业污染数据的新证据[J].企业经济,2022,41(11):94-104. 被引量：1
6苏锦涛,张成歆,胡启后,刘浩然,刘建国.基于卫星高光谱遥感的2007年—2017年新疆地区大气NO_(2)时空变化趋势分析[J].光谱学与光谱分析,2021,41(5):1631-1638. 被引量：13
7刘琳岚,肖庭忠,舒坚,牛明晓.基于门控循环单元的链路质量预测[J].工程科学与技术,2022,54(6):51-58. 被引量：3
8酒井馨,齐文启.第一章关于大气污染的分析方法[J].中国环境监测,1990,6(6):47-59.
9张立柱,高慧,张林峰,李雅文,武同宝.基于Spark和K-Means聚类算法的电力用户智能画像[J].电力设备管理,2022(22):119-122.
10刘超.计算机数据库技术在信息管理中的应用[J].信息与电脑,2022,34(14):166-168. 被引量：2

实验室研究与探索

2022年第9期

浏览历史

内容加载中请稍等...

基于改进K-means的大气污染物高维度信息研究

参考文献12

二级参考文献210

共引文献327

相关作者

相关机构

相关主题

浏览历史