针对经典挖掘算法挖掘效率低、主观性强、生成关联关系过多的问题,从样本筛选和关联规则生成两个方面提出一种面向高维数据关联规则挖掘的新型算法(mining multidimensional association rules by combination,Marc)。所提算法通过计算...针对经典挖掘算法挖掘效率低、主观性强、生成关联关系过多的问题,从样本筛选和关联规则生成两个方面提出一种面向高维数据关联规则挖掘的新型算法(mining multidimensional association rules by combination,Marc)。所提算法通过计算样本的分布系数和删除阈值,综合自定义支持度在初读数据集时对样本进行双重筛选,在挖掘之初降低弱样本影响。在频繁项和关联规则生成时以样本关系表和样本全关系组合模式挖掘信息,降低挖掘过程的复杂性和资源消耗。试验结果表明:Marc算法挖掘出的频繁项和关联规则数量显著降低,在挖掘效率和内存消耗上均优于Apriori、FP-Growth和Eclat算法,且维度越高,数据集越大,优势越明显,Marc算法频繁项和关联关系挖掘的精度为100%。展开更多
多源时空轨迹数据隐含丰富的城市出行信息,通过对其进行挖掘、处理和分析,可以找到个体与群体之间的交互关系。针对轨迹数据挖掘研究范围单一,缺少多空间尺度研究的问题,提出一种融合多空间尺度特征的出行轨迹数据挖掘分析方法。以广东...多源时空轨迹数据隐含丰富的城市出行信息,通过对其进行挖掘、处理和分析,可以找到个体与群体之间的交互关系。针对轨迹数据挖掘研究范围单一,缺少多空间尺度研究的问题,提出一种融合多空间尺度特征的出行轨迹数据挖掘分析方法。以广东为例,结合社交媒体腾讯用户密度(Tencent user density,TUD)数据集,通过具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise,DBSCAN)聚类算法与局部密度峰值计算法提取时空相似性轨迹区域,进而簇类分成一系列热点区域,获得不同时间粒度、不同空间尺度下的出行轨迹规律特征。这能够实现在不同空间尺度融合下展示同一地区的热点区域,进一步探讨出行轨迹的规律变化。可见所提出的方法为利用时空大数据进行城市空间结构研究提供科学参考。展开更多
文摘探究广西北部湾经济区(以下简称“研究区”)2001-2020年生态系统健康时空动态变化特征,可为研究区生态系统健康和社会经济可持续发展提供数据支持与理论参考。耦合“活力组织弹性”(Vigor Organization Resilience,VOR)模型、生态系统服务和权衡的综合评估(Integrated Valuation of Ecosystem Services and Trade offs,InVEST)模型构建生态系统健康多指标评价体系,并建立最小二乘法优化赋权模型对各评价指标进行优化赋权,对研究区生态系统健康状况进行评价与分析。结果表明:①研究区近20年来生态系统健康等级为三级的区域面积占研究区总面积的85%左右,且处于相对较为稳定的变化状态,研究区生态系统健康整体处于一般健康水平以上;②研究区生态系统健康状况总体上呈现北部、西部和南部地区优于中部和东部地区的空间分布差异;③研究区生态系统健康等级转移呈现以稳定型为主、退化型面积略大于改善型面积的空间变化特征,生态系统健康状况总体呈现轻微恶化趋势;④对研究区6个城市的生态系统健康从时间尺度和空间尺度对比分析发现,崇左、防城港、钦州3市生态系统健康状况变化较为明显,而南宁、玉林、北海3市相对较为平缓,但各市健康等级空间分布变化趋势较为吻合。本研究结果对推动广西北部湾经济区生态文明建设协调发展具有实际意义。
文摘针对经典挖掘算法挖掘效率低、主观性强、生成关联关系过多的问题,从样本筛选和关联规则生成两个方面提出一种面向高维数据关联规则挖掘的新型算法(mining multidimensional association rules by combination,Marc)。所提算法通过计算样本的分布系数和删除阈值,综合自定义支持度在初读数据集时对样本进行双重筛选,在挖掘之初降低弱样本影响。在频繁项和关联规则生成时以样本关系表和样本全关系组合模式挖掘信息,降低挖掘过程的复杂性和资源消耗。试验结果表明:Marc算法挖掘出的频繁项和关联规则数量显著降低,在挖掘效率和内存消耗上均优于Apriori、FP-Growth和Eclat算法,且维度越高,数据集越大,优势越明显,Marc算法频繁项和关联关系挖掘的精度为100%。
文摘多源时空轨迹数据隐含丰富的城市出行信息,通过对其进行挖掘、处理和分析,可以找到个体与群体之间的交互关系。针对轨迹数据挖掘研究范围单一,缺少多空间尺度研究的问题,提出一种融合多空间尺度特征的出行轨迹数据挖掘分析方法。以广东为例,结合社交媒体腾讯用户密度(Tencent user density,TUD)数据集,通过具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise,DBSCAN)聚类算法与局部密度峰值计算法提取时空相似性轨迹区域,进而簇类分成一系列热点区域,获得不同时间粒度、不同空间尺度下的出行轨迹规律特征。这能够实现在不同空间尺度融合下展示同一地区的热点区域,进一步探讨出行轨迹的规律变化。可见所提出的方法为利用时空大数据进行城市空间结构研究提供科学参考。