期刊文献+
共找到71篇文章
< 1 2 4 >
每页显示 20 50 100
近60年中国群发性极端温度事件演变特征及数据集的建立
1
作者 况雪源 张耀存 +2 位作者 黄丹青 薛道凯 成柯蒙 《大气科学学报》 北大核心 2025年第2期207-216,共10页
基于中国区域1961—2020年逐日气温站点观测资料,考虑极端事件的时空关联性,利用群发性极端事件识别方法,对近60年中国群发性高温天气、酷热天气、极端高温、极端低温及剧烈降温等5类极端温度事件进行了识别并建立了数据集,分析了不同... 基于中国区域1961—2020年逐日气温站点观测资料,考虑极端事件的时空关联性,利用群发性极端事件识别方法,对近60年中国群发性高温天气、酷热天气、极端高温、极端低温及剧烈降温等5类极端温度事件进行了识别并建立了数据集,分析了不同类型群发性极端温度事件的演变特征。结果表明:群发性高温及酷热天气事件主要发生于夏季,高发区位于新疆地区和江淮流域,综合强度排名前十的事件有7次发生于2000年以后,且持续时间和影响范围显著增强;群发性剧烈降温事件主要发生于除夏季外的其余三个季节,内蒙古及东北南部发生频率最高,长江以南地区次之,近年来群发性剧烈降温事件发生频数略有下降,但持续时间、影响范围及降温强度却保持稳定;群发性极端高温事件和极端低温事件在全年全区域均有发生,在全球变暖背景下,前者各项指标呈显著上升趋势,而后者呈显著下降趋势。本数据集的建立为深入理解极端温度事件的演变规律及机理提供了数据基础。 展开更多
关键词 中国 群发性极端温度事件 演变特征 数据集建立
在线阅读 下载PDF
基于多尺度渔业数据的印度洋大眼金枪鱼CPUE标准化研究
2
作者 张天蛟 信佳 +2 位作者 宋利明 袁红春 宋博 《海洋渔业》 北大核心 2025年第2期129-140,共12页
为了解不同空间尺度、环境因子及捕捞策略对大眼金枪鱼(Thunnus obesus)的单位捕捞努力量渔获量(CPUE)标准化的影响,基于3种空间分辨率的渔业数据:印度洋金枪鱼委员会(IOTC)5°×5°、1°×1°数据以及我国延... 为了解不同空间尺度、环境因子及捕捞策略对大眼金枪鱼(Thunnus obesus)的单位捕捞努力量渔获量(CPUE)标准化的影响,基于3种空间分辨率的渔业数据:印度洋金枪鱼委员会(IOTC)5°×5°、1°×1°数据以及我国延绳钓渔业0.1°×0.1°的统计数据,针对我国延绳钓捕捞渔船在印度洋的作业区域,对比分析了海洋立体环境因子(包括0~500 m水深的温度、盐度、溶解氧浓度和温跃层深度)以及不同捕捞策略下的物种组成等因子对大眼金枪鱼CPUE标准化的影响。在标准化模型中,将5°、1°以及0.1°网格的地理面积作为模型权重。结果表明,在3种空间分辨率下,增加海洋立体环境因子、物种组成因子、采用网格面积作为模型权重能够显著提高CPUE标准化模型的拟合度;其中,温跃层深度和240 m深度的溶解氧浓度在CPUE标准化模型中的重要性较高;物种组成因子从空间上区分了不同捕捞策略下的物种关系,能够提高CPUE标准化的准确性;使用网格面积作为模型权重,可以适应不断变化的捕捞努力量和鱼群丰度,应在CPUE标准化模型中加以考虑。研究结果可为精准评估金枪鱼渔业资源提供科学参考。 展开更多
关键词 大眼金枪鱼 多尺度渔业数据集 CPUE标准化 海洋立体环境因子 物种组成因子 网格面积
在线阅读 下载PDF
基于跨视图二部图图扩散的多视图聚类
3
作者 王劲夫 王思为 +2 位作者 梁伟轩 于胜举 祝恩 《计算机科学》 北大核心 2025年第7期69-74,共6页
多视图聚类是无监督学习领域的一个研究热点。最近,基于跨视图图扩散的方法有效利用了多个视图之间的互补信息,取得了较好的效果。但这类方法的时间和空间复杂度较高,限制了其在大规模数据集上的应用。针对此问题,提出基于二部图跨视图... 多视图聚类是无监督学习领域的一个研究热点。最近,基于跨视图图扩散的方法有效利用了多个视图之间的互补信息,取得了较好的效果。但这类方法的时间和空间复杂度较高,限制了其在大规模数据集上的应用。针对此问题,提出基于二部图跨视图图扩散的多视图聚类方法,成功将立方的时间复杂度和平方的空间复杂度降低至线性,从而可以高效地处理大规模聚类任务。使用二部图代替全图进行跨视图图扩散,并对基于全图的跨视图图扩散公式进行修改以适应二部图输入。在6个基准数据集上的实验结果表明,所提出的方法在聚类精度和运行效率方面比大多现有多视图聚类方法更具优势。在小规模数据集上,所提方法中的准确度等指标普遍高于对比算法5%以上;在大规模数据集上,所提方法的优势更加明显,其ACC和NMI等指标高于对比算法15%~30%。 展开更多
关键词 多视图聚类 跨视图图扩散 二部图 大规模数据集应用
在线阅读 下载PDF
基于混合邻域图的复杂结构数据集层次聚类算法
4
作者 陈仲尚 冯骥 +1 位作者 杨德刚 蔡发鹏 《智能系统学报》 北大核心 2025年第3期584-593,共10页
复杂结构数据集通常指包含不同形状(如球形、非球形、流形)、大小和密度的簇的数据集。自然邻居算法在处理边界模糊、密度变化的数据集时存在局限性,特别是在数据集中含有大量噪声时,其性能会显著下降。针对这些问题,本文提出一种基于... 复杂结构数据集通常指包含不同形状(如球形、非球形、流形)、大小和密度的簇的数据集。自然邻居算法在处理边界模糊、密度变化的数据集时存在局限性,特别是在数据集中含有大量噪声时,其性能会显著下降。针对这些问题,本文提出一种基于混合邻域图的复杂结构数据集层次聚类算法(hybrid neighborhood graphbased hierarchical clustering algorithm for datasets with complex structures,HCHNG)。该方法提出一种共享自然邻域图方法,通过邻居关系稀疏数据集以减少噪声样本对聚类结果的影响。随后,HCHNG将数据集划分为子图并加以合并,这一策略增强了算法处理变密度数据集的能力,同时,定义一种新的子图相似性度量方法,提高同类子图间的相似性。此外,对自然邻域图进行改进,以提升其在识别边界模糊数据集时的性能。在具有复杂结构的人工数据集和真实数据集上的对比实验表明,本文算法不仅能有效识别变密度球形数据集,而且在含有大量噪声的复杂数据集中也拥有优越的性能,在处理具有复杂结构的数据集时比现有方法高效。 展开更多
关键词 聚类分析 混合邻域图 共享自然邻居 改进的自然邻域图 共享自然邻域图 子图相似性 复杂数据集 数据挖掘
在线阅读 下载PDF
面向高维不平衡数据的特征选择算法 被引量:2
5
作者 王振飞 袁佩瑶 +1 位作者 曹中亚 张利莹 《小型微型计算机系统》 CSCD 北大核心 2024年第8期1839-1846,共8页
针对传统高维不平衡数据集的分类算法存在偏向多数类、忽视少数类等问题,本文提出一种基于密度聚类和重要性度量的特征选择算法(DBIM).首先通过随机降采样的方法构造出多个平衡子集,使用DBSCAN密度聚类方法作为基分类器生成初始特征子空... 针对传统高维不平衡数据集的分类算法存在偏向多数类、忽视少数类等问题,本文提出一种基于密度聚类和重要性度量的特征选择算法(DBIM).首先通过随机降采样的方法构造出多个平衡子集,使用DBSCAN密度聚类方法作为基分类器生成初始特征子空间.然后按照重要度对特征进行排序选择出较强分类的特征.最后,为了避免特征之间的冗余性,设计基于类分布的权重指标与冗余性评价指标相结合的方法进行计算,生成高质量的特征子集.在8个公开数据集上的实验结果表明,本文提出DBIM算法可以生成高相关度且低冗余度的特征子集,对高维不平衡数据集进行有效降维,提高分类性能. 展开更多
关键词 高维不平衡数据集 密度聚类 特征选择 相关性 冗余性
在线阅读 下载PDF
高速路匝道汇入路段驾驶风格 被引量:2
6
作者 叶明 甘静 +2 位作者 胡海玉 隋毅 杨金才 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第1期87-95,共9页
为分析驾驶人在高速路匝道汇入路段的驾驶风格,基于NGSIM数据集进行研究。为保证数据准确性,对数据平滑处理后,设置时空约束剔除异常数据得到匝道汇入合流区的车辆轨迹数据;首先采用因子分析法对原始多维特征进行降维处理得到可完整表... 为分析驾驶人在高速路匝道汇入路段的驾驶风格,基于NGSIM数据集进行研究。为保证数据准确性,对数据平滑处理后,设置时空约束剔除异常数据得到匝道汇入合流区的车辆轨迹数据;首先采用因子分析法对原始多维特征进行降维处理得到可完整表征驾驶风格的5个主因子;其次使用K-means算法对主因子进行聚类得到谨慎型、稳健型和激进型3种驾驶风格,并对比降维前后的识别结果。结果表明,在匝道汇入合流区路段,激进型驾驶风格更倾向于在短时间内连续换道,并且在整个匝道汇入的过程中与前车的车头间距更小。 展开更多
关键词 驾驶风格 NGSIM数据集 因子分析 K-MEANS聚类
在线阅读 下载PDF
一种基于目标点云分布特性的动态聚类算法 被引量:1
7
作者 李彩虹 何晨阳 +1 位作者 高锋 陈佳欣 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第2期261-267,共7页
激光雷达在自动驾驶系统的目标检测任务中发挥着重要作用,但其扫描机理会使得点云分布不均匀,常规聚类算法由于参数固定会导致较多的错误聚类。为解决该问题,该文以椭圆形状作为邻域空间,设计基于采样点位置的邻域自适应调整策略,提出... 激光雷达在自动驾驶系统的目标检测任务中发挥着重要作用,但其扫描机理会使得点云分布不均匀,常规聚类算法由于参数固定会导致较多的错误聚类。为解决该问题,该文以椭圆形状作为邻域空间,设计基于采样点位置的邻域自适应调整策略,提出一种基于目标点云分布特性的动态聚类算法。通过正确聚类、过聚类等综合结果评估算法的性能,在KITTI数据集上进行了数值分析得到算法参数,并在校园环境中进行了实车对比实验。结果表明:所提算法能减少基于密度的噪声应用空间聚类(DBSCAN)中固定邻域所造成的70.60%过聚类、49.76%欠聚类等错误结果,从而有效提高算法的综合聚类性能。 展开更多
关键词 智能汽车 目标检测 激光雷达 点云聚类 KITTI数据集 基于密度的噪声应用空间聚类(DBSCAN)
在线阅读 下载PDF
研发类GPU集群任务数据集的构建及分析
8
作者 罗婧 叶志晟 +4 位作者 杨泽华 傅天豪 魏雄 汪小林 罗英伟 《计算机工程与科学》 CSCD 北大核心 2024年第12期2128-2137,共10页
近年来,随着深度学习模型训练需求增长,研究机构和企业通过搭建共享GPU集群来降低成本和提高效率。现有研究主要关注企业生产类GPU集群的任务调度和资源分配。针对研发类GPU集群鹏城云脑I,进行任务运行时关键指标的监控和数据采集,构建... 近年来,随着深度学习模型训练需求增长,研究机构和企业通过搭建共享GPU集群来降低成本和提高效率。现有研究主要关注企业生产类GPU集群的任务调度和资源分配。针对研发类GPU集群鹏城云脑I,进行任务运行时关键指标的监控和数据采集,构建含任务细粒度时序资源使用信息的深度学习训练任务数据集——鹏城云脑I任务数据集。该数据集是首个面向研发类GPU集群公开数据集,揭示了研发类GPU集群中资源利用率低的现象,为研发类GPU集群高资源利用率的调度器设计提供依据和参考,推动任务调度和资源分配机制的研究。 展开更多
关键词 GPU集群 深度学习 集群负载 任务数据集 资源利用率
在线阅读 下载PDF
基于数字报历史优秀版面的样式智能生成与微调
9
作者 陶颖 程雨夏 +3 位作者 曾振宇 庄跃辉 张艺馨 何兴臻 《智能系统学报》 CSCD 北大核心 2024年第4期930-940,共11页
在传统报纸印刷行业中,设计人员需要根据设计规则进行人工排版,其排版过程造价成本较高且耗时耗力。为提高排版效率,研究提出一种基于历史优秀版面的样式自动生成与微调方法。为了从数据中学习到报纸排版的风格,创建一个包含丰富的设计... 在传统报纸印刷行业中,设计人员需要根据设计规则进行人工排版,其排版过程造价成本较高且耗时耗力。为提高排版效率,研究提出一种基于历史优秀版面的样式自动生成与微调方法。为了从数据中学习到报纸排版的风格,创建一个包含丰富的设计元素参数信息的电子报数据库,这些特征信息能够有效地反映报纸的布局。对于给定的新闻文章,首先根据历史优秀版面训练概率模型来推断电子报版面的样式,并结合固定约束和用户约束保证样式有效,同时构建美学设计原理的量化方法进一步实现样式微调。最后通过定性和定量评估,表明新方法可以生成满足视觉美观性、层次性和可读性的报纸。本文方法可为版面设计样式智能生成提供参考。 展开更多
关键词 布局自动化 图形设计 设计原理 图像数据库 数据驱动方法 概率分布 聚类 约束规划
在线阅读 下载PDF
一种基于混合重取样策略的非均衡数据集分类算法 被引量:22
10
作者 谷琼 袁磊 +3 位作者 宁彬 吴钊 华丽 李文新 《计算机工程与科学》 CSCD 北大核心 2012年第10期128-134,共7页
非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类... 非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。 展开更多
关键词 分类 非均衡数据集 预处理 混合重取样 SMOTE 聚类
在线阅读 下载PDF
基于改进划分系数的模糊聚类有效性函数 被引量:9
11
作者 张宇献 刘通 +1 位作者 董晓 李松 《沈阳工业大学学报》 EI CAS 北大核心 2014年第4期431-435,共5页
针对典型模糊聚类算法难以准确获取最佳聚类数的问题,提出了一种基于改进划分系数的模糊聚类有效性函数.在划分系数方法基础上,将类与类之间的分离性和类内的紧致性相结合,引入指数函数有效抑制噪声和孤立点数据对聚类有效性的影响.仿... 针对典型模糊聚类算法难以准确获取最佳聚类数的问题,提出了一种基于改进划分系数的模糊聚类有效性函数.在划分系数方法基础上,将类与类之间的分离性和类内的紧致性相结合,引入指数函数有效抑制噪声和孤立点数据对聚类有效性的影响.仿真实验将所提及的聚类有效性函数应用于模糊C均值聚类中,分别对两组自定义数据集和IRIS数据集进行了有效性验证,实验结果表明,本文提出的模糊聚类有效性函数能够准确划分最佳聚类数. 展开更多
关键词 模糊聚类 最佳聚类数 有效性函数 划分系数 分离性 紧致性 数据集 实验分析
在线阅读 下载PDF
面向大规模数据集的近邻传播聚类 被引量:8
12
作者 谷瑞军 汪加才 +1 位作者 陈耿 陈圣磊 《计算机工程》 CAS CSCD 北大核心 2010年第23期22-24,共3页
近邻传播聚类在计算过程中需构建相似度矩阵,该矩阵的规模随样本数急剧增长,限制了算法在大规模数据集上的直接应用。为此,提出一种改进的近邻传播聚类算法,利用数据点的局部分布,借鉴半监督聚类的思想构造稀疏化的相似度矩阵,并对聚类... 近邻传播聚类在计算过程中需构建相似度矩阵,该矩阵的规模随样本数急剧增长,限制了算法在大规模数据集上的直接应用。为此,提出一种改进的近邻传播聚类算法,利用数据点的局部分布,借鉴半监督聚类的思想构造稀疏化的相似度矩阵,并对聚类结果中的簇代表点再次或多次聚类,直至得到合适的簇划分。实验结果表明,该算法在处理能力和运算速度上优于原算法。 展开更多
关键词 近邻传播聚类 大规模数据集 数据挖掘
在线阅读 下载PDF
自动迭代聚类数据集训练的虚假信息识别方法 被引量:7
13
作者 张均胜 孙晓平 刘志辉 《情报学报》 CSSCI CSCD 北大核心 2023年第1期59-73,共15页
随着互联网虚假信息日益泛滥,自动识别虚假信息成为互联网信息治理的迫切需求。互联网上虚假信息伴随新事件不断产生,导致识别虚假信息的有监督统计机器学习模型需要不断更新迭代。每次迭代更新都需要构建新的训练集,以便新的虚假信息... 随着互联网虚假信息日益泛滥,自动识别虚假信息成为互联网信息治理的迫切需求。互联网上虚假信息伴随新事件不断产生,导致识别虚假信息的有监督统计机器学习模型需要不断更新迭代。每次迭代更新都需要构建新的训练集,以便新的虚假信息能在训练集中得以体现。为此,本研究提出一种动态迭代更新训练集构筑机器学习模型的虚假信息识别方法,设计基于核密度估计的迭代聚类方法对虚假信息数据集进行迭代聚类。在每一个自动得到的聚类中,按比例分别选取训练集样本和测试集样本构造分类器的训练样本集和测试样本集,使新产生事件的样本能够在训练集中得到体现。研究结果显示,基于核密度估计的迭代聚类方法划分数据集训练得到的虚假信息分类器,与随机划分数据集策略相比,能够显著提升虚假信息分类准确度。 展开更多
关键词 聚类 核密度估计 数据集划分 虚假信息 识别
在线阅读 下载PDF
动态增量聚类的设计与实现 被引量:7
14
作者 孟海东 王淑玲 郝永宽 《计算机工程与应用》 CSCD 北大核心 2009年第24期130-132,共3页
传统聚类算法往往只适用于静态数据集的聚类。对于动态数据集,新增数据后,前期的聚类结果不再可靠,运用此类算法则需要重新聚类,这样会造成效率低下和计算资源浪费。在基于密度和自适应密度可达聚类算法的基础上,提出了一种新的增量聚... 传统聚类算法往往只适用于静态数据集的聚类。对于动态数据集,新增数据后,前期的聚类结果不再可靠,运用此类算法则需要重新聚类,这样会造成效率低下和计算资源浪费。在基于密度和自适应密度可达聚类算法的基础上,提出了一种新的增量聚类算法。理论分析和实验结果证明该算法能够有效地处理动态数据集,提高聚类效率和资源的利用率。 展开更多
关键词 动态数据集 密度可达 增量聚类
在线阅读 下载PDF
基于数据分区的并行DBSCAN算法 被引量:16
15
作者 何中胜 刘宗田 庄燕滨 《小型微型计算机系统》 CSCD 北大核心 2006年第1期114-116,共3页
DBSCAN是基于密度的聚类算法的一个典型代表算法,它对空间数据库聚类有很好的性能.然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销.随着高性能计算机的发展,特别是集群式计算机出现,给我们提供了一种解决DBSCAN算... DBSCAN是基于密度的聚类算法的一个典型代表算法,它对空间数据库聚类有很好的性能.然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销.随着高性能计算机的发展,特别是集群式计算机出现,给我们提供了一种解决DBSCAN算法缺陷的方法,本文提出一种建立在集群式高性能计算机上基于数据分区并行DBSCAN算法.测试结果表明,它极大地降低了DBSCAN对时间和空间的需要. 展开更多
关键词 大规模数据库 聚类 数据分区 DBSCAN算法 并行计算消息传送
在线阅读 下载PDF
一种新的图聚类算法研究 被引量:5
16
作者 唐德权 吴绍兵 凌志刚 《计算机应用与软件》 CSCD 北大核心 2014年第6期18-20,58,共4页
图聚类是基于各种标准如结点标号、边标号、公共子图等条件将图数据集实例划分不同类集群,这将对结构化图空间及增强对图数据的理解有着重要作用。针对此问题提出基于结构化的图聚类算法。与目前有关的算法相比,该算法不产生新图或原图... 图聚类是基于各种标准如结点标号、边标号、公共子图等条件将图数据集实例划分不同类集群,这将对结构化图空间及增强对图数据的理解有着重要作用。针对此问题提出基于结构化的图聚类算法。与目前有关的算法相比,该算法不产生新图或原图分解成零碎子图,也不依赖计算最大共同子图的相关操作。实验结果表明,这种方法在现实分子图数据集上对结构聚类可行、有效。 展开更多
关键词 集群 结构聚类 图数据集 频繁子图挖掘
在线阅读 下载PDF
基于核函数距离测度的LLE降维及其在离群聚类中的应用 被引量:5
17
作者 徐雪松 张宏 刘凤玉 《仪器仪表学报》 EI CAS CSCD 北大核心 2008年第9期1996-2000,共5页
局部线性嵌入算法(locally linear embedding,LLE)是一种流形降维方法,在高维稀疏数据空间中,针对LLE不适合稀疏采样和欧氏距离公式的缺陷,研究该算法的扩展,引入核函数,并将样本映射到高维特征空间,核映射改善了样本的空间分布,改进的... 局部线性嵌入算法(locally linear embedding,LLE)是一种流形降维方法,在高维稀疏数据空间中,针对LLE不适合稀疏采样和欧氏距离公式的缺陷,研究该算法的扩展,引入核函数,并将样本映射到高维特征空间,核映射改善了样本的空间分布,改进的LLE方法在适当选取近邻点个数情况下,可得到良好的效果。对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得低维数据是否是离群数据进行判别。仿真文验的结果表明了该方法能够有效地发现高维数据集中的离群点,与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一条新的途径。 展开更多
关键词 核函数 维数消减 非线性数据集 离群数据 聚类
在线阅读 下载PDF
基于聚类的模型数据集可视化与检索 被引量:5
18
作者 石源 莫蓉 +2 位作者 常智勇 张欣 汪伟 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第11期1918-1924,共7页
为解决模型数据集可视化的问题,提出一种基于聚类结果的簇代表模型可视化方案.首先以等距特征映射算法作为模型特征数据的降维方法,将高维特征数据降至三维,并以该三维数据作为簇代表模型的空间位置坐标;然后采用粒子群优化算法得到模... 为解决模型数据集可视化的问题,提出一种基于聚类结果的簇代表模型可视化方案.首先以等距特征映射算法作为模型特征数据的降维方法,将高维特征数据降至三维,并以该三维数据作为簇代表模型的空间位置坐标;然后采用粒子群优化算法得到模型簇的几何中值点,以距几何中值点最近的模型作为该模型簇的代表模型;最后结合模型的对齐方法来确定簇代表模型的姿态,从而实现模型数据集的可视化.另外,根据查询模型与簇代表模型之间的相似性,提出一个基于聚类结果的模型检索流程.该检索流程首先寻找与查询模型最相似的簇代表模型,然后将查询范围限制在这些簇代表模型对应的模型簇中,从而减少备选模型的数量.检索实验结果表明,在合适的参数组合下,该检索流程可以在保证检索精度的同时大幅提高检索效率. 展开更多
关键词 模型数据集可视化 等距特征映射 基于聚类的检索
在线阅读 下载PDF
多维数据集中聚类数确定算法研究 被引量:2
19
作者 周红芳 李红岩 +1 位作者 刘颖 王晓东 《计算机工程》 CAS CSCD 2012年第9期8-11,共4页
在传统确定数据集聚类数算法原理的基础上,提出一种新的算法——MHC算法。该算法采用自底向上的策略生成不同层次的数据集划分,计算每个层次的聚类划分质量,通过聚类质量选择最佳的聚类数。还设计一种新的有效性指标——BIP指标,用于衡... 在传统确定数据集聚类数算法原理的基础上,提出一种新的算法——MHC算法。该算法采用自底向上的策略生成不同层次的数据集划分,计算每个层次的聚类划分质量,通过聚类质量选择最佳的聚类数。还设计一种新的有效性指标——BIP指标,用于衡量不同划分的聚类质量,该指标主要依托数据集的几何结构。实验结果表明,该算法能准确地确定多维数据集中的最佳聚类数。 展开更多
关键词 多维数据集 聚类数 聚类有效性指标 层次聚类
在线阅读 下载PDF
基于聚类和信息熵的特征选择算法 被引量:4
20
作者 李霞 蒋盛益 郭艾侠 《郑州大学学报(理学版)》 CAS 北大核心 2009年第1期77-80,共4页
针对分类属性数据,基于信息熵,提出一种度量特征重要程度的定义,结合聚类分析,提出一种无指导的特征选择方法.该方法时间复杂度与数据集的大小和特征个数近似成线性关系,适合于大规模数据集中的特征选择.实验结果表明,该方法具有较好的... 针对分类属性数据,基于信息熵,提出一种度量特征重要程度的定义,结合聚类分析,提出一种无指导的特征选择方法.该方法时间复杂度与数据集的大小和特征个数近似成线性关系,适合于大规模数据集中的特征选择.实验结果表明,该方法具有较好的性能,提出的特征选择方法有效实用. 展开更多
关键词 聚类 信息熵 特征选择 大规模数据集
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部