期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
混合属性数据集的自适应谱聚类算法
1
作者 陈玉 汪宇欣 苏欢 《陕西科技大学学报》 北大核心 2025年第5期200-206,共7页
为解决谱聚类算法在处理混合属性数据集时的属性偏斜问题,以及高斯核函数尺度参数人为选择的难题,提出了一种基于改进分类属性相似性度量和共享自然邻的自适应谱聚类算法(IEMN-SC).该算法通过计算数值属性和分类属性的信息熵,获取平衡... 为解决谱聚类算法在处理混合属性数据集时的属性偏斜问题,以及高斯核函数尺度参数人为选择的难题,提出了一种基于改进分类属性相似性度量和共享自然邻的自适应谱聚类算法(IEMN-SC).该算法通过计算数值属性和分类属性的信息熵,获取平衡差异因子,改进了传统的分类属性相似性度量.在高斯核函数中,利用共享自然近邻计算每个样本的邻域半径,自适应求解尺度参数.最后,通过核函数构建混合属性样本的相似度矩阵进行谱聚类.实验结果表明,IEMN-SC算法在ACC、ARI和NMI指标上优于四种常用混合属性数据集聚类算法,且聚类结果更稳定.该算法能够有效解决属性偏斜问题,尤其能完全自适应地发现混合属性数据集的真实分布信息,聚类效率显著提升. 展开更多
关键词 信息熵 谱聚类 混合属性数据 自然近邻 自适应
在线阅读 下载PDF
混合属性数据深度无监督融合特征学习方法 被引量:2
2
作者 何慧霞 武森 +2 位作者 魏桂英 谢嘉瑶 高晓楠 《计算机科学与探索》 CSCD 北大核心 2024年第7期1852-1864,共13页
高质量的特征表示是实现数据精准挖掘的关键。针对现有特征学习方法难以有效提取混合属性数据中不同属性之间关联和数据内部真实信息的问题,提出一种面向混合属性数据的深度无监督融合特征学习模型(DUFERM)。该模型建立了一个双模态自... 高质量的特征表示是实现数据精准挖掘的关键。针对现有特征学习方法难以有效提取混合属性数据中不同属性之间关联和数据内部真实信息的问题,提出一种面向混合属性数据的深度无监督融合特征学习模型(DUFERM)。该模型建立了一个双模态自编码器框架,对分类属性和数值属性采用不同路径进行建模,并采用深度多模态融合策略加深两种属性之间的联系;针对分类属性构建基于加权异构网络的离散特征自编码器,充分挖掘分类属性内部的结构和语义信息,针对数值属性构建连续特征自编码器,两个独立的自编码器以联合表示的形式组合在公共潜在表示层中;最后以预训练和联合训练相结合的无监督训练方式获得混合属性数据的融合特征表示。在10个公开数据集上的大量实验表明,所提DUFERM模型在各项评价指标上的综合性能优于现有经典的和新颖的混合属性数据特征学习方法,可以充分提取混合属性数据内部潜在特征,取得高质量的融合特征表示结果并提升下游数据挖掘任务的准确性。 展开更多
关键词 混合属性数据 融合特征学习 无监督 数据挖掘
在线阅读 下载PDF
基于K-prototypes的混合属性数据聚类算法 被引量:16
3
作者 陈韡 王雷 蒋子云 《计算机应用》 CSCD 北大核心 2010年第8期2003-2005,2110,共4页
通过对基于K-prototypes算法对混合属性数据处理的聚类问题进行研究,改进了K-prototypes算法中分类属性相异度计算公式,使之能更加精确反映样本间的差异;在此基础上提出了一种用于处理混合属性数据的聚类算法,并将改进后的算法应用于英... 通过对基于K-prototypes算法对混合属性数据处理的聚类问题进行研究,改进了K-prototypes算法中分类属性相异度计算公式,使之能更加精确反映样本间的差异;在此基础上提出了一种用于处理混合属性数据的聚类算法,并将改进后的算法应用于英语借词数据的聚类分析中。实验结果表明,与K-prototypes算法相比,改进后的算法具有更好的稳定性和更高的精度。 展开更多
关键词 聚类 K-prototypes算法 混合属性数据 相异度
在线阅读 下载PDF
基于残差分析的混合属性数据聚类算法 被引量:12
4
作者 邱保志 张瑞霖 李向丽 《自动化学报》 EI CSCD 北大核心 2020年第7期1420-1432,共13页
针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题,提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on residual analysis)RA-Clust.算法以改进的熵权重混合属性相似性度量对象间的... 针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题,提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on residual analysis)RA-Clust.算法以改进的熵权重混合属性相似性度量对象间的相似性,以提出的基于KNN和Parzen窗的局部密度计算方法计算每个对象的密度,通过线性回归和残差分析进行聚类中心预选取,然后以提出的聚类中心目标优化模型确定真正的聚类中心,最后将其他数据对象按照距离高密度对象的最小距离划分到相应的簇中,形成最终聚类.在合成数据集和UCI数据集上的实验结果验证了算法的有效性.与同类算法相比,RA-Clust具有较高的聚类精度. 展开更多
关键词 聚类 残差分析 线性回归 混合属性数据 聚类中心
在线阅读 下载PDF
一种基于图划分的混合属性数据聚类算法 被引量:2
5
作者 黄树成 李甜 沙爱晖 《计算机应用与软件》 CSCD 北大核心 2013年第7期11-13,135,共4页
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型... 实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。 展开更多
关键词 混合属性数据 图划分 谱聚类
在线阅读 下载PDF
基于E-t-SNE的混合属性数据降维可视化方法 被引量:30
6
作者 魏世超 李歆 +2 位作者 张宜弛 周晓锋 李帅 《计算机工程与应用》 CSCD 北大核心 2020年第6期66-72,共7页
针对传统的t分布随机近邻嵌入(t-SNE)算法只能处理单一属型数据,不能很好地处理混合属性数据的问题,提出一种扩展的t-SNE降维可视化算法E-t-SNE,用于处理混合属性数据。该方法引入信息熵概念来构建分类属性数据的距离矩阵,采用分类属性... 针对传统的t分布随机近邻嵌入(t-SNE)算法只能处理单一属型数据,不能很好地处理混合属性数据的问题,提出一种扩展的t-SNE降维可视化算法E-t-SNE,用于处理混合属性数据。该方法引入信息熵概念来构建分类属性数据的距离矩阵,采用分类属性数据距离与数值属性数据欧式距离相结合的方式构建混合属性数据距离矩阵,将新的距离矩阵输入t-SNE算法对数据进行降维并在二维空间可视化展示。此外,为验证算法有效性,采用k近邻(kNN)算法对混合数据降维后的效果进行评价。通过在UCI数据集上的实验表明,该方法在处理混合属性数据方面,不仅具有较好的可视化能力,而且能有效地对不同类别的数据进行降维分簇,提升后续分类器的分类准确率。 展开更多
关键词 t-SNE算法 混合属性数据 降维 可视化
在线阅读 下载PDF
基于信息熵的混合属性数据谱聚类算法 被引量:13
7
作者 姜智涵 朱军 +1 位作者 周晓锋 李帅 《计算机应用研究》 CSCD 北大核心 2019年第8期2256-2260,共5页
针对传统的聚类算法只能处理单属性的数据,不能很好地处理混合属性数据的聚类问题,以及目前大多数混合属性数据聚类算法对初始化敏感,不能处理任意形状的数据的问题,提出一种基于信息熵的混合属性数据谱聚类算法,用于处理混合类型数据... 针对传统的聚类算法只能处理单属性的数据,不能很好地处理混合属性数据的聚类问题,以及目前大多数混合属性数据聚类算法对初始化敏感,不能处理任意形状的数据的问题,提出一种基于信息熵的混合属性数据谱聚类算法,用于处理混合类型数据。提出了一种新的相似性度量方式,利用谱聚类算法中的数值型数据构成的高斯核函数矩阵与新的基于信息熵的分类型数据构成的影响因子矩阵相结合代替了传统的相似度矩阵,新的相似度矩阵避免了数值属性与分类属性数据之间的转换和参数调整;把新的相似度矩阵运用到谱聚类算法中,以便于处理任意形状的数据,最终得出聚类结果。通过在UCI的数据集上的实验表明,该算法能有效地处理混合属性数据的聚类问题,且具有较高的稳定性以及良好的鲁棒性。 展开更多
关键词 混合属性数据 谱聚类 高斯核函数 影响因子
在线阅读 下载PDF
混合属性数据集分布一致性度量的新方法 被引量:3
8
作者 何玉林 金一 +2 位作者 戴德鑫 黄柏皓 黄家杰 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2021年第2期170-179,共10页
数据分布一致性的度量是大数据随机样本划分生成过程中的一个关键问题,如何针对混合属性的数据集进行合理有效的分布一致性度量是目前随机样本划分技术研究的重点.提出一种新的基于深度编码和最大平均差异的混合属性数据集分布一致性度... 数据分布一致性的度量是大数据随机样本划分生成过程中的一个关键问题,如何针对混合属性的数据集进行合理有效的分布一致性度量是目前随机样本划分技术研究的重点.提出一种新的基于深度编码和最大平均差异的混合属性数据集分布一致性度量方法,不直接对两个不同的原始数据集进行分布一致性的度量,而是首先对混合属性中的离散属性进行独热编码,得到独热编码数据集;之后对独热编码数据集进行自编码处理,得到深度编码数据集;最后基于最大均值差异指标对两个不同的深度编码数据集进行分布一致性的度量.在Adult、Australian、CRX和German标准混合属性数据集上对所提方法进行性能实验验证,结果表明,与基于离散属性独热编码的最大平均差异方法和基于连续属性二进制化的相似性度量方法相比,新方法能够更加准确地对混合属性数据进行分布一致性的度量. 展开更多
关键词 人工智能 随机样本划分 分布一致性 最大均值差异 混合属性数据 独热编码 深度编码
在线阅读 下载PDF
DCKPDP:改进k-prototype聚类的差分隐私混合属性数据发布方法 被引量:10
9
作者 张星 张兴 《计算机应用研究》 CSCD 北大核心 2022年第1期249-253,共5页
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算... 当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。 展开更多
关键词 差分隐私 混合属性数据 k-prototype聚类 密度优化 信息熵
在线阅读 下载PDF
面向混合型属性数据的改进谱聚类算法 被引量:2
10
作者 陈晓曼 陈玉 苏欢 《陕西师范大学学报(自然科学版)》 北大核心 2025年第1期71-80,共10页
混合型属性数据是最为常见的一种数据集类型,针对该类型数据的聚类算法是聚类分析的研究热点之一。由于谱聚类算法具有适合于任意形状数据的聚类问题且能收敛于全局最优解的优势,因而从相似性度量的角度出发,基于杰卡德(Jaccard)距离、... 混合型属性数据是最为常见的一种数据集类型,针对该类型数据的聚类算法是聚类分析的研究热点之一。由于谱聚类算法具有适合于任意形状数据的聚类问题且能收敛于全局最优解的优势,因而从相似性度量的角度出发,基于杰卡德(Jaccard)距离、马氏(Mahalanobis)距离的思想,设计一种适用于混合型属性数据的相似性度量,并利用其实现谱聚类的混合型属性数据扩展,构建一种改进的谱聚类算法(IJM-SC)。将构建的算法应用于UCI机器学习数据库中心脏病数据集等3个混合型属性数据集进行聚类,验证算法对混合型属性数据聚类的优越性,通过与现有一些算法比较效果指标,结果表明提出算法能够更好地实现对混合型属性数据的聚类。 展开更多
关键词 混合属性数据 谱聚类 Jaccard距离 马氏距离
在线阅读 下载PDF
有混合数据输入的自适应模糊神经推理系统 被引量:5
11
作者 张宇献 郭佳强 +1 位作者 钱小毅 王建辉 《自动化学报》 EI CSCD 北大核心 2019年第9期1743-1755,共13页
现有数据建模方法大多依赖于定量的数值信息,而对于数值与分类混合输入的数据建模问题往往根据分类变量组合建立多个子模型,当有多个分类变量输入时易出现子模型数据分布不均匀、训练耗时长等问题.针对上述问题,提出一种具有混合数据输... 现有数据建模方法大多依赖于定量的数值信息,而对于数值与分类混合输入的数据建模问题往往根据分类变量组合建立多个子模型,当有多个分类变量输入时易出现子模型数据分布不均匀、训练耗时长等问题.针对上述问题,提出一种具有混合数据输入的自适应模糊神经推理系统模型,在自适应模糊推理系统的基础上,引入激励强度转移矩阵和结论影响矩阵,采用基于高氏距离的减法聚类辨识模型结构,通过混合学习算法训练模型参数,使数值与分类混合数据对模糊规则的前后件参数同时产生作用,共同影响模型输出.仿真实验分析了分类数据对模型规则后件的作用以及结构辨识算法对模糊规则数的影响,与其他几种混合数据建模方法对比表明本文所提出的模型具有较高的预测精度和计算效率. 展开更多
关键词 自适应模糊推理系统 结构辨识 激励强度转移矩阵 后件影响矩阵 混合属性数据
在线阅读 下载PDF
一种改进的BIRCH聚类算法 被引量:27
12
作者 蒋盛益 李霞 《计算机应用》 CSCD 北大核心 2009年第1期293-296,共4页
BIRCH算法是一种适应于大规模数据集的聚类算法,通过对所有叶节点设定统一阈值T来构建聚类特征(CF)树,并在各阶段采取不同的阈值来重建树,但没有给出一个合理设定阈值初值T及如何在各阶段提升阈值大小的具体方法。另外BIRCH算法只能处... BIRCH算法是一种适应于大规模数据集的聚类算法,通过对所有叶节点设定统一阈值T来构建聚类特征(CF)树,并在各阶段采取不同的阈值来重建树,但没有给出一个合理设定阈值初值T及如何在各阶段提升阈值大小的具体方法。另外BIRCH算法只能处理数值型数据,这使其应用受到限制。针对以上不足,对BIRCH算法做了以下改进:1)改进原BIRCH算法的CF结构,使其可以处理混合型属性数据集;2)启发式为BIRCH算法选择初始阈值T并给出了第二阶段提升阈值的具体操作方法;3)对BIRCH算法的参数B和L做了探讨,指出当参数B=L时算法性能相近,并提出为获得较好聚类效果时B值的取值范围。实验结果表明,改进后的BIRCH算法具有较好的性能。 展开更多
关键词 BIRCH算法 聚类 阈值 混合属性数据 数据挖掘
在线阅读 下载PDF
AC和FKP融合算法在民族突发事件聚类分析中的应用 被引量:2
13
作者 云健 刘勇奎 +1 位作者 陈华 于洪志 《华中科技大学学报(社会科学版)》 CSSCI 北大核心 2009年第1期117-121,共5页
近年来,我国民族突发事件的频发度及危害性均呈上升趋势。民族突发事件复杂程度高、涉及因素多、应急决策难度大,因此智能辅助决策非常必要。聚类分析是民族突发事件应急辅助决策的研究重点。目前,该项工作在我国尚处于起步阶段。针对FK... 近年来,我国民族突发事件的频发度及危害性均呈上升趋势。民族突发事件复杂程度高、涉及因素多、应急决策难度大,因此智能辅助决策非常必要。聚类分析是民族突发事件应急辅助决策的研究重点。目前,该项工作在我国尚处于起步阶段。针对FKP(Fuzzy K-Prototypes,模糊K原型)聚类算法存在易陷于局部最优解和对初始参数敏感的缺陷,提出了一种AC(Ant Colony,蚁群)和FKP融合的聚类算法。聚类分析结果表明:应用该算法能得出民族突发事件的发生规律,因此该算法可用于民族突发事件的应急智能辅助决策。以上工作为维护国家安全提供了智能化支持。 展开更多
关键词 模糊K原型聚类算法 蚁群算法 混合属性数据 民族突发事件 聚类分析
在线阅读 下载PDF
蚁群聚类在民族突发事件应急决策中的应用 被引量:1
14
作者 云健 刘勇奎 +2 位作者 何丽君 陈华 王双成 《计算机应用研究》 CSCD 北大核心 2009年第2期509-512,共4页
首先使用混合属性数据集表示民族突发事件中的数值信息和类属信息;然后,考虑到每个属性拥有不同权重因子,改进了蚁群聚类算法中相似度密度的计算方法;在此基础上,给出了一种混合属性数据集蚁群聚类算法。聚类分析结果表明,应用该算法能... 首先使用混合属性数据集表示民族突发事件中的数值信息和类属信息;然后,考虑到每个属性拥有不同权重因子,改进了蚁群聚类算法中相似度密度的计算方法;在此基础上,给出了一种混合属性数据集蚁群聚类算法。聚类分析结果表明,应用该算法能得出民族突发事件的发生规律,因此该算法可用于民族突发事件的应急智能辅助决策。该算法是应急预案自动生成等工作的基础,明确给出了未来工作的内容、方法和步骤,为维护国家安全提供了智能化支持。 展开更多
关键词 蚁群聚类算法 混合属性数据 民族突发事件 智能辅助决策
在线阅读 下载PDF
基于平均差异度的改进k-prototypes聚类算法 被引量:4
15
作者 石鸿雁 徐明明 《沈阳工业大学学报》 EI CAS 北大核心 2019年第5期555-559,共5页
针对k-prototypes聚类算法随机选取初始聚类中心导致聚类结果不稳定,以及现有的大多数混合属性数据聚类算法聚类质量不高等问题,提出了基于平均差异度的改进k-prototypes聚类算法.通过利用平均差异度选取初始聚类中心,避免了初始聚类中... 针对k-prototypes聚类算法随机选取初始聚类中心导致聚类结果不稳定,以及现有的大多数混合属性数据聚类算法聚类质量不高等问题,提出了基于平均差异度的改进k-prototypes聚类算法.通过利用平均差异度选取初始聚类中心,避免了初始聚类中心点选取的随机性,同时利用信息熵确定数值数据的属性权重,并对分类属性度量公式进行改进,给出了一种混合属性数据度量公式.结果表明,改进后的算法具有较高的准确率,能够有效处理混合属性数据. 展开更多
关键词 k-prototypes算法 聚类 初始聚类中心 混合属性数据 平均差异度 信息熵 属性权重 度量公式
在线阅读 下载PDF
基于量子聚类的异常入侵检测研究
16
作者 李志华 王士同 +1 位作者 王瑞伟 徐华 《计算机应用与软件》 CSCD 2010年第3期283-285,共3页
研究提出了一种混合属性样本的量子聚类算法,并应用于入侵检测的研究。通过给出一种新的混合属性的相异性度量方式和挖掘样本中的结构信息,并用量子势能确定聚类中心,提出了一种新的距离量子聚类MDQC(Weighted Mahalanobis Distance_bas... 研究提出了一种混合属性样本的量子聚类算法,并应用于入侵检测的研究。通过给出一种新的混合属性的相异性度量方式和挖掘样本中的结构信息,并用量子势能确定聚类中心,提出了一种新的距离量子聚类MDQC(Weighted Mahalanobis Distance_based Quantum Clustering)算法,该算法具有自学习能力。并基于该算法提出了一种新的异常检测方法。仿真实验表明,该检测方法是有效的,有一定的实用价值。 展开更多
关键词 异常检测 混合属性数据 量子势能 距离量子聚类算法
在线阅读 下载PDF
基于邻域粗糙隶属函数的离群点检测 被引量:3
17
作者 杨晓玲 张贤勇 《计算机工程与设计》 北大核心 2019年第2期533-539,共7页
针对传统粗糙集的离群点检测方法难以处理数值型属性数据的问题,提出基于邻域粗糙隶属函数的离群点检测方法,其适用于数据包括数值型、符号型与混合型。基于混合型距离与自适应半径,定义邻域粗糙隶属函数刻画对象离群程度,构建邻域粗糙... 针对传统粗糙集的离群点检测方法难以处理数值型属性数据的问题,提出基于邻域粗糙隶属函数的离群点检测方法,其适用于数据包括数值型、符号型与混合型。基于混合型距离与自适应半径,定义邻域粗糙隶属函数刻画对象离群程度,构建邻域粗糙离群因子实施离群点检测,设计相应的离群点检测算法NRMFOD。UCI数据对比实验结果表明,NRMFOD算法具有有效性,优于3种常用检测算法(RMF、RBD、DIS算法)。 展开更多
关键词 离群点检测 邻域粗糙集 粗糙隶属函数 混合属性数据 数据挖掘
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部