期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于簇间连接的元聚类集成算法 被引量:3
1
作者 杜淑颖 丁世飞 邵长龙 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期961-969,共9页
聚类集成已经成为数据挖掘和机器学习中的热门研究课题,尽管近年来取得了重大进展,但目前聚类集成的研究仍存在两个具有挑战性的问题.首先,大部分集成算法倾向于在对象的层面研究相似度,缺乏发掘簇层面信息的能力;其次,目前许多集成算... 聚类集成已经成为数据挖掘和机器学习中的热门研究课题,尽管近年来取得了重大进展,但目前聚类集成的研究仍存在两个具有挑战性的问题.首先,大部分集成算法倾向于在对象的层面研究相似度,缺乏发掘簇层面信息的能力;其次,目前许多集成算法仅仅关注簇内对象的直接共现,忽略了簇与簇之间的关系.针对这两个问题,提出一种基于簇间连接的元聚类集成算法,首先根据Jaccard相似度构造一个簇相似度矩阵,然后利用连接三元组细化这个相似度矩阵,最后通过图划分和成员分配得到最后的结果.理论分析和实验测试表明,提出的算法不仅能产生较好的聚类结果,而且受聚类集成规模的影响较小. 展开更多
关键词 簇间相似性 聚类集成 聚类 连接三元组 元聚类
在线阅读 下载PDF
基于CNN的假冒域名识别方法研究 被引量:3
2
作者 杜淑颖 杜鹏 丁世飞 《中国科学技术大学学报》 CAS CSCD 北大核心 2020年第7期1019-1025,共7页
近年来,以僵尸网络为载体的各种网络攻击活动是目前互联网面临的安全威胁之一,各种恶意软件使用域名生成算法(domain generation algorithm,DGA)自动生成大量伪随机域名以连接到命令和控制服务器.为此提出以基于卷积神经网络(CNN)的方... 近年来,以僵尸网络为载体的各种网络攻击活动是目前互联网面临的安全威胁之一,各种恶意软件使用域名生成算法(domain generation algorithm,DGA)自动生成大量伪随机域名以连接到命令和控制服务器.为此提出以基于卷积神经网络(CNN)的方法来检测和分类伪随机域名.简要介绍了僵尸网络的危害、基本原理以及假冒域名在僵尸网络中的作用.在分析DGA算法的原理以及传统的DGA域名识别算法的缺陷以后,将重点放在基于卷积神经网络的假冒域名识别方法研究.阐述了关于卷积神经网络的基本概念,模拟了在不同的超参数,不同的激励函数下模型对于解决分类问题效果的差异.分析了数据预处理的原理、模型定义中对于超参数和激励函数、学习速率等选择的合理性.在模型运行结果分析时,给出了卷积神经网络模型识别域名的准确率和损失函数的变化,使用准确率、召回值、F1值、ROC曲线等评估指标,各项指标均显示模型取得了优秀的分类效果,证明了基于CNN的假冒域名识别是一个可靠的方法. 展开更多
关键词 域名生成算法 混合词向量 深度学习 卷积神经网络
在线阅读 下载PDF
基于多层次特征的深度集成聚类算法 被引量:3
3
作者 杜淑颖 侯海薇 丁世飞 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第4期575-581,共7页
深度聚类在高维较大数据集中应用广泛,得益于神经网络强大的数据特征提取能力,但目前的深度聚类特征提取一般集中在神经网络的中间层,忽略了浅层特征的有用信息.为解决上述问题,提出一种基于神经网络多层特征提取的集成聚类算法(Deep En... 深度聚类在高维较大数据集中应用广泛,得益于神经网络强大的数据特征提取能力,但目前的深度聚类特征提取一般集中在神经网络的中间层,忽略了浅层特征的有用信息.为解决上述问题,提出一种基于神经网络多层特征提取的集成聚类算法(Deep Ensemble Clustering Based on Multi-Level Features,DCMLF),使用三个只有卷积层数不同而其他参数相同的网络结构提取同一个输入的不同层次特征,并进行集成聚类.通过不同层次特征组合实验验证浅层特征对聚类结果的影响,并证明该算法同经典的传统聚类算法以及经典的深度聚类算法相比,聚类性能有所提升. 展开更多
关键词 神经网络 特征提取 深度聚类 集成聚类
在线阅读 下载PDF
基于电子分层模型和凝聚策略的密度峰值聚类 被引量:2
4
作者 杜淑颖 施天豪 丁世飞 《南京理工大学学报》 CAS CSCD 北大核心 2021年第4期385-393,共9页
密度峰值聚类算法(Density peaks clustering,DPC)是一种基于密度的新型聚类算法。该算法的优点十分显著:所需参数较少,没有迭代过程,能自适应获得聚类数目并识别任意形状的簇类。该算法也有一些问题亟待解决:(1)在决策图上人工选择聚... 密度峰值聚类算法(Density peaks clustering,DPC)是一种基于密度的新型聚类算法。该算法的优点十分显著:所需参数较少,没有迭代过程,能自适应获得聚类数目并识别任意形状的簇类。该算法也有一些问题亟待解决:(1)在决策图上人工选择聚类中心,产生聚类误差;(2)在密度不同的流形数据集上聚类效果不佳。针对这些不足,该文提出一种基于电子分层模型和凝聚策略的密度峰值聚类算法(Density peaks clustering based on electronic shells model and merging strategy,EMDPC)。其利用电子分层模型计算每个数据点的局部密度,更易识别出低密度簇;通过子簇凝聚策略自适应识别簇类数目,降低了人工选取聚类中心时误差发生的概率;并且子簇凝聚策略能较好地解决DPC在密度不均匀的流形数据上聚类效果不佳的问题。实验分析表明基于电子分层模型和凝聚策略的密度峰值聚类算法具有较高的精度和较好的聚类性能,其结果优于其他先进的聚类算法。 展开更多
关键词 密度峰值聚类 电子分层模型 凝聚策略 相似度度量
在线阅读 下载PDF
王雪莹作品
5
作者 王雪莹 《现代城市研究》 北大核心 2023年第7期I0009-I0009,共1页
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部