-
题名关于二部图谱聚类泛化性的研究
- 1
-
-
作者
梁伟轩
刘新旺
蓝龙
祝恩
-
机构
国防科技大学计算机学院
-
出处
《计算机学报》
北大核心
2025年第5期1065-1081,共17页
-
基金
国家自然科学基金面上项目(No.62276271)
国家自然科学基金杰出青年科学基金项目(No.62325604)资助。
-
文摘
谱聚类算法是一种重要的聚类算法,能够在多种应用场景中取得理想的聚类效果,但较高的计算复杂度限制了其在大规模数据集上的应用。为了提高计算效率,研究者开发了二部图谱聚类算法。具体来说,此类方法仅选取部分训练集作为锚点集,并利用整个训练集和锚点集构建二部图,再利用该二部图进行近似的谱聚类。然而,这类方法存在以下三个没有被充分研究的问题:一是二部图谱聚类算法是否具备泛化性;二是如何快速获取训练集外顶点的低维嵌入;三是如何选择锚点数规模,使算法达到统计精度和计算开销的最佳平衡。针对上述三个问题,本文先是建立了谱聚类泛化分析的框架,并根据谱聚类的一致性,推导了标准NCut算法的泛化风险上界和额外风险上界。接着,本文分析了针对标准NCut的一种近似算法的泛化性,即基于Nystrom方法的二部图谱聚类算法。根据所得到的二部图谱聚类的泛化理论,本文提出了一种能够快速获取训练集外顶点低维嵌入的算法。此外,本文还通过上述理论提出了一种锚点数选择的策略,即锚点数为Θ(√n)时,算法达到统计精度与计算效率的最佳平衡。最后,本文在基准数据集上验证了所提出算法的有效性和理论结果的正确性。
-
关键词
谱聚类
二部图
泛化分析
聚类风险
-
Keywords
spectral clustering
bipartite graph
generalization analysis
clustering risk
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于跨视图二部图图扩散的多视图聚类
- 2
-
-
作者
王劲夫
王思为
梁伟轩
于胜举
祝恩
-
机构
国防科技大学计算机学院
智能博弈与决策实验室
-
出处
《计算机科学》
北大核心
2025年第7期69-74,共6页
-
基金
科技部重大项目(2022ZD020910)。
-
文摘
多视图聚类是无监督学习领域的一个研究热点。最近,基于跨视图图扩散的方法有效利用了多个视图之间的互补信息,取得了较好的效果。但这类方法的时间和空间复杂度较高,限制了其在大规模数据集上的应用。针对此问题,提出基于二部图跨视图图扩散的多视图聚类方法,成功将立方的时间复杂度和平方的空间复杂度降低至线性,从而可以高效地处理大规模聚类任务。使用二部图代替全图进行跨视图图扩散,并对基于全图的跨视图图扩散公式进行修改以适应二部图输入。在6个基准数据集上的实验结果表明,所提出的方法在聚类精度和运行效率方面比大多现有多视图聚类方法更具优势。在小规模数据集上,所提方法中的准确度等指标普遍高于对比算法5%以上;在大规模数据集上,所提方法的优势更加明显,其ACC和NMI等指标高于对比算法15%~30%。
-
关键词
多视图聚类
跨视图图扩散
二部图
大规模数据集应用
-
Keywords
Multi-view clustering
Cross-view graph diffusion
Bipartite graph
Large-scale dataset applications
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-