-
题名基于合成数据预训练基础模型的表格数据聚类方法
- 1
-
-
作者
李培文
李飞江
王婕婷
钱宇华
-
机构
山西大学大数据科学与产业研究院
演化科学智能山西省重点实验室(山西大学)
-
出处
《计算机研究与发展》
北大核心
2025年第9期2139-2151,共13页
-
基金
国家自然科学基金项目(62441239,62476160,62306170,62136005,U24A20253)。
-
文摘
随着数据采集与数据存储技术的飞速发展,各行业收集并存储了大量无标记的表格数据.聚类分析是挖掘这类数据潜在分组结构的重要方法.目前,处理表格数据的聚类方法多数仍然是传统聚类算法.深度学习技术和大模型技术主要用于处理非结构化的图像、文本、语音等数据类型,其强大的表示能力和推理能力在结构化的表格数据处理中仍难以发挥优势. 2025年,《Nature》刊发的TabPFN是一种可用于高效处理分类和回归任务的表格数据基础模型,为表格数据学习提供了新的基础.受此启发,提出了一种基于合成数据预训练基础模型的表格数据聚类方法,主要包括预训练阶段和迭代推理阶段.其中,预训练阶段基于传统数据聚类算法和TabPFN模型获得无标记表格数据的初始伪标签,迭代推理阶段基于微调后的TabPFN模型循环更新伪标签以得到聚类结果.在基准数据集上的大量实验分析表明,改进方法显著提高了7种代表性聚类算法的性能.
-
关键词
聚类分析
表格数据学习
基础模型
迭代推理
无监督学习
-
Keywords
clustering analysis
tabular data learning
foundation model
iterative inference
unsupervised learning
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP309
[自动化与计算机技术—计算机系统结构]
-