期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于合成数据预训练基础模型的表格数据聚类方法
1
作者 李培文 李飞江 +1 位作者 王婕婷 钱宇华 《计算机研究与发展》 北大核心 2025年第9期2139-2151,共13页
随着数据采集与数据存储技术的飞速发展,各行业收集并存储了大量无标记的表格数据.聚类分析是挖掘这类数据潜在分组结构的重要方法.目前,处理表格数据的聚类方法多数仍然是传统聚类算法.深度学习技术和大模型技术主要用于处理非结构化... 随着数据采集与数据存储技术的飞速发展,各行业收集并存储了大量无标记的表格数据.聚类分析是挖掘这类数据潜在分组结构的重要方法.目前,处理表格数据的聚类方法多数仍然是传统聚类算法.深度学习技术和大模型技术主要用于处理非结构化的图像、文本、语音等数据类型,其强大的表示能力和推理能力在结构化的表格数据处理中仍难以发挥优势. 2025年,《Nature》刊发的TabPFN是一种可用于高效处理分类和回归任务的表格数据基础模型,为表格数据学习提供了新的基础.受此启发,提出了一种基于合成数据预训练基础模型的表格数据聚类方法,主要包括预训练阶段和迭代推理阶段.其中,预训练阶段基于传统数据聚类算法和TabPFN模型获得无标记表格数据的初始伪标签,迭代推理阶段基于微调后的TabPFN模型循环更新伪标签以得到聚类结果.在基准数据集上的大量实验分析表明,改进方法显著提高了7种代表性聚类算法的性能. 展开更多
关键词 聚类分析 表格数据学习 基础模型 迭代推理 无监督学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部