-
题名表格数据生成技术综述
- 1
-
-
作者
王永鑫
徐鑫
朱鸿斌
-
机构
复旦大学金融科技研究院
复旦大学计算与智能创新学院
上海立信会计金融学院计算机与人工智能学院
-
出处
《计算机科学》
北大核心
2025年第10期3-12,共10页
-
基金
国家自然科学基金青年基金(62306077)
国家重点研发计划(2023YFC3305304)。
-
文摘
表格数据因在金融、医疗等关键领域广泛应用而具有重要价值。然而,对于表格数据的有效利用,常受到数据稀缺、类别不平衡及隐私法规的严格制约。为应对这些挑战,通过生成模型合成在统计特性上与真实数据高度相似的样本,已成为一种新兴的解决方案,旨在增强数据可用性并保护用户隐私。该领域的技术发展路径从传统的深度学习模型逐步演进至前沿范式。早期的探索以变分自编码器和生成对抗网络为代表,但这些方法常面临训练不稳定和模式坍塌等瓶颈,影响了生成数据的质量。为克服这些难题,扩散模型应运而生,其通过渐进式的去噪过程,在生成高保真度和多样性的样本方面展现出显著优势。尽管如此,这些模型的核心仍是模仿统计分布,缺乏对现实世界常识的理解。为此,最新的研究转向基于大型语言模型的方法,利用其丰富的世界知识,旨在生成不仅统计真实,而且在逻辑与语义上也更合理的合成表格数据。对该领域的系统性回顾,旨在为研究者和从业者提供全面的技术认知,并为不同应用场景下选择最合适的技术路径提供决策参考。
-
关键词
表格数据生成
大语言模型
生成方法
-
Keywords
Tabular data generation
Large language model
Generative methods
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-