一种基于数据场的层次聚类方法被引量：83

An Hierarchical Clustering Method Based on Data Fields

在线阅读下载PDF

导出

摘要聚类分析是统计、模式识别和数据挖掘等领域中一个非常重要的研究课题,具有广泛的应用前景.受物理学中场论思想的启发,提出一种基于数据场的层次聚类方法.该方法将物质粒子间的相互作用及其场描述方法引入抽象的数域空间,通过模拟对象在虚拟数据场中的相互作用和运动实现数据对象的自组织层次聚集.实验显示,该方法不依赖于用户输入参数的仔细选择,能够发现任意大小和密度的非球形聚类,对噪声数据不敏感,且具有近似线性的收敛速度. Clustering is a promising application area for many fields including statistics,pattern recognition,data mining, etc. The effectiveness and efficiency of existing clustering techniques, however, is somewhat limited, owing to the huge amounts data collected in databases. According the theory of fields in physics, a hierarchical clustering method based on data fields is presented. The basic idea is that the field models is introduced to describe the virtual interaction among data objects in data space and the hierarchical partitioning of the original dataset is then performed by iteratively simulating the interaction and movement of the data objects in the fields. Experimental results show that the proposed approach not only enjoys favorite clustering quality and requires no careful parameters tuning, but also has a time complexity approximately linear with respect to the size of dataset.

作者淦文燕李德毅王建民

机构地区清华大学计算机系电子系统工程研究所

出处《电子学报》 EI CAS CSCD 北大核心 2006年第2期258-262,共5页 Acta Electronica Sinica

基金国家自然科学基金(No.60375016 No.60496323)

关键词聚类分析层次聚类数据场 cluster analysis hierarchical clustering data field

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

作者简介淦文燕女，1971年生于江西九江，博士后，主要研究方向为数据挖掘、数字水印。复杂网络。E-mail：wenyangan@163．com。李德毅男，1944年生于江苏镇江，博士生导师。中国工程院院士，主要研究方向为人工智能、数据挖掘、指挥自动化、智能控制。

引文网络
相关文献

参考文献10

1Jain A K,Murty M N,Flynn P J.Data clustering:a review[J].ACM Computing Surveys,1999,31(3):264-323.
2Za(i)ane O R,Foss A,Lee C H,Wang W.On data clustering analysis:scalability,constraints and validation[A].Proceedings of the Sixth Pacific Asia Conference on Knowledge Discovery and Data Mining[C].Taiwan:Springer-Verlag,2002.28-39.
3钱卫宁,周傲英.从多角度分析现有聚类算法(英文)[J].软件学报,2002,13(8):1382-1394. 被引量：86
4Zhang T,Ramakrishnman R,Linvy M.BIRCH:an efficient method for very large databases[A].Proceedings of ACM SIGMOD International Conference on Manangement of Data[C].Canada:ACM Press,1996.103-114.
5Guha S,Rastogi R,Shim K.CURE:an efficient clustering algorithm for large databases[A].Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data[C].Seattle:ACM Press,1998.73-84.
6George K,Han E H,Kumar V.CHAMELEON:a hierarchical clustering algorithm using dynamic modeling[J].IEEE computer,1999,27(3):329-341.
7Wright W E.Gravitational clustering[J].Pattern Recognition,1977,9(3):151-166.
8Oyang Y J,Chen C Y,Yang T W.A study on the hierarchical data clustering algorithm based on gravity theory[A].The 5th European Conference on Principles and Practive of Knowledge Discovery in Databases(PKDD2001)[C].Freiburg:Springer-Verlag,2001.350-361.
9Landau L D,Lifshitz E M.The classical theory of fields[M].Beijing:Beijing World Publishing Ltd,1999.
10淦文燕.聚类-数据挖掘中的基础问题研究[D].南京:解放军理工大学,2003.

二级参考文献36

1[1]Fasulo, D. An analysis of recent work on clustering algorithms. Technical Report, Department of Computer Science and Engineering, University of Washington, 1999. http://www.cs.washington.edu.
2[2]Baraldi, A., Blonda, P. A survey of fuzzy clustering algorithms for pattern recognition. IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics), 1999,29:786～801.
3[3]Keim, D.A., Hinneburg, A. Clustering techniques for large data sets - from the past to the future. Tutorial Notes for ACM SIGKDD 1999 International Conference on Knowledge Discovery and Data Mining. San Diego, CA, ACM, 1999. 141～181.
4[4]McQueen, J. Some methods for classification and Analysis of Multivariate Observations. In: LeCam, L., Neyman, J., eds. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967. 281～297.
5[5]Zhang, T., Ramakrishnan, R., Livny, M. BIRCH: an efficient data clustering method for very large databases. In: Jagadish, H.V., Mumick, I.S., eds. Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data. Quebec: ACM Press, 1996. 103～114.
6[6]Guha, S., Rastogi, R., Shim, K. CURE: an efficient clustering algorithm for large databases. In: Haas, L.M., Tiwary, A., eds. Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. 73～84.
7[7]Beyer, K.S., Goldstein, J., Ramakrishnan, R., et al. When is 'nearest neighbor' meaningful? In: Beeri, C., Buneman, P., eds. Proceedings of the 7th International Conference on Data Theory, ICDT'99. LNCS1540, Jerusalem, Israel: Springer, 1999. 217～235.
8[8]Ester, M., Kriegel, H.-P., Sander, J., et al. A density-based algorithm for discovering clusters in large spatial databases with noises. In: Simoudis, E., Han, J., Fayyad, U.M., eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD'96). AAAI Press, 1996. 226～231.
9[9]Ester, M., Kriegel, H.-P., Sander, J., et al. Incremental clustering for mining in a data warehousing environment. In: Gupta, A., Shmueli, O., Widom, J., eds. Proceedings of the 24th International Conference on Very Large Data Bases. New York: Morgan Kaufmann, 1998. 323～333.
10[10]Sander, J., Ester, M., Kriegel, H.-P., et al. Density-Based clustering in spatial databases: the algorithm GDBSCAN and its applications. Data Mining and Knowledge Discovery, 1998,2(2):169～194.

共引文献85

1刘英林,陈玉柱,丁文静,程红云.钢卷表面缺陷分布特征发现方法研究[J].冶金自动化,2020,44(1):27-31. 被引量：2
2毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
3李华,贾雪.基于FM度量的自适应K-Means聚类的工业生产运行基准挖掘[J].长春大学学报,2022,32(4):22-27.
4Qi Zhang,Jianshe Cao,Yanfeng Sui.Development of a research platform for BEPCⅡ accelerator fault diagnosis[J].Radiation Detection Technology and Methods,2020,4(3):269-276.
5郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
6王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
7张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
8杨涛,李龙澍.一种基于粗糙集聚类的数据约简算法[J].系统仿真学报,2004,16(10):2195-2197. 被引量：5
9张虎,郑家恒,刘江.汉语语料库词性标注自动校对方法研究[J].计算机应用,2005,25(1):17-19. 被引量：1
10栾丽华,吉根林.一种基于四叉树的快速聚类算法[J].计算机应用,2005,25(5):1001-1003. 被引量：6

同被引文献807

1吴冰,魏建,刘艳昌.基于粗糙集的图像增强智能决策方法[J].微计算机信息,2008,24(12):250-252. 被引量：3
2赫南,淦文燕,李德毅,康建初.一个小型演员合作网的拓扑性质分析[J].复杂系统与复杂性科学,2006,3(4):1-10. 被引量：16
3蒋嵘,李德毅,陈晖.基于云模型的时间序列预测[J].解放军理工大学学报（自然科学版）,2000,1(5):13-18. 被引量：37
4付淇,李正凡.基于CLIQUE的聚类算法研究[J].华东交通大学学报,2006,23(5):79-82. 被引量：12
5戴媛,程学旗.面向网络舆情分析的实用关键技术概述[J].信息网络安全,2008(6):62-65. 被引量：21
6黄力行,辛乐,赵礼悦,陶建华.自适应权重的双模态情感识别[J].清华大学学报（自然科学版）,2008,48(S1):715-719. 被引量：8
7陈守煜,胡吉敏,李敏.水电站导流洞围岩稳定性的可变模糊评价方法[J].北京工业大学学报,2009,35(4):464-469. 被引量：11
8王威,马东辉,苏经宇,韩阳,任磊,黎江林.基于二维多规则云模型定性推理的场地分类方法[J].北京工业大学学报,2009,35(10):1364-1372. 被引量：13
9李凯,田双亮,耿丽君,丁丽丽.基于数据场的人脸特征提取[J].西北民族大学学报（自然科学版）,2009,30(4):32-36. 被引量：2
10桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：22

引证文献83

1董莉娜,王如琪,刘群.一种结合数据势能的图像补全方法[J].计算机应用研究,2020,37(S02):362-364.
2毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
3赫南,淦文燕,李德毅,康建初.一个小型演员合作网的拓扑性质分析[J].复杂系统与复杂性科学,2006,3(4):1-10. 被引量：16
4李凯,田双亮,耿丽君,丁丽丽.基于数据场的人脸特征提取[J].西北民族大学学报（自然科学版）,2009,30(4):32-36. 被引量：2
5王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量：1
6符海东,李雪.免疫入侵检测中基于数据场的动态识别算法[J].计算机应用,2007,27(9):2160-2162. 被引量：2
7李学,苗夺谦,冯琴荣.基于数据场的粗糙聚类算法[J].计算机科学,2009,36(2):203-206. 被引量：9
8高忠科,金宁德.基于K-means聚类和数据场理论的复杂网络社团结构探寻[J].控制与决策,2009,24(3):377-382. 被引量：9
9王博,孙玉坤,嵇小辅.基于数据场聚类的模糊神经网络在发酵过程中的应用[J].仪器仪表学报,2009,30(5):944-948. 被引量：10
10淦文燕,赫南,李德毅,王建民.一种基于拓扑势的网络社区发现方法[J].软件学报,2009,20(8):2241-2254. 被引量：94

二级引证文献658

1罗丹.一种基于多维高斯云模型的过采样方法[J].周口师范学院学报,2020(2):104-107. 被引量：1
2塔什甫拉提·尼扎木丁,梁瑞宇,谢跃,赵力.采用原子表示模型的维吾尔语语音情感识别[J].信号处理,2020,36(1):9-17. 被引量：3
3费蓉,李莎莎,胡博,唐瑜,方金正.基于标签传播的拓扑势社区检测算法[J].计算机系统应用,2020(10):148-157. 被引量：2
4冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：15
5杨小军,徐忠富,贺正求,赵洋.基于犹豫云语言术语集的多指标群决策方法[J].计算机应用研究,2020,37(S01):55-57. 被引量：2
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7刘友超,张曦煌.基于自然最近邻相似图的谱聚类[J].计算机应用研究,2020,37(1):30-33. 被引量：7
8董锐辉,任向红.基于可拓学的军事训练质量评估研究[J].军事交通学报,2022(9):48-51.
9彭定永,兰小机,温振威.结合轨迹数据的城市居民出行热点识别与分析[J].江西测绘,2022(1):41-44.
10张煜,赵奉奎,张涌.基于单目视觉的智能车障碍物检测及测距算法研究[J].智能计算机与应用,2022,12(4):41-46. 被引量：3

1姜奇平.互联网的“场”论[J].互联网周刊,2004(12):66-67. 被引量：2
2鲜研.基于场论聚类的集成分类器隐写分析算法[J].信息安全与技术,2014,5(10):58-59.
3叶琳,楚电明,邱龙辉.基于智能手机的连杆机构运动实现方法研究[J].新技术新工艺,2012(10):13-15.
4王莉军,杨炳儒,谢永红.一种基于数据场的社区发现算法[J].计算机应用研究,2011,28(11):4142-4145. 被引量：6
5杨昀,谈士力,蔡征宇.基于两轮机器人运动模型的KaIman滤波视觉导航[J].机电一体化,2010,16(6):32-36.
6黄小金.互联网＋停车场论道停车场新生态[J].A&S（安全&自动化）,2015(12):32-32.
7遇铁龄,张化祥.基于场论的聚类算法[J].计算机工程与设计,2010,31(21):4674-4677.
8戴晓军,刘常昱,韩旭,李德毅.数据场在信息表征中的应用[J].复旦学报（自然科学版）,2004,43(5):933-937. 被引量：9
9王婧,朱军,韩冬斌,张环宇,荣胜波.钢管管号自动识别系统研究与设计[J].机床与液压,2014,42(16):115-118. 被引量：1
10何建军,李仁发.改进的随机游走模型节点排序方法[J].计算机工程与应用,2011,47(12):87-89. 被引量：7

电子学报

2006年第2期

浏览历史

内容加载中请稍等...

一种基于数据场的层次聚类方法被引量：83

参考文献10

二级参考文献36

共引文献85

同被引文献807

引证文献83

二级引证文献658

相关作者

相关机构

相关主题

浏览历史

一种基于数据场的层次聚类方法 被引量：83

参考文献10

二级参考文献36

共引文献85

同被引文献807

引证文献83

二级引证文献658

相关作者

相关机构

相关主题

浏览历史

一种基于数据场的层次聚类方法被引量：83