大数据环境下一种基于模式匹配的实体统一方法被引量：4

A METHOD OF ENTITY RESOLUTION BASED ON PATTERN MATCHING IN BIG DATA ENVIRONMENT

在线阅读下载PDF

导出

摘要实体统一是数据融合中的重点研究内容。传统的实体统一方法主要针对小数据集,重点关注统一结果的准确性,随着大数据时代的到来,传统的实体统一方法由于时间复杂度较高,难以处理海量的数据集,快速地筛选出有价值的数据成为大数据环境下更值得关注的问题。提出一种适应于大数据环境下的实体统一方法,通过数据分块、块内模式匹配以及块间模式匹配进行实体统一,其中,模式匹配采用了一种基于模式快速扫描算法,在尽量不损失精度的同时提高实体统一计算效率。结合Spark框架,基于DBLP数据集验证了该方法在保证数据实体统一质量的基础上具有良好的时效性。 Entity resolution（ER） is the main contents of data fusion. Traditional method of entity resolution mainly focuses on the small data set, focusing on the accuracy of the resolution. With development of big data, traditional ER is difficult to deal with massive data sets due to the high time complexity, and the rapid retrieval of valuable data becomes a more important issue in the big data environment. This paper proposes a method of ER in big data environment, which is solved by data blocking, intra block pattern matching and pattern matching between block and block. Among them, the pattern matching uses a pattern rapid scanning algorithm as far as possible without loss of precision while improving the computational efficiency of ER. Combining with the Spark framework, the DBLP dataset is used to verify that the method has good timeliness, guaranteeing the quality of ER.

作者熊安萍詹妮邹毅龙林波 Xiong Anping1,Zhan Ni2,Zou Yi3,Long Linbo1(1.School of Computer Science and Technology,Chongqing University of Posts and Telecommunications, Chongqing 400065,China;2.School of Software Engineering,Chongqing University of Posts and Telecommunications, Chongqing 400065,China;3.Chongqing Municipal Public Security Bureau of Network Security Corps, Chongqing 401121,Chin)

机构地区重庆邮电大学计算机科学与技术学院重庆邮电大学软件学院重庆市公安局网安总队

出处《计算机应用与软件》北大核心 2018年第8期87-92,97,共7页 Computer Applications and Software

基金重庆市基础科学与前沿技术研究项目(cstc2017jcyjAX0164)

关键词实体统一数据融合大数据模式匹配 Entity resolution Data fusion Big data Pattern matching

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

作者简介熊安萍，教授，主研领域：海量信息处理与大数据安全。;詹妮，硕士。;邹毅，高级工程师。;龙林波，博士。

引文网络
相关文献

参考文献2

1孟小峰,杜治娟.大数据融合研究:问题与挑战[J].计算机研究与发展,2016,53(2):231-246. 被引量：136
2刘辉平,金澈清,周傲英.一种基于模式的实体解析算法[J].计算机学报,2015,38(9):1796-1808. 被引量：6

二级参考文献21

1Elmagarmid A K. Ipeirotis P G. Verykios V S. Duplicate record detection: A survey. IEEE Transactions on Knowledge and Data Engineering. 2007. 19(1): 1-16.
2Hernandez M A. Stolfo SJ. Real-world data is dirty: Data cleansing and the merge/purge problem. Data Mining and Knowledge Discovery. 1998. 2(1): 9-37.
3Christen P. Data Matching: Concepts and Techniques for Record Linkage. Entity Resolution. and Duplicate Detection. Berlin: Springer. 2012.
4Jain A K. Murty M N. Flynn PJ. Data clustering: A review. ACM Computing Surveys. 1999. 31(3): 264-323.
5Winkler W E. Overview of Record Linkage and Current Research Directions. Washington: Statistical Research Division. 2006.
6Benjelloun O. Garcia-Molina H. Menestrina D. et al. Swoosh: A generic approach to entity resolution. The InternationalJournal on Very Large Data Bases. 2009. 18 (1): 255-276.
7Monge A E. Elkan C P. An efficient domain-independent algorithm for detecting approximately duplicate database records//Proceedings of the 2nd ACM SIGMOD Workshop Research Issues in Data Mining and Knowledge Discovery. Vancouver. Canada. 1997: 23-29.
8Fellegi I P. Sunter A B. A theory for record linkage.Journal of the American Statistical Association. 1969. 64 (328): 1183-1210.
9Hernandez M A. Stolfo SJ. The merge/purge problem for large databases//Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data. SanJose. USA. 1995. 24(2): 127-138.
10Garcia-Molina H. UllmanJ D. WidomJ. Database System Implementation. Upper Saddle River. NJ: Prentice Hall. 2000.

共引文献140

1邱均平,余波,杨思洛.大数据背景下一门交叉学科的兴起——论数据计量学的构建[J].中国图书馆学报,2021,47(5):48-58. 被引量：22
2李广建,陈瑜.知识融合研究的现状分析及建议[J].图书情报工作,2019,63(1):41-51. 被引量：4
3王春凯,冯键.跨界数据融合在保险行业中的应用[J].保险理论与实践,2019,0(3):38-50.
4金澈清,刘辉平,周傲英.基于函数依赖与条件约束的数据修复方法[J].软件学报,2016,27(7):1671-1684. 被引量：16
5高继平,马峥,潘云涛,张玉华.大数据领域代表性专家识别与分析——文献计量学视角[J].科技管理研究,2016,36(16):177-182. 被引量：5
6刘雅思,程力,李晓.基于长度过滤和动态容错的SNM改进算法[J].计算机应用研究,2017,34(1):147-150. 被引量：9
7马晓亭.图书馆多源大数据融合研究:问题与挑战[J].新世纪图书馆,2017(1):28-31. 被引量：11
8黎建辉,沈志宏,孟小峰.科学大数据管理:概念、技术与系统[J].计算机研究与发展,2017,54(2):235-247. 被引量：74
9马旭,王大勇.大数的阶乘与自然对数的超高精度求解[J].计算机与现代化,2017(3):51-53. 被引量：1
10韩震,孙红.基于Hadoop的分布式平台实现[J].软件导刊,2017,16(3):56-58. 被引量：2

同被引文献47

1李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：6
2雷明,陈一悰,刘峰,何鸣一,樊磊.D5000继电保护设备在线监视及分析应用提升[J].电网技术,2020,44(3):1197-1202. 被引量：19
3潘玉超,董巧巧.多传感器数据融合应用及展望[J].科技风,2008(12):42-42. 被引量：1
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
5时继庆,高冰,王书宁.机载复合探测器信息融合方法研究[J].长春理工大学学报（自然科学版）,2008,31(2):23-26. 被引量：3
6徐洪华,王艳春,董光,师为礼.社区健康档案管理系统的数据集成方案设计[J].长春理工大学学报（自然科学版）,2011,34(1):122-125. 被引量：1
7黄岳嵘,徐晓钟,张益铭,王劲松.基于ARIMA和神经网络模型的城市燃气负荷预测[J].计算机应用与软件,2011,28(12):206-209. 被引量：8
8胡军伟,秦奕青,张伟.正则表达式在Web信息抽取中的应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):86-89. 被引量：41
9王倩,季红.基于MVC的web与Android双模式在线教学平台的研究与设计[J].软件,2013,34(10):66-69. 被引量：16
10王鹏,王健安,郭畅,巴济慈.基于云计算及数据挖掘技术的海量数据处理研究[J].长春理工大学学报（自然科学版）,2013,36(6):157-160. 被引量：10

引证文献4

1李昆.基于Android平台的智慧城市客户端设计与实现[J].软件导刊,2019,18(2):76-78. 被引量：2
2范威振,陈占芳,刘燕龙.基于多维相似度的整体式实体统一算法研究[J].长春理工大学学报（自然科学版）,2019,42(4):114-119. 被引量：1
3倪家明,陈博,董阳,李旭.一种基于时段特征的匹配算法在智能电表用电预测中的应用研究[J].计算机应用与软件,2020,37(3):82-88. 被引量：4
4彭曙蓉,郭丽娟,陈慧霞,王冠南.基于特征增强的变电站保护装置录波通道同源匹配研究[J].电力科学与技术学报,2024,39(6):53-59.

二级引证文献7

1周星辰,刘家辉,史梦娅,陈彦儒,牛云云.基于Android平台的市政维护管理APP[J].软件导刊,2020,19(2):48-52.
2王凯,黄丹,梁晓伟,陶琳.智能电表数据异常在线检测的无监督学习[J].电子测量技术,2021,44(8):125-129. 被引量：3
3王怀波,郑勤华.互联网社区中网络化知识实体抽取研究[J].开放学习研究,2022,27(2):7-16. 被引量：6
4李岸宁,李辉,梁轶群.铁路5G专网大尺度信道建模[J].铁道标准设计,2022,66(8):162-167. 被引量：6
5郭利军,茹东武,卫星,侯俊飞,车帅.智能变电站二次设备软件版本在线管控系统的设计和应用[J].计算机应用与软件,2023,40(6):7-11. 被引量：4
6杨元,郭庆.基于小波去噪和时频分析的智能电表量测数据挖掘研究[J].电子设计工程,2024,32(7):78-81. 被引量：1
7李方方,刘新娥,王校建,胡蕊.基于移动跨平台技术的智慧城市平台研究与实践[J].产业科技创新,2024,6(6):68-72.

1董志强,刘永年,魏丽华.基于图的半监督模糊聚类方法研究[J].数字技术与应用,2017,35(12):97-98. 被引量：2
2董志强,刘永年,魏丽华.基于图的半监督可能性聚类方法研究[J].信息与电脑,2018,30(3):45-47.
3罗久.论黑格尔对费希特主观观念论的批判——以耶拿时期的“知识学”为中心[J].人文杂志,2017(10):28-36. 被引量：1
4刘永楠,李建中,高宏.海量不完整数据的核心数据选择问题的研究[J].计算机学报,2018,41(4):915-930. 被引量：6
5张伟,祁德昊,陈云芳.大规模网络中基于LDA模型的重叠社区发现[J].南京邮电大学学报（自然科学版）,2018,38(3):54-64. 被引量：1
6李生福,赵宇,陈光华,罗振雄,叶雁.选择型照明傅里叶叠层成像提取粒子尺度(英文)[J].红外与激光工程,2017,46(11):39-46. 被引量：3
7闫保中,王强军.农田图像导航线检测技术研究[J].应用科技,2018,45(2):65-69. 被引量：2
8陈萌,孙洁,洪胜,林秀龙,董剑业.分块置乱算法在心电数据安全存储中的应用[J].宁波工程学院学报,2018,30(2):53-60. 被引量：1
9穆东,于伟.基于VRP模型的H公司产品配送路径优化研究[J].企业改革与管理,2018(9):62-64.
10杨青.供电企业电费核算要求和电费管理措施分析[J].名城绘,2018,0(5):611-611.

计算机应用与软件

2018年第8期

浏览历史

内容加载中请稍等...

大数据环境下一种基于模式匹配的实体统一方法被引量：4

参考文献2

二级参考文献21

共引文献140

同被引文献47

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

大数据环境下一种基于模式匹配的实体统一方法 被引量：4

参考文献2

二级参考文献21

共引文献140

同被引文献47

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

大数据环境下一种基于模式匹配的实体统一方法被引量：4