中文短文本去重方法研究被引量：4

Research on method to detect reduplicative Chinese short texts

在线阅读下载PDF

导出

摘要针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以及中文与英文之间的区别,引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重,第二阶段由SimHash算法进行相似去重。设计了该算法框架的各项参数,并通过仿真实验证实了该算法框架的可行性及合理性。 The article presents an effective algorithm framework for text de-duplication, focusing on redundancy problem of Chinese short texts. In view of the brevity and huge volumes of short texts, Bloom Filter have been introduced, Trie tree and the SimHash algorithm have been introduced. In the first stage of the algorithm framework, Bloom Filter or Trie tree is designed to remove duplications completely;in the second stage, the SimHash algorithm is used to detect similar duplications. This text has designed the parameters used in the algorithm framework, and the feasibility and rationality is testified.

作者高翔李兵

机构地区北京大学汇丰商学院对外经济贸易大学信息学院

出处《计算机工程与应用》 CSCD 2014年第16期192-197,共6页 Computer Engineering and Applications

基金教育部人文社会科学项目(No.11YJA870017)

关键词文本去重中文短文本 TRIE树 SimHash算法 Bloom Filter text de-duplication Chinese short texts Bloom Filter Trie tree SimHash algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

作者简介高翔，男，硕士；李兵，男，博士，副教授。E-mail：gx8600@126．com

引文网络
相关文献

参考文献29

1耿崇,薛德军.中文文档复制检测方法研究[J].现代图书情报技术,2007(6):33-37. 被引量：4
2曹玉娟,牛振东,赵堃,彭学平.基于概念和语义网络的近似网页检测算法[J].软件学报,2011,22(8):1816-1826. 被引量：15
3鲍军鹏,沈钧毅,刘晓东,宋擒豹.自然语言文档复制检测研究综述[J].软件学报,2003,14(10):1753-1760. 被引量：69
4Manber U.Finding similar files in a large file system[C]// Proceedings of the Winter USENIX Conference, 1994 : 1-10.
5Heintze N.Scalable document fingerprinting[C]//Proceedings of the 2nd USENIX Workshop on Electronic Commerce. 1996.http ://www.cs.cmu.edu/afs/cs/user/nch/www/koala/main. html.
6Broder A Z,Glassman S C,Manasse M S.Syntactic clus- tering of the Web[C/OL]//Proceedings of the 6th Interna- tional Web Conference. 1997.http ://gatekeeper.research.com- paq.com/pub/DEC/SRC/technical-notes/SRC- 1997-015-html/.
7Brin S,Davis J,Garcia-Molina H.Copy detection mech- anisms for digital documents[C]//Proceedings of the ACM SIGMOD Annual Conference, 1995.
8Monostori K, Zaslavsky A, Schmidt H.MatchDetectReveal : finding overlapping and similar digital documents[C/OLJ// Proceedings of the Information Resources Management Association International Conference(IRMA2000), 2000. http : //www.csse.monash.edu.au/ projects/MD R/papers/.
9Monostori K,Zaslavsky A,Vajk I.Suffix vector:a space- efficient representation of a suffix tree[R].2001.
10Wise MJ.YAP3: Improved detection of similarities in computer programs and other texts[C/OL].Proceedings of the SIGCSE' 96.1996 : 130-134.http ://citeseer.nj.nec. com/wise96yap.html.

二级参考文献79

1韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
4鲍军鹏,沈钧毅,刘晓东.一个基于网格的文本复制检测系统[J].微电子学与计算机,2004,21(9):7-10. 被引量：7
5王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110. 被引量：5
6史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57. 被引量：36
7王咏梅,陈家琪,耿玉良.一种可交互的数据清洗系统[J].计算机工程与设计,2005,26(4):955-957. 被引量：7
8白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
9金博,史彦军,滕弘飞.中文文档复制检测系统研究[J].计算机工程,2005,31(19):79-81. 被引量：9
10陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11

共引文献204

1陈林,穆慧,林周辉,杨贤房.基于POI的南昌市汽车服务业空间分布特征研究[J].赣南师范大学学报,2018,39(6):98-102. 被引量：4
2卢小康,王小华,王荣波.一种句子级别的中文文本复制检测方法[J].杭州电子科技大学学报（自然科学版）,2009,29(6):45-48. 被引量：1
3徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
4曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：32
5王雯,廖祥忠.数字图像作品抄袭鉴定研究[J].大连理工大学学报,2011,51(S1):98-101.
6白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
7金博,史彦军,滕弘飞.中文文档复制检测系统研究[J].计算机工程,2005,31(19):79-81. 被引量：9
8金博,史彦军,滕弘飞.基于篇章结构相似度的复制检测算法[J].大连理工大学学报,2007,47(1):125-130. 被引量：28
9连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
10邓爱萍,徐国梁,肖奔.基于串匹配方法的源代码复制检测技术研究[J].科学技术与工程,2007,7(10):2251-2254. 被引量：9

同被引文献33

1刘俊辉.MD5消息摘要算法实现及改进[J].福建电脑,2007,23(4):92-93. 被引量：10
2CHODOROWKristina.MongoDB权威指南[M].北京:人民邮电出版社,2010.
3MANBER U. Finding similar files in a large file system [C]// Proceedings of the Winter 1994 USENIX Technical Conference. San Fransisco, CA, USA: [s.n.], 1994: 1-10.
4BRODER A Z. On the resemblance and containment of docu- ments [C]// Proceedings of the International Conference on Com- pression and Complexity of Sequences. Salerno, Italy: [s.n.], 1997 : 21-29.
5RIVEST R. The MD5 message- digest algorithm [J]. RFC 1321, Internet Engineering Task Force, 1992, 22(1) : 15- 26.
6Manyika J, Chui M, Brown B, et al. Big Data: The Next Frontier for Innovation, Competition, and Productivity. McKinsey Global Institute, 2011.
7Gray J. What Next A Dozen Information-Technology Research Goals[Technical Report]. Microsoft Research, 1999 MS-TR-99-50.
8Bolosky WJ, Corbin S, Goebel D, Douceur JR. Singleinstance storage in Windows 2000. Proc. of the 4th USENIX Windows System Symposium, August 2000.
9Quinlan S, Dorward S. Venti: a new approach to archival storage. Proc. of the First USENIX Conference on File and Storage Technologies. Monterey, CA, USA. 2002.
10Muthitacharoen A, Chen B, Mazieres D. A low-bandwidth network file system. Proc. of the Symposium on Operating Systems Principles. 2001.74-187.

引证文献4

1贺建英,袁小艳,唐青松.大数据下基于多CPU的两级指纹流水计算去重方法[J].计算机系统应用,2015,24(8):206-211. 被引量：1
2贺建英.大数据下MongoDB数据库档案文档存储去重研究[J].现代电子技术,2015,38(16):51-55. 被引量：11
3贺建英.大数据下档案文档图片化去重模型研究[J].微型电脑应用,2015,31(10):25-26. 被引量：2
4王俊驰.基于大数据的互联网舆情监管系统设计与实现[J].广播与电视技术,2017,44(10):26-29. 被引量：2

二级引证文献16

1窦芳.基于数据仓库的科研成果管理决策支持系统的研究与实现[J].现代电子技术,2016,39(7):120-123. 被引量：7
2杜楚,彭会湘,陈勇.以文档结构存储海量卫星遥测数据[J].无线电工程,2017,47(1):46-48. 被引量：3
3孙奇,王建国,刘海燕.链路层光纤网络被动数据存储方法研究[J].激光杂志,2017,38(7):36-39. 被引量：3
4李兴武.大数据下MongoDB数据库数据文档存储去重研究[J].数字技术与应用,2017,0(9):99-99. 被引量：2
5贾方,张润寒,葛莉.物联网多源异构型目标数据优化查询仿真[J].计算机仿真,2017,34(12):435-438. 被引量：6
6张仕学.大型文本数据库中分布式数据去重备份方法[J].科学技术与工程,2018,18(4):310-315. 被引量：5
7伍业雄.基于MongoDB和Spark的计量大数据处理技术方案及应用[J].信息与电脑,2018,30(7):141-144. 被引量：3
8刘磊.面向视听节目舆情的动态监测系统探讨[J].广播与电视技术,2018,45(7):131-134. 被引量：1
9江小平,胡雪晴,孙婧,李成华.基于分块DCT的图像去重算法[J].中南民族大学学报（自然科学版）,2018,37(3):72-75. 被引量：6
10张晓东,朱永凯,彭超,陈明生.基于上海市水务海洋行政审批数据技术分析及应用研究[J].水利技术监督,2019,27(3):51-57. 被引量：3

1王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
2徐凯,沙瀛,李阳,单既喜,王晓岩.Twitter中重复消息的分析和处理[J].计算机工程与应用,2014,50(21):111-115.
3俞枫,王引娜.基于DRPKP算法的文本去重研究与应用[J].微型电脑应用,2014(1):58-60. 被引量：3
4李纲,毛进,陈璟浩.基于语义指纹的中文文本快速去重[J].现代图书情报技术,2013(9):41-47. 被引量：5
5范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
6胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：38
7陈露,吴国仕,李晶.基于语义指纹和LCS的文本去重方法[J].软件,2014,35(11):25-30. 被引量：4
8石雁,李朝锋.结合统计和词间关系的文本关键词计算方法[J].计算机技术与发展,2015,25(12):22-27.
9刘泽文,丁冬,李春文.基于条件随机场的中文短文本分词方法[J].清华大学学报（自然科学版）,2015,55(8):906-910. 被引量：17
10廖志芳,周国恩,李俊锋,刘飞,蔡飞.中文短文本语法语义相似度算法[J].湖南大学学报（自然科学版）,2016,43(2):135-140. 被引量：14

计算机工程与应用

2014年第16期

浏览历史

内容加载中请稍等...

中文短文本去重方法研究被引量：4

参考文献29

二级参考文献79

共引文献204

同被引文献33

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

中文短文本去重方法研究 被引量：4

参考文献29

二级参考文献79

共引文献204

同被引文献33

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

中文短文本去重方法研究被引量：4