汉语短文话题提取系统中SDTF*PDF算法的研究被引量：1

Study on SDTF*PDF algorithm implemented in system of topic retrieval from short Chinese passages

在线阅读下载PDF

导出

摘要互联网技术得到迅速发展以来,大量信息尤其是文本信息在网上传播。文中面向海量汉语短文话题提取系统中多信源、短文篇幅小的特点,结合词汇语义相似性度量,提出了一个词汇权重计算算法———SDTF PDF(ShortDocumentTermFrequency ProportionalDocumentFrequency),测试表明,基于该算法的汉语短文话题识别系统能够较准确地在海量中文文本信息中自动提取一段时间内(一天或一周,可以指定)的主要话题。 More and more information, especially text information,has spread widely on Internet. To detect hot topics from plenty of Chinese text information,a term weight counting algorithm SDTF*PDF(Short Document Term Frequency * Proportional Document Frequency)was discussed. There were lots of channels in the system implementing this algorithm of detecting topics from short Chinese passages, and the passages in channels were usually short. Results worked out by it indicate that the system of detecting topic from short Chinese passages based on this algorithm can accurately extract the hot topics in a period of time, a day or a week, from enormous Chinese text information.

作者陈科贾焰杨树强王永恒

机构地区国防科学技术大学计算机学院

出处《计算机应用》 CSCD 北大核心 2005年第1期14-16,共3页 journal of Computer Applications

基金国家自然科学基金(60003001)

关键词汉语短文话题识别 SDTF ＊ PDF 词汇语义相似性度量 short Chinese passages topic detection SDTF*PDF word semantic similarity measure

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：179
2王永恒贾焰杨树强.面向汉语短文的话题识别系统研究[A]..NDBC2004[C].福建厦门,2004..
3刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.
4WAYNE CL, Multilingual Topic Detection and Tracking: Successful Research Enabled by Corpora and Evaluation[ A]. Language Resources and Evaluation Conference (LREC) 2000[ C], 2000. 1487 -1494.
5SALTON G, BUCKLEY C. Term-Weighting Approaches in Automatic Text Retrieval [ J]. hfformation Processing and Management,1989,4(5) :513 -523.
6BUN KK, ISHIZUKA M. Emerging Topic Tracking System[ A]. Proceedings of Web Intelligent ( WI 2001 ) [C], LANAI 2198 ( Springer), Maebashi, Japan 2001. 125 - 130.
7BUN KK, ISHIZUKA M. Information Area Tracking and Changes Summarizing in WWW[ A]. Proc of WebNet 2001[C], International Conf on WWW and lntemet, Orlando, Florida 2001. 680 -685.
8BUN KK, ISHIZUKAM. Topic Extraction from News Archive Using TF * PDF Algorithro[ A]. Proceedings of the 3nd International Conference on Web Information Systeros Engineering, 2002.
9SALTON G, BUCKLEY C. Term-Weighting Approaches in Automatic Text Retrieval [ J]. Information Processing and Management,1989,4(5) :513 -523.
10BUN KK, ISHIZUKA M. Emerging Topic Tracking System[ A]. Proceedings of Web Intelligent ( WI 2001 ) [ C], LANAI 2198 ( Springer), Maebashi, Japan 2001. 125 - 130.

二级参考文献20

1[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996
2[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3)
3[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01
4[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1)
5[20]Grishman R Adaptive information extraction and sublangu age analysis[C].In:Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining,2001
6[1]Applet D E,Israel D J.Introduction to Information Extraction Technology. A Tutorial for IJCAI-99,1999
7[2]Gaizauskas R,Wilks Y.Information Extraction:Beyond Document Retrieval[J].Journal of Documentation, 1997
8[3]Sager N.Natural Language Information Processing. Reading,Massachusetts:Addison Wesley, 1981
9[4]Dejong G.An Overview of the FRUMP System[C].In:LEHNERT W,RINGLE M h eds. Strategies for Natural Language Processing,Lawrence Erlbaum, 1982:149～176
10[5]Grishman R,Sundheim B.Message Understanding Conference-6:A Brief History[C].In :Proceedings of the 16h International Conference on Computational Linguistics(COLING-96),1996-08

共引文献324

1沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
4岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
5张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
6李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
7宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
8冉丽,何毅舟,许龙飞.基于Web结构挖掘的搜索引擎作弊检测方法[J].计算机应用,2004,24(10):158-160. 被引量：4
9李海涛.纯文本文档处理技术的研究与应用[J].现代图书情报技术,2004(10):33-35. 被引量：2
10马彦波,张蕾.一种创建事件模式的新方法[J].微机发展,2005,15(1):20-23. 被引量：2

同被引文献8

1王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
2张秀秀,张立峰.PDF文件文本内容提取研究[J].科技情报开发与经济,2008,18(36):118-120. 被引量：16
3马佩勋,高琰.基于TF* PDF的热点关键短语提取[J].计算机应用研究,2013,30(12):3610-3613. 被引量：3
4崔玉洁,廖坤.借助八爪鱼采集器实现过刊网刊元数据的自动提取[J].编辑学报,2016,28(5):485-488. 被引量：23
5苏晓慧,张晓东,胡春蕾,邹再超,邱晓康.基于改进TF-PDF算法的地震微博热门主题词提取研究[J].地理与地理信息科学,2018,34(4):90-95. 被引量：8
6唐成.PDF文件图片信息提取及降噪的应用研究与实现[J].信息系统工程,2018,31(12):83-85. 被引量：1
7田翠华,张一平,胡志钢,高静敏,李西雨.PDF文档表格信息的识别与提取[J].厦门理工学院学报,2020,28(3):70-76. 被引量：10
8欧杰.基于OCR 技术的政府机关制度文件文字内容识别研究[J].电脑知识与技术,2021,17(9):201-202. 被引量：5

引证文献1

1陈旭东,张水锋,王润泽,杨洪启,王晨宇.基于Python爬虫技术的PDF文件提取与定位系统研究[J].通讯世界,2022,29(11):193-195.

1朱颢东,周姝,钟勇.结合ODF和辨识集的特征选择[J].重庆邮电大学学报（自然科学版）,2010,22(1):94-98. 被引量：1
2任明仑.基于码表和变移哈夫曼编码的中文文本信息压缩方法[J].中文信息,1996,13(1):50-53.
3bjblues.如此防盗版[J].中国信息化,2009(5):10-10.
4孤影.价格传真[J].微型计算机,2006(9):97-99.
5赵建功,王荣.网络安全与防火墙技术[J].漯河职业技术学院学报,2004,3(2):8-10.
6金晓倩,王军.计算机网络安全研究[J].科学与财富,2010(8):17-17.
7郭璇.试析计算机云技术在高校图书馆中的应用[J].计算机光盘软件与应用,2013,16(17):196-196. 被引量：2
8余军涛,张跃.如何全面加强计算机网络安全技术[J].计算机网络世界,2000(10):48-51.
9张秀苹.浅析计算机网络系统安全[J].才智,2011,0(25):307-307.
10郭红钰.基于信息熵理论的特征权重算法研究[J].计算机工程与应用,2013,49(10):140-146. 被引量：22

计算机应用

2005年第1期

浏览历史

内容加载中请稍等...

汉语短文话题提取系统中SDTF*PDF算法的研究被引量：1

参考文献12

二级参考文献20

共引文献324

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

汉语短文话题提取系统中SDTF*PDF算法的研究 被引量：1

参考文献12

二级参考文献20

共引文献324

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

汉语短文话题提取系统中SDTF*PDF算法的研究被引量：1