基于知网的中文问题自动分类被引量：41

HowNet Based Chinese Question Automatic Classification

在线阅读下载PDF

导出

摘要问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。该方法以问题的疑问词、句法结构、疑问意向词、疑问意向词在知网中的首义原作为分类特征。实验结果表明,在知网中选取的首义原能很好的表达问题焦点词的语义信息,可作为问题分类的一个主要特征。该方法能显著地提高问题分类的精度,大类和小类的分类精度分别达到了92.18%和83.86%。 Question answering system can provides a precise and concise answer to a natural language query. Question classification is the first task of Question Answering System, and the precision of question classification has great effect on the subsequent processes. In this paper, we present a new method on feature extraction which uses HowNet as semantic resource, and use Maximum Entropy Model to realize it. We choose the interrogative words, syntax structure, question focus words and their first sememes as classification feature. The experiment result＇show that the first sememes in HowNet can express the main meaning of the question focus words, ,it can he as an important feature. This method can improve the precision of question classification： the classification precision of coarse classes and fine classes reaches 92.18% and 83.86% respectively.

作者孙景广蔡东风吕德新董燕举

机构地区沈阳航空工业学院自然语言处理研究室

出处《中文信息学报》 CSCD 北大核心 2007年第1期90-95,共6页 Journal of Chinese Information Processing

基金国家航空基金(05J54011) 辽宁省自然科学基金(20042004)

关键词计算机应用中文信息处理问答系统问题分类知网最大熵模型分类特征 computer application Chinese information processing question answering system question classification HowNet maximum entropy model classification feature

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介孙景广（1981-），男，硕士生，主要研究方向为自然语言处理。

引文网络
相关文献

参考文献10

1郑实福,刘挺,秦兵,李生.自动问答综述[J].中文信息学报,2002,16(6):46-52. 被引量：166
2Dell Zhang,Wee Sun Lee.Question classification using support vector machines[A].In:the 26th ACM SIGIR[C].2003.
3Xin li,Dan Roth.Learning Question classification using support vector machines[A].In:the 26^th ACM SIGIR[C].2003.
4Carlson,C.Cumby,J.Rosen,etal.The SNoW learning architecture[A].In:UIUCDCS-R-99-2101,UIUC Computer Science Department[C],2004,451-458.
5Xin Li,Dan Roth.The Role of Semantic Information in Learning Question Classifiers[A].In:First International Joint Conference on Natural Language Processing[C],2004,451-458.
6文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
7董振东董强.[EB/OL].知网.http://www.keenage.com/zhiwang/c_zhiwang.html,[2005—03-01].
8李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
9R Adwait.A maximum entropy model for Part-of-Speech tagging[A].In:Proceedings of the Empirical Methods in Natural Language Processing Conference[C].Philadelphia,USA.1996.
10Darroch,J.N,Ratcliff,D.Generalized Iterative Scaling for Log-Linear models[J].Annals of Mathematical Statistics 1972,43(5):1470-1480.

二级参考文献36

1张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
2VladimirN Vapnik著张学工译.统计学习理论的本质[M].北京：清华大学出版社,2000.1-125.
3[8]Ulf Hermjakob. Parsing and Question Classification for Question Answering. Proceeding of the workshop on Open-Domain Question Answering at ACL-2001
4[9]Eugene Agichtein, Steve Lawrence, Luis Gravano. Learning Search Engine Specific Query Transformations for Question Answering. ACM 2001,169- 178
5[10]Soo-Min Kim, ae-Ho Baek, Sang-Beom Kim, Hae-Chang Rim Question Answering Considering Semantic Categories and Co-occurrence Density. Proceedings of the night Text Retrieval Conference (TREC-9)
6[11]Marius Pasca, Sanda Harabagiu. High-Performance Question/Answering. 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval ( Sigir-01 ). New Orleans, LA. September 9 - 13,2001
7[1]Ittycheriah,M. Franz,W-J Zhu,A. Ratnaparkhi. IBM's Statistical Question Answering System. Proceedings of the night Text Retrieval Conference (TREC-9)
8[2]D. Elworthy. Question Answering Using a Large NLP System. Proceedings of the night Text Retrieval Conference (TREC-9)
9[3]L. Wu,X-j Huang,Y. Guo,B. Liu,Y. Zhang. FDU at TREC-9:CLIR,Filtering and QA Tasks. Proceedings of the night Text Retrieval Conference(TREC-9)
10[4]R.J. Cooper, S. M. Rüger. A Simple Question Answering System. Proceedings of the night Text Retrieval Conference(TREC-9)

共引文献329

1谭红叶,李宣影,刘蓓.基于外部知识和层级篇章表示的阅读理解方法[J].中文信息学报,2020(4):85-91. 被引量：6
2张琳,胡杰,应力,浦丽娜.汉语问答系统概念查询扩展研究[J].郑州大学学报（理学版）,2009,41(1):69-72. 被引量：1
3杨潇,万建成,侯金奎.面向问题分类的汉语句法分析[J].计算机研究与发展,2007,44(z2):27-31. 被引量：1
4于士涛,袁晓洁,师建兴,杨娜.一种Web问答系统中基于XML片段的语义项模型[J].计算机研究与发展,2007,44(z3):386-391. 被引量：1
5王婧.基于自动问答技术的智能文本机器人[J].科技创业家,2013(8):11-11. 被引量：1
6陈文庆,李勤,姚伽华.基于最大熵模型的垃圾邮件过滤方法[J].网络安全技术与应用,2005(1):16-18. 被引量：1
7陈康,武港山.基于Ontology的信息检索技术研究[J].中文信息学报,2005,19(2):51-57. 被引量：29
8盛秋艳.基于Internet的自动问答系统研究[J].现代情报,2005,25(4):81-82. 被引量：2
9吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48
10侯丽敏,朱一,周舫,葛强.基于网络的智能答疑系统的研究[J].微机发展,2005,15(8):120-123. 被引量：3

同被引文献530

1杜家驹,岂凡超,孙茂松,刘知远.基于局部语义相关性的定义文本义原预测[J].中文信息学报,2020(5):1-9. 被引量：4
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
4赵军.词汇功能语法[J].语言文字应用,1996(4):104-108. 被引量：6
5张卫国.广义短语结构语法述略──“信息处理用语言理论讲话”第七讲[J].语言文字应用,1996(1):73-79. 被引量：1
6苗传江,张庆旭,李绘新.功能合一语法──“信息处理用语言理论讲话”第五讲[J].语言文字应用,1995(3):76-81. 被引量：3
7林杏光.短语结构语法──“信息处理用语言理论讲话”第一讲[J].语言文字应用,1994(2):58-64. 被引量：2
8李珀瀚,何震瀛,向河林.一种基于链接聚类的查询扩展算法[J].计算机研究与发展,2011,48(S3):197-204. 被引量：2
9刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
10张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9

引证文献41

1张桂平,蔡东风.基于知识管理和智能控制的协同翻译平台——知识管理和机器翻译的融合[J].中文信息学报,2008,22(5):3-11. 被引量：9
2郑逢强,林磊,刘秉权,孙承杰.《知网》在命名实体识别中的应用研究[J].中文信息学报,2008,22(5):97-101. 被引量：11
3白宇,周俏丽,蔡东风.问答式信息检索技术[J].沈阳航空工业学院学报,2008,25(5):63-67. 被引量：7
4董燕举,蔡东风,白宇.面向事实性问题的答案选择技术研究综述[J].中文信息学报,2009,23(1):86-94. 被引量：1
5张志昌,张宇,刘挺,李生.基于线索词识别和训练集扩展的中文问题分类[J].高技术通讯,2009,19(2):111-118. 被引量：6
6张志昌,张宇,刘挺,李生.开放域问答技术研究进展[J].电子学报,2009,37(5):1058-1069. 被引量：17
7刘磊,郭丽,白宇,蔡东风.问答系统中复杂类问题的分析方法研究[J].沈阳航空工业学院学报,2009,26(3):82-85. 被引量：1
8李茹,宋小香,王文晶.基于汉语框架网的中文问题分类[J].计算机工程与应用,2009,45(31):111-114. 被引量：8
9吴晓晖,宋萍萍,张荣欣.有无查询意图的分类与实现架构模型研究[J].情报科学,2009,27(12):1829-1833. 被引量：6
10田卫新,朱福喜,但志平.一种基于修饰关系的自然语言语义分析方法[J].计算机科学,2010,37(5):197-202. 被引量：2

二级引证文献197

1何丽,柳岚清,刘杰,段建勇,王昊.融合问题分类与RoBERTa的答案选择方法[J].数据分析与知识发现,2024,8(8):157-167. 被引量：1
2章乐,朱娅霖.自然语言中词汇的信息获取:改进的skip-gram模型[J].北京电子科技学院学报,2020(2):19-26. 被引量：1
3张璐,彭雪莹,陈静.突发公共卫生事件中大学生健康信息搜寻意图研究[J].情报科学,2022,40(10):51-59. 被引量：7
4谭红叶,李宣影,刘蓓.基于外部知识和层级篇章表示的阅读理解方法[J].中文信息学报,2020(4):85-91. 被引量：6
5王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
6郭丽,刘磊,季铎,蔡东风.基于奇异值分解的关系相似度计算方法[J].沈阳航空工业学院学报,2009,26(3):78-81. 被引量：3
7刘磊,郭丽,白宇,蔡东风.问答系统中复杂类问题的分析方法研究[J].沈阳航空工业学院学报,2009,26(3):82-85. 被引量：1
8李东园,白宇,蔡东风.面向中文问答的信息检索系统及评测[J].沈阳航空工业学院学报,2009,26(3):86-89. 被引量：3
9孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：100
10刘敏贤,杨跃.面向翻译教学的机器翻译系统建构[J].西安文理学院学报（社会科学版）,2010,13(3):109-112. 被引量：1

1陈永平,杨思春,毛万胜,苏新,刘俞.中文问答系统中基于主题和焦点的问题理解[J].计算机系统应用,2011,20(6):56-60. 被引量：5
2杨守忠.CSCW的历史回顾和问题焦点[J].软件世界,1995(5):56-58.
3刘小明,樊孝忠,李方方.一种结合本体和焦点的问题分类方法[J].北京理工大学学报,2012,32(5):498-502. 被引量：8
4陈天成.圆锥体的重心究竟在何处[J].中学物理教学参考,2008(11):37-37.
5任水根.侧面碰撞安全气囊的模拟设计过程[J].世界汽车,2001(1):5-7. 被引量：1
6钟珞,孟碧波,袁景凌,周倜.基于数据挖掘技术的城市隧道交通流分析[J].计算机与数字工程,2008,36(5):196-198. 被引量：1
7马成前,乐曦.基于城市隧道的照明控制策略[J].计算机与数字工程,2008,36(8):198-200. 被引量：1

中文信息学报

2007年第1期

浏览历史

内容加载中请稍等...

基于知网的中文问题自动分类被引量：41

参考文献10

二级参考文献36

共引文献329

同被引文献530

引证文献41

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

基于知网的中文问题自动分类 被引量：41

参考文献10

二级参考文献36

共引文献329

同被引文献530

引证文献41

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

基于知网的中文问题自动分类被引量：41