期刊文献+

基于深度学习的先秦典籍问句自动分类研究 被引量:13

Deep Learning-Based Classification of Pre-Qin Classics Questions
在线阅读 下载PDF
导出
摘要 近年来,自动问答系统已成为机器学习、信息检索和自然语言处理领域的研究热点。问句分类作为问答系统要处理的第一步,其分类结果的好坏直接影响问答系统的质量,但目前大部分问句分类研究集中在现代汉语领域,针对古文相关内容的问句分类研究相对较少。本文从问句分类的概念出发,构建了古文文献问句分类体系,然后利用TF-IDF提取类别特征词,先后利用支持向量机、条件随机场、深度学习模型完成针对先秦10部典籍的问句自动分类实验。结果表明,3种分类模型中,使用Bi-LSTM模型分类效果最好,在本文提出的7种类别上,达到调和平均值94.78%,具有较强的推广和应用价值。 In recent years,the automated question answering system has become a research hotspot in the fields of machine learning,information retrieval,and natural language processing.This question answering system provides simple and accurate answers in a natural language to the questions posed by users.Since question classification is the first step toward developing a question answering system,the classification results make a direct impact on the quality of a question answering system.However,most of the current question classification research in the field focuses on modern Chinese,and there are relatively few studies on the classification of the questions related to ancient Chinese.This paper starts with the concept of question classification and constructs the question classification system for ancient documents;and then uses TF-IDF to extract the category feature words.We use a support vector machine,conditional random fields,and a deep learning model,to conduct the classics question automatic classification experiment.The results show that the Bi-LSTM model offers the best classification among the three,and delivered a reconciliation average of 94.78 on the seven categories proposed in this paper,which has a strong application value.
作者 王东波 高瑞卿 沈思 李斌 Wang Dongbo;Gao Ruiqing;Shen Si;Li Bin(College of Information Science and Technology,Nanjing Agricultural University,Nanjing,210095;School of Economics and Management,Nanjing University of Science and Technology,Nanjing 210094;College of Literature,Nanjing Normal University,Nanjing,210097)
出处 《情报学报》 CSSCI CSCD 北大核心 2018年第11期1114-1122,共9页 Journal of the China Society for Scientific and Technical Information
基金 国家社会科学基金重大项目"基于<汉学引得丛刊>的典籍知识库构建及人文计算研究"(15ZDB127) 国家自然科学基金面上项目"基于典籍引得的句法级汉英平行语料库构建及人文计算研究"(71673143)
关键词 先秦典籍 数字人文 问句分类 特征提取 深度学习 Pre-Qin classics digital humanities question classification feature extraction deep learning
作者简介 王东波,男,1981年生,博士,副教授,硕士生导师,研究领域为自然语言处理与文本挖掘、信息计量,E-mail:db.wang@njau.edu.cn;高瑞卿,女,1997年生,本科生,研究领域为自然语言处理与文本挖掘;沈思,女,1983年生,博士,讲师,硕士生导师,研究领域为机器学习、信息检索;李斌,男,1981年生,博士,副教授,硕士生导师,研究领域为计算语言学。
  • 相关文献

参考文献14

二级参考文献118

共引文献181

同被引文献291

引证文献13

二级引证文献89

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部