摘要
根据旅游领域知识的特点,设计了面向旅游问句的分类体系。利用信息增益、互信息、交叉熵和2χ统计四种特征选择方法及支持向量机分类器,对网上常见的旅游真实问句分类进行了实验研究,实验结果表明:在现有问句分类体系下,信息增益的特征选择方法在特征空间维数为550维时,分类旅游问句的结果是最佳的。
In this paper, a question classification system is developed according to the knowledge characteristic of traveldomain. Using the four kinds feature selection methods which are Information Gain, Mutual Information, Cross Entropy and Xz Statistics and support vector machine, this paper presents an empirical study on question sentence classification for tour domain. The experiments show that using the feature selection of Information Gain with 550 dimensions, the classification results are best.
出处
《电脑开发与应用》
2009年第1期14-16,共3页
Computer Development & Applications
基金
国家自然科学基金项目(60573074)
教育部科学技术研究重点项目(207018)
山西省自然科学基金(2007011042)
山西高校科技研究开发项目(200611002)
山西省科技攻关项目(051129)资助
关键词
旅游问句分类
特征选择
支持向量机
tour question sentence classification, feature selection, support vector machine
作者简介
张雪芬,女,1981年生,硕士研究生,研究方向:文本挖掘,机器学习等。