-
题名一种组合型中文分词方法
被引量:11
- 1
-
-
作者
郑晓刚
韩立新
白书奎
曾晓勤
-
机构
河海大学计算机与信息学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2012年第7期26-28,39,共4页
-
基金
国家自然科学基金项目(60673186
60971088)
江苏省高校"青蓝工程"中青年学术带头人培养对象资助项目
-
文摘
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。
-
关键词
中文信息处理
中文自动分词
组合型分词
-
Keywords
Chinese information processing Chinese word automatic segmentation Combination-type word segmentation
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于组合型中文分词技术的改进
被引量:2
- 2
-
-
作者
梁胜
成卫青
-
机构
南京邮电大学计算机学院
-
出处
《南京邮电大学学报(自然科学版)》
北大核心
2013年第6期112-117,共6页
-
基金
国家自然科学基金(61170322
71171117)
江苏省自然科学基金(BK2010524)资助项目
-
文摘
在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一。文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义。最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率。
-
关键词
中文信息处理
组合型分词
交集型歧义
-
Keywords
Chinese information processing
combination-type segmentation
crossing ambiguity
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP391.7
[自动化与计算机技术—计算机应用技术]
-