题名 一种改进的中文分词正向最大匹配算法
被引量:42
1
作者
王瑞雷
栾静
潘晓花
卢修配
机构
新疆师范大学计算机科学技术学院
出处
《计算机应用与软件》
CSCD
2011年第3期195-197,共3页
基金
新疆师范大学研究生科技创新活动基金(20091208)
文摘
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。
关键词
中文分词
分词词典
正向最大匹配算法
Keywords
chinese word segmentation word bank forward maximum matching algorithm
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 综合最大匹配和歧义检测的中文分词粗分方法
被引量:3
2
作者
李国和
刘光胜
秦波波
吴卫江
李洪奇
机构
中国石油大学地球物理与信息工程学院
中国石油大学(北京)油气资源与探测国家重点实验室
石大兆信数字身份管理与物联网技术研究院
出处
《计算机工程与应用》
CSCD
2012年第14期139-142,167,共5页
基金
国家自然科学基金(No.60473125)
国家高新技术研究发展计划(No.2009AA062802)
+1 种基金
中国石油(CNPC)石油科技中青年创新基金(No.05E7013)
国家重大专项子课题(No.G5800-08-ZS-WX)
文摘
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。
关键词
中文分词
粗分
最大匹配算法
全切分算法
歧义检测
Keywords
chinese word segmentation
rough segmentation
maximum match algorithm
omni-segmentation algorithm
ambiguity detection
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于改进Trie树结构的正向最大匹配算法
被引量:11
3
作者
熊志斌
朱剑锋
机构
琼州学院电子信息工程学院
出处
《计算机应用与软件》
CSCD
北大核心
2014年第5期276-278,共3页
基金
海南省教育厅基金项目(Hjkj201137)
三亚市院地合作项目(2011YD19)
文摘
提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的问题。算法时间复杂度为1.33,对比试验结果表明有较快的分词速度。基于改进Trie树结构的正向最大匹配算法提高了中文分词速度,尤其适用于词典结构需要实时更新的场合。
关键词
中文信息处理
分词
正向最大匹配算法
Keywords
chinese information processing word segmentation forward maximum matching algorithm
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于CRFs边缘概率的中文分词
被引量:19
4
作者
罗彦彦
黄德根
机构
大连理工大学计算机科学与工程系
出处
《中文信息学报》
CSCD
北大核心
2009年第5期3-8,共6页
基金
国家863高技术资助项目(2006AA012140)
国家自然科学基金资助项目(60673039)
文摘
将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串。在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度。
关键词
计算机应用
中文信息处理
中文分词
条件随机场(CRFs)
边缘概率
最大向前匹配(FMM)
全局特征
Keywords
computer application
chinese information processing
chinese word segmentation
Conditional Random Fields(CRFs)
Marginal probability
forward maximum matching (FMM)
global feature
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于双哈希结构的整词二分词典机制
被引量:3
5
作者
张贤坤
李亚南
田雪
机构
天津科技大学计算机科学与信息工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2014年第11期3956-3960,共5页
基金
天津市科技型中小企业创新资金基金项目(12ZXCXGX33500)
文摘
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。
关键词
中文分词
词典机制
尾字词典
哈希结构
逆向最大匹配算法
Keywords
chinese word segmentation
dictionary mechanism
last word dictionary~ Hash structure
reverse maximum matching algorithm
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文分词歧义识别算法的优化
被引量:2
6
作者
胡阿明
王卫东
机构
江苏科技大学计算机科学与工程学院
出处
《现代电子技术》
2012年第8期107-109,共3页
文摘
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。
关键词
中文分词
逆向最大匹配算法
歧义识别
算法优化
Keywords
chinese word segmentation
reverse maximum matching algorithm
ambiguity recognition
algorithm optimization
分类号
TN911-34
[电子电信—通信与信息系统]