期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
一种改进的中文分词正向最大匹配算法 被引量:42
1
作者 王瑞雷 栾静 +1 位作者 潘晓花 卢修配 《计算机应用与软件》 CSCD 2011年第3期195-197,共3页
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与... 正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。 展开更多
关键词 中文分词 分词词典 正向最大匹配算法
在线阅读 下载PDF
综合最大匹配和歧义检测的中文分词粗分方法 被引量:3
2
作者 李国和 刘光胜 +2 位作者 秦波波 吴卫江 李洪奇 《计算机工程与应用》 CSCD 2012年第14期139-142,167,共5页
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规... 中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。 展开更多
关键词 中文分词 粗分 最大匹配算法 全切分算法 歧义检测
在线阅读 下载PDF
基于改进Trie树结构的正向最大匹配算法 被引量:11
3
作者 熊志斌 朱剑锋 《计算机应用与软件》 CSCD 北大核心 2014年第5期276-278,共3页
提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的... 提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的问题。算法时间复杂度为1.33,对比试验结果表明有较快的分词速度。基于改进Trie树结构的正向最大匹配算法提高了中文分词速度,尤其适用于词典结构需要实时更新的场合。 展开更多
关键词 中文信息处理 分词 正向最大匹配算法
在线阅读 下载PDF
基于CRFs边缘概率的中文分词 被引量:19
4
作者 罗彦彦 黄德根 《中文信息学报》 CSCD 北大核心 2009年第5期3-8,共6页
将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,... 将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串。在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度。 展开更多
关键词 计算机应用 中文信息处理 中文分词 条件随机场(CRFs) 边缘概率 最大向前匹配(FMM) 全局特征
在线阅读 下载PDF
基于双哈希结构的整词二分词典机制 被引量:3
5
作者 张贤坤 李亚南 田雪 《计算机工程与设计》 CSCD 北大核心 2014年第11期3956-3960,共5页
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典... 为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。 展开更多
关键词 中文分词 词典机制 尾字词典 哈希结构 逆向最大匹配算法
在线阅读 下载PDF
中文分词歧义识别算法的优化 被引量:2
6
作者 胡阿明 王卫东 《现代电子技术》 2012年第8期107-109,共3页
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义... 中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。 展开更多
关键词 中文分词 逆向最大匹配算法 歧义识别 算法优化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部