期刊文献+
共找到94篇文章
< 1 2 5 >
每页显示 20 50 100
一种改进的中文分词正向最大匹配算法 被引量:42
1
作者 王瑞雷 栾静 +1 位作者 潘晓花 卢修配 《计算机应用与软件》 CSCD 2011年第3期195-197,共3页
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与... 正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。 展开更多
关键词 中文分词 分词词典 正向最大匹配算法
在线阅读 下载PDF
基于Hash结构的逆向最大匹配分词算法的改进 被引量:26
2
作者 丁振国 张卓 黎靖 《计算机工程与设计》 CSCD 北大核心 2008年第12期3208-3211,3265,共5页
分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词... 分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM)。该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义。实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高。 展开更多
关键词 中文分词 哈希结构 逆向最大匹配算法 分词词典 消除歧义
在线阅读 下载PDF
基于互信息改进算法的新词发现对中文分词系统改进 被引量:46
3
作者 杜丽萍 李晓戈 +2 位作者 于根 刘春丽 刘睿 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期35-40,共6页
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的... 提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的参数为10时,结果精度达到97.39%,比PMI方法提高28.79%,实验结果表明,该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS中,基于10 KB的百度贴吧语料实验,比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%,3.73%和5.91%。实验表明,通过进行新词发现能有效改善分词系统对网络文本的处理效果。 展开更多
关键词 新词识别 未登录词 互信息 PMI改进算法 中文分词
在线阅读 下载PDF
全二分最大匹配快速分词算法 被引量:39
4
作者 李振星 徐泽平 +1 位作者 唐卫清 唐荣锡 《计算机工程与应用》 CSCD 北大核心 2002年第11期106-109,共4页
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一... 分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。 展开更多
关键词 全二分最大匹配快速分词算法 自动分词 中文信息处理 数据结构
在线阅读 下载PDF
基于两字词簇的汉语快速自动分词算法 被引量:18
5
作者 郭祥昊 钟义信 杨丽 《情报学报》 CSSCI 北大核心 1998年第5期352-357,共6页
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提... 本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快。 展开更多
关键词 自然语言处理 汉语 分词算法 自分分词 两字词族
在线阅读 下载PDF
基于最大匹配的中文分词概率算法研究 被引量:16
6
作者 何国斌 赵晶璐 《计算机工程》 CAS CSCD 北大核心 2010年第5期173-175,共3页
结合顺序表和跳跃表的快速查询特性,提出一种改进的整词分词词典结构,主要采用哈希法和二分法进行分词匹配,并针对机械分词算法的特点,引入随机数,探讨一种基于最大匹配的分词概率算法。实验表明,该算法具有较高的分词效率和准确率,对... 结合顺序表和跳跃表的快速查询特性,提出一种改进的整词分词词典结构,主要采用哈希法和二分法进行分词匹配,并针对机械分词算法的特点,引入随机数,探讨一种基于最大匹配的分词概率算法。实验表明,该算法具有较高的分词效率和准确率,对消去歧义词也有较好的性能。 展开更多
关键词 分词词典 跳跃表 分词算法 概率算法
在线阅读 下载PDF
汉语文本自动分词算法的研究 被引量:13
7
作者 何国斌 赵晶璐 《计算机工程与应用》 CSCD 北大核心 2010年第3期125-127,130,共4页
分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对... 分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。 展开更多
关键词 自动分词 分词算法 字典 歧义切分
在线阅读 下载PDF
汉语分词有向图的快速生成算法 被引量:6
8
作者 李大农 董慧 《情报学报》 CSSCI 北大核心 2004年第1期36-39,共4页
给出了一种汉语分词有向图的快速生成算法。所构造的有向图可以作为机械分词、消除歧义以及进一步分析句子的基础。
关键词 汉语分词 构词关系 有向图 算法 自动分词 分词词典 数据结构 中文处理
在线阅读 下载PDF
演化算法在中文自动分词中的应用 被引量:7
9
作者 何炎祥 冯夏根 周水庚 《计算机工程》 CAS CSCD 北大核心 2002年第5期80-82,共3页
首先对各种现有的中文自动分词算法进行简要比较,并指出其存在的问题,然后针对这些问题,设计了一个基于演化的中文自动分词算法。最后通过对实验结果的分析,比较了本算法与已有算法的优缺点,并指明了算法的改进之处。
关键词 语料库 汉字信息处理 演化算法 中文自动分词
在线阅读 下载PDF
中文分词算法在搜索引擎应用中的研究 被引量:20
10
作者 欧振猛 余顺争 《计算机工程与应用》 CSCD 北大核心 2000年第8期80-82,84,共4页
在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行... 在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。 展开更多
关键词 搜索引擎 中文自动分词 算法 汉字信息处理
在线阅读 下载PDF
基于交叉覆盖算法的中文分词 被引量:4
11
作者 刘政怡 吴建国 李炜 《计算机工程与设计》 CSCD 北大核心 2010年第6期1355-1357,1361,共4页
中文分词是自然语言处理的前提和基础,利用分类效果较好的交叉覆盖算法实现中文分词。将中文分词想象成字的分类过程,把字放入向前向后相邻两个字这样一个语境下判断该字所属的类别,是自己独立,或是跟前一字结合,或是跟后一字结合,或是... 中文分词是自然语言处理的前提和基础,利用分类效果较好的交叉覆盖算法实现中文分词。将中文分词想象成字的分类过程,把字放入向前向后相邻两个字这样一个语境下判断该字所属的类别,是自己独立,或是跟前一字结合,或是跟后一字结合,或是跟前后的字结合。对人民日报熟语料库进行训练,不需要词典,可以较好地解决中文分词中的交叉歧义问题,分词正确率达90.6%。 展开更多
关键词 中文分词 覆盖 交叉覆盖算法 互信息 交叉歧义
在线阅读 下载PDF
改进的正向最大匹配分词算法 被引量:11
12
作者 张彩琴 袁健 《计算机工程与设计》 CSCD 北大核心 2010年第11期2595-2597,2633,共4页
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模... 为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理。通过对随机抽取的语料进行测试,结果表明该方法是有效的。 展开更多
关键词 正向最大匹配算法 交集型歧义 预处理 互信息 分词碎片
在线阅读 下载PDF
基于Viterbi改进算法的高棉语分词研究 被引量:3
13
作者 蒋艳荣 刘习文 陈耿涛 《计算机工程》 CAS CSCD 北大核心 2011年第15期174-176,共3页
采用最大匹配算法对高棉语进行分词准确率较低,且难以正确识别词库中没有的新词。针对该问题,采用改进的Viterbi算法,利用自动机实现音节切分,通过最优选择及剪枝操作提高分词效率,以统计语言模型对未知新词进行数据平滑,提高识别正确... 采用最大匹配算法对高棉语进行分词准确率较低,且难以正确识别词库中没有的新词。针对该问题,采用改进的Viterbi算法,利用自动机实现音节切分,通过最优选择及剪枝操作提高分词效率,以统计语言模型对未知新词进行数据平滑,提高识别正确率。实验结果表明,改进的Viterbi算法具有较高的分词效率和准确率。 展开更多
关键词 VITERBI算法 最大匹配算法 分词 高棉语 剪枝 统计语言模型
在线阅读 下载PDF
基于有向图的双向匹配分词算法及实现 被引量:7
14
作者 陈耀东 王挺 《计算机应用》 CSCD 北大核心 2005年第6期1442-1444,共3页
在分析了现有各种汉语分词算法及其优缺点的基础上,提出以句子覆盖率和分词覆盖率作为评价分词方法的指标,详细介绍了基于网络有向图的双向匹配分词算法的设计与实现,该算法对经典的最大匹配分词算法进行了改进,通过带覆盖歧义标志的有... 在分析了现有各种汉语分词算法及其优缺点的基础上,提出以句子覆盖率和分词覆盖率作为评价分词方法的指标,详细介绍了基于网络有向图的双向匹配分词算法的设计与实现,该算法对经典的最大匹配分词算法进行了改进,通过带覆盖歧义标志的有向图生成多候选分词序列。与最大匹配算法和全切分算法的比较实验显示,基于有向图的双向匹配算法以低复杂度实现了高覆率盖。 展开更多
关键词 句子覆盖率 分词覆盖率 双向最大匹配算法 全切分 网络有向图
在线阅读 下载PDF
基于词形的最佳路径分词算法 被引量:4
15
作者 林绮屏 《华南师范大学学报(自然科学版)》 CAS 2002年第4期81-84,共4页
在基于词形统计模型分词算法的基础上,通过对内存词表结构的有效组织及改进词的匹配算法和切分算法,并以最佳路径法实现了一种快速的基于词形的分词算法,在保证了较高准确率的同时,大大提高了分词速度.
关键词 最佳路径分词算法 自动分词 汉语分词 词形统计模型 匹配算法 切分算法 分词速度
在线阅读 下载PDF
基于统计的云搜索中文分词算法 被引量:3
16
作者 曾田日 王晋国 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第4期568-572,共5页
针对当前云搜索系统中中文分词仅仅采用简单的正向匹配最大算法和逆向最大匹配算法容易产生歧义的问题,提出了采用平均最大分词算法分词,并用最小分词偏离标准差消除歧义的方法进行云搜索系统的中文分词。经过测试,该算法明显优于正向... 针对当前云搜索系统中中文分词仅仅采用简单的正向匹配最大算法和逆向最大匹配算法容易产生歧义的问题,提出了采用平均最大分词算法分词,并用最小分词偏离标准差消除歧义的方法进行云搜索系统的中文分词。经过测试,该算法明显优于正向最大匹配算法和逆向最大匹配算法。 展开更多
关键词 云搜索 搜索引擎 中文分词算法
在线阅读 下载PDF
基于EM算法的汉语自动分词方法 被引量:23
17
作者 李家福 张亚非 《情报学报》 CSSCI 北大核心 2002年第3期269-272,共4页
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectat... 汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。 展开更多
关键词 EM算法 语料库 HMM 中文信息处理 汉语自动分词 自然语言处理 极大似然原则 零阶马尔可夫模型
在线阅读 下载PDF
一种采用基于语境松弛算法的汉语分词排歧方法 被引量:1
18
作者 周昌乐 秦莉娟 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2002年第6期711-714,共4页
词切分是像汉语这类非拉丁语言的一个特有问题 ,并且由于汉语组词中普遍存在着歧义性和语境依赖性 ,这一问题也是一个尚未得到彻底解决的难题 .本文通过仔细分析汉语分词歧义的规律 ,将追求整体最优效果的松弛算法引入到汉语自动分词的... 词切分是像汉语这类非拉丁语言的一个特有问题 ,并且由于汉语组词中普遍存在着歧义性和语境依赖性 ,这一问题也是一个尚未得到彻底解决的难题 .本文通过仔细分析汉语分词歧义的规律 ,将追求整体最优效果的松弛算法引入到汉语自动分词的排歧研究中 .借助于语词之间搭配关系等上下文约束条件以及词频、字频等统计数据 ,构造了一种汉语分词排歧的新方法 .实验结果表明 ,这种方法在切分精度和切分速度上都取得了较好的效果 。 展开更多
关键词 语境松驰算法 排岐方法 汉语自动分词 上下文关联 汉语信息处理 切分速度
在线阅读 下载PDF
支持多语言的自然语言倒序分词最大成词算法
19
作者 王智慧 姜建国 张秋亮 《科学技术与工程》 2007年第17期4311-4315,共5页
提出一种支持多语言的分词算法,该算法可以按照以下层次来理解:首先,对不同编码的源词库文件编码转换,生成Unicode编码的源词库文件;然后,用Unicode编码的词库文件生成Unicode词库索引;最后,将待分词的自然语句转换成Unicode编码的语句... 提出一种支持多语言的分词算法,该算法可以按照以下层次来理解:首先,对不同编码的源词库文件编码转换,生成Unicode编码的源词库文件;然后,用Unicode编码的词库文件生成Unicode词库索引;最后,将待分词的自然语句转换成Unicode编码的语句并按照索引倒序分词。该算法已经用C++语言实现,基于此算法实现的分析系统能够自动探测词库的更新并确定是否需要更新索引,能够支持多种编码方式,其编码转换和分词代码与平台无关,分词效率在9MB/s以上,正确率在90%以上。 展开更多
关键词 多语言 索引树 倒序分词 最大成词算法
在线阅读 下载PDF
基于知觉加工模式的发展式分词算法
20
作者 危辉 《计算机研究与发展》 EI CSCD 北大核心 2001年第11期1281-1289,共9页
分词是自然语言理解的一个重要过程 ,由于语言问题又是最重要的心理学问题之一 ,所以从认知心理学和发展心理学的观点出发 ,将分词问题看成是知觉问题在语言信息处理过程中的一部分 ,把知觉表达和知觉的双向加工过程引入对分词问题的研... 分词是自然语言理解的一个重要过程 ,由于语言问题又是最重要的心理学问题之一 ,所以从认知心理学和发展心理学的观点出发 ,将分词问题看成是知觉问题在语言信息处理过程中的一部分 ,把知觉表达和知觉的双向加工过程引入对分词问题的研究 ,并同时考虑言语发展的心理过程 ,把对言语发展规律的归纳作为构造学习算法的基础和模板 ,以进化的方式来逐步改进自然语言理解系统的性能 ,从而避免知识获取瓶颈在自然语言理解问题中的出现 . 展开更多
关键词 自然语言理解 机器学习 人工智能 发展式分词算法 知觉加工模式 计算机
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部