期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
Effective Analysis of Chinese Word-Segmentation Accuracy
1
作者 MA Weiyin 《现代电子技术》 2007年第4期108-110,共3页
Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidate... Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidates are invalid.These false unknown word candidates deteriorate the overall segmentation accuracy,as it will affect the segmentation accuracy of known words.In this paper,we propose several methods for reducing the difficulties and improving the accuracy of the word-segmentation of written Chinese,such as full segmentation of a sentence,processing the duplicative word,idioms and statistical identification for unknown words.A simulation shows the feasibility of our proposed methods in improving the accuracy of word-segmentation of Chinese. 展开更多
关键词 中文信息处理 汉字处理 自动分割 效率分析
在线阅读 下载PDF
基于最长次长匹配的汉语自动分词 被引量:14
2
作者 黄德根 朱和合 +2 位作者 王昆仑 杨元生 钟万勰 《大连理工大学学报》 CAS CSCD 北大核心 1999年第6期831-835,共5页
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT)、自然语言理解(NLU)、情报检索(IR)等都需以自动分词作为基础. 为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长次长匹... 汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT)、自然语言理解(NLU)、情报检索(IR)等都需以自动分词作为基础. 为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长次长匹配原则的汉语自动分词方法,分词效果较好. 展开更多
关键词 语言处理 自动分词 机器翻译 最长匹配法 汉语
在线阅读 下载PDF
基于两字词簇的汉语快速自动分词算法 被引量:18
3
作者 郭祥昊 钟义信 杨丽 《情报学报》 CSSCI 北大核心 1998年第5期352-357,共6页
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提... 本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快。 展开更多
关键词 自然语言处理 汉语 分词算法 自分分词 两字词族
在线阅读 下载PDF
一种基于后缀数组的无词典分词方法 被引量:14
4
作者 张长利 赫枫龄 左万利 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2004年第4期548-553,共6页
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要... 提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理. 展开更多
关键词 无词典分词 数组 文档 散列表 计算速度 算法 中文信息处理 法能 频度 实验
在线阅读 下载PDF
一种组合型中文分词方法 被引量:11
5
作者 郑晓刚 韩立新 +1 位作者 白书奎 曾晓勤 《计算机应用与软件》 CSCD 北大核心 2012年第7期26-28,39,共4页
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。
关键词 中文信息处理 中文自动分词 组合型分词
在线阅读 下载PDF
串频统计和词形匹配相结合的汉语自动分词系统 被引量:65
6
作者 刘挺 吴岩 王开铸 《中文信息学报》 CSCD 北大核心 1998年第1期17-25,共9页
本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部... 本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词。 展开更多
关键词 中文信息处理 自动分词 汉语 串频统计 词形匹配
在线阅读 下载PDF
基于统计的中文地名识别 被引量:49
7
作者 黄德根 岳广玲 杨元生 《中文信息学报》 CSCD 北大核心 2003年第2期36-41,共6页
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的... 本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。 展开更多
关键词 计算机应用 中文信息处理 中文地名识别 构词可信度 接续可信度 自动分词
在线阅读 下载PDF
中文分词算法在搜索引擎应用中的研究 被引量:20
8
作者 欧振猛 余顺争 《计算机工程与应用》 CSCD 北大核心 2000年第8期80-82,84,共4页
在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行... 在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。 展开更多
关键词 搜索引擎 中文自动分词 算法 汉字信息处理
在线阅读 下载PDF
一种中文文档的非受限无词典抽词方法 被引量:28
9
作者 金翔宇 孙正兴 张福炎 《中文信息学报》 CSCD 北大核心 2001年第6期33-39,共7页
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、... 本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。 展开更多
关键词 中文信息处理 自动分词 非受限无词典抽词 汉字结构模式 中文文档 抽词速度
在线阅读 下载PDF
Web新闻语料分词和标注错误分析 被引量:4
10
作者 张永奎 张彦 +1 位作者 安增波 刘睿 《计算机工程与应用》 CSCD 北大核心 2007年第15期166-169,共4页
通过分析Web突发事件语料库文本的加工统计得出11类错误类型,并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用,而且对中文的自动校对方法,提供一定的借鉴。
关键词 中文信息处理 分词 词性标注 错误类型 Web突发事件新闻语料库
在线阅读 下载PDF
盲人用计算机软件系统中的语音和自然语言处理技术 被引量:9
11
作者 庄丽 包塔 朱小燕 《中文信息学报》 CSCD 北大核心 2004年第4期72-78,共7页
本文介绍了智能技术与系统国家重点实验室开发的“北极光”盲人用计算机软件系统中涉及的语音和语言处理技术。该系统能够获取和分析需要反馈的屏幕信息 ,通过语音合成平台将其内容朗读出来 ,对用户进行语音提示 ;与汉语自动分词、语言... 本文介绍了智能技术与系统国家重点实验室开发的“北极光”盲人用计算机软件系统中涉及的语音和语言处理技术。该系统能够获取和分析需要反馈的屏幕信息 ,通过语音合成平台将其内容朗读出来 ,对用户进行语音提示 ;与汉语自动分词、语言模型等自然语言处理技术的结合 ,使系统能够进行汉字和盲文的转换 ,反馈信息可以通过盲文点显器输出 ,使用户能够摸读盲文点字来获取所需要的信息 ,用户也可以采用盲文输入法进行输入 。 展开更多
关键词 计算机应用 中文信息处理 语音合成 文本分析 汉语自动分词 语言模型
在线阅读 下载PDF
中文合成词识别及分词修正 被引量:4
12
作者 刘兴林 郑启伦 马千里 《计算机应用研究》 CSCD 北大核心 2011年第8期2905-2908,共4页
提出一种中文合成词识别及分词修正方法。该方法先采用词性探测从文本中提取词串,进而由提取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,设计了运行在词共现有向图中识别合成词的算法,即搜索多源点长度最长、权重值满足给定条... 提出一种中文合成词识别及分词修正方法。该方法先采用词性探测从文本中提取词串,进而由提取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,设计了运行在词共现有向图中识别合成词的算法,即搜索多源点长度最长、权重值满足给定条件的路径,则该路径所对应的词串为合成词。最后,采用核心属性渗透理论对合成词标注词性,同时修正分词结果。实验结果表明,合成词识别正确率达到了91.60%,且分词修正效果良好。 展开更多
关键词 合成词 词共现有向图 词性标注 分词修正 自然语言处理
在线阅读 下载PDF
汉语语料词性标注自动校对方法的研究 被引量:11
13
作者 钱揖丽 郑家恒 《中文信息学报》 CSCD 北大核心 2004年第2期30-35,共6页
兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词... 兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词性校对规则 ,并应用获取的规则实现对机器初始标注语料的自动校对 ,从而提高语料中兼类词的词性标注质量。分别对 5 0万汉语语料做封闭测试和开放测试 ,结果显示 ,校对后语料的兼类词词性标注正确率分别可提高 11 32 %和 5 97%。 展开更多
关键词 计算机应用 中文信息处理 兼类词 汉语词性标注 自动校对 粗糙集
在线阅读 下载PDF
基于最大熵模型的交集型切分歧义消解 被引量:6
14
作者 张锋 樊孝忠 《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第7期590-593,共4页
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过... 利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月《人民日报》中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%. 展开更多
关键词 中文信息处理 汉语自动分词 交集型歧义 最大熵模型
在线阅读 下载PDF
基于语料库的藏语高频词抽取研究 被引量:3
15
作者 才让卓玛 才智杰 《计算机工程》 CAS CSCD 2012年第15期56-58,共3页
在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算... 在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算法的准确率达86.22%,召回率达89.79%,F值达87.94%。 展开更多
关键词 信息处理 高频词 藏语抽词 自动分词 语料库 预处理
在线阅读 下载PDF
基于词频学习和动态词频更新的藏文自动分词系统设计 被引量:4
16
作者 项炜 金澎 《计算机应用与软件》 CSCD 北大核心 2014年第5期106-109,共4页
藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别... 藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别技术。在歧义字段分词准确性、未登录词识别率和分词速度上,该系统具有较优的性能。 展开更多
关键词 藏文自动分词 自然语言处理 格助词 动态词频更新 歧义处理 未登录词识别
在线阅读 下载PDF
一种基于词编码的中文文档格式 被引量:1
17
作者 焦慧 刘迁 贾惠波 《计算机科学》 CSCD 北大核心 2008年第10期162-164,共3页
分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中... 分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中文词的编码方法,以每个词作为一个单位,对词进行编码。此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路。采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果。 展开更多
关键词 中文信息处理 词典码 文档格式 自动分词
在线阅读 下载PDF
一种基于双哈希二叉树的中文分词词典机制 被引量:4
18
作者 罗洋 《计算机应用与软件》 CSCD 北大核心 2013年第5期251-253,306,共4页
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说... 汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。 展开更多
关键词 中文信息处理 自动分词 词典 哈希 二叉树 索引
在线阅读 下载PDF
基于自然语言处理的算法知识名称发现 被引量:1
19
作者 朱国进 郑宁 《计算机工程》 CAS CSCD 2014年第12期126-131,共6页
网络中的很多程序资源在知识概念上有内在的联系,却没有超链接将它们连接在一起。将网络程序资源中的算法知识名称获取出来,组织成一个算法知识专家库文件,用于识别程序设计资源所含的知识点,即可将程序设计资源按知识点相互联系。为了... 网络中的很多程序资源在知识概念上有内在的联系,却没有超链接将它们连接在一起。将网络程序资源中的算法知识名称获取出来,组织成一个算法知识专家库文件,用于识别程序设计资源所含的知识点,即可将程序设计资源按知识点相互联系。为了自动获取程序资源中的算法知识名称,提出一种基于自然语言处理的算法知识名称发现方法。通过发现含有算法知识名称语句的字符串模式,从程序资源中提取可能含算法知识名称的字符串,从中找出最有可能出现在算法知识名称中的分词,并根据这些分词获取算法知识名称。实验结果表明,与原有人工整理出的算法知识名称集合相比,该方法新增了11.2%的算法知识点和13.6%的算法知识名称。 展开更多
关键词 知识发现 模式发现 自然语言处理 算法知识名称 中文分词 词性标注
在线阅读 下载PDF
无词典中文特征词自动抽取的桥接模式滤除算法 被引量:1
20
作者 宣照国 党延忠 《计算机应用研究》 CSCD 北大核心 2007年第7期168-170,共3页
提出一种不依赖于词典的抽取文本特征词的桥接模式滤除算法(BPFA)。该算法统计文本中的汉字结合模式及其出现频率,通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语。实验结果显示,BPFA能够有效提高分词结果的查准率和... 提出一种不依赖于词典的抽取文本特征词的桥接模式滤除算法(BPFA)。该算法统计文本中的汉字结合模式及其出现频率,通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语。实验结果显示,BPFA能够有效提高分词结果的查准率和查全率。该算法适用于对词语频率敏感的中文信息处理应用,如文本分类、文本自动摘要等。 展开更多
关键词 自动分词 桥接模式滤除算法 中文信息处理
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部