期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于完全二阶隐马尔可夫模型的汉语词性标注 被引量:25
1
作者 梁以敏 黄德根 《计算机工程》 EI CAS CSCD 北大核心 2005年第10期177-179,共3页
该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法。实验表明,完全二阶隐马尔可夫模型比标准的... 该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法。实验表明,完全二阶隐马尔可夫模型比标准的二元、三元模型有更高的词性标注正确率和消歧率。 展开更多
关键词 完全二阶隐马尔可夫模型 汉语词性标注 平滑算法 VITERBI算法
在线阅读 下载PDF
用数据采掘方法获取汉语词性标注规则 被引量:10
2
作者 李晓黎 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2000年第12期1409-1414,共6页
从数据采掘的角度对汉语文本词性标注规则的获取进行研究 .在满足用户规定的支持度向量的前提下 ,先从候选集模式中挑选出常用模式 ;然后采掘出具有高可信度的产生式规则 .该过程完全是自动的 ,而获取的规则在表达上是明确的 ,同时又是... 从数据采掘的角度对汉语文本词性标注规则的获取进行研究 .在满足用户规定的支持度向量的前提下 ,先从候选集模式中挑选出常用模式 ;然后采掘出具有高可信度的产生式规则 .该过程完全是自动的 ,而获取的规则在表达上是明确的 ,同时又是隐含在数据中的、用户不易发现的 .实验表明 :在原有统计方法的基础上 ,利用自动获得的标注规则作为补充 ,可以提高词性标注的正确率 . 展开更多
关键词 数据采掘 中文信息处理 汉语词性标注规则
在线阅读 下载PDF
汉语词性标注排歧方法探讨 被引量:7
3
作者 王素格 张永奎 《计算机工程与应用》 CSCD 北大核心 2001年第7期70-72,共3页
该文将概率统计的二元模型与三元模型用于汉语词性自动标注,在算法为线性阶的时间复杂度的情况下,对20万训练集和1万的测试集,分别进行封闭测试和开放测试,对稀疏矩阵零元素及词性标注的结果做了统计分析。
关键词 中文信息处理 汉语词性标注 排歧 概率统计
在线阅读 下载PDF
基于特征的汉语词性标注模型 被引量:6
4
作者 屈刚 陆汝占 《计算机研究与发展》 EI CSCD 北大核心 2003年第4期556-561,共6页
在隐马尔可夫模型的基础上提出了基于词汇特征的汉语词性标注模型 此模型不但考虑系统t时刻的状态 (词类 )对t+1时刻的状态的影响 ,还把t时刻的观察 (词 )对t+1时刻的状态的影响考虑进去 ,使模型更加精确 由于观察的数目较大 ,构造观察... 在隐马尔可夫模型的基础上提出了基于词汇特征的汉语词性标注模型 此模型不但考虑系统t时刻的状态 (词类 )对t+1时刻的状态的影响 ,还把t时刻的观察 (词 )对t+1时刻的状态的影响考虑进去 ,使模型更加精确 由于观察的数目较大 ,构造观察 状态转移概率矩阵的方法难以实用 ,于是给观察标以特征 ,并训练特征 状态转移概率矩阵 ,使概率矩阵占用较少的存储空间 。 展开更多
关键词 隐马尔可夫模型 词汇特征 汉语词性标注模型 自然语言处理 概率矩阵 中文信息处理
在线阅读 下载PDF
汉语词性标注方法的研究 被引量:6
5
作者 魏欧 孙玉芳 《计算机科学》 CSCD 北大核心 2000年第7期71-75,共5页
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关... 1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中。 展开更多
关键词 汉语词性标注 自然语言处理 知识库
在线阅读 下载PDF
基于搭配模式的汉语词性标注规则的获取方法 被引量:3
6
作者 王素格 张永奎 《计算机工程与应用》 CSCD 北大核心 2001年第5期56-58,共3页
文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的... 文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的词性标注,使标注的正确率得到了明显提高。 展开更多
关键词 语料库 搭配模式 汉语词性标注规则 自然语言处理
在线阅读 下载PDF
一种启发式的汉语词性标注算法 被引量:1
7
作者 付国宏 王晓龙 姜守旭 《计算机工程与设计》 CSCD 北大核心 2000年第5期61-64,共4页
描述了一种启发式的汉语词性标注算法,并采用该算法实现了一个基于统计模型的汉语词性标注系统。该算法将反向动态规划和正向A*解码算法相结合。初步的开放测试表明,该系统的词性标注正确率为95.88%(小标记集)和97.95%(大标记集),性... 描述了一种启发式的汉语词性标注算法,并采用该算法实现了一个基于统计模型的汉语词性标注系统。该算法将反向动态规划和正向A*解码算法相结合。初步的开放测试表明,该系统的词性标注正确率为95.88%(小标记集)和97.95%(大标记集),性能优于Viterbi算法。 展开更多
关键词 概率模型 汉语词性标注算法 自然语言处理
在线阅读 下载PDF
基于多层有限状态自动机的多输入汉语词性标注系统 被引量:1
8
作者 孔骏 陈玉泉 陆汝占 《计算机工程》 CAS CSCD 北大核心 2001年第2期30-31,98,共3页
将带有歧义的切分字段作为词性标注系统的输入,并在词性标注系统中引入了有限状态自动机进行部分句法分析以排除切分和标注歧义,实现了一个结合部分句法分析的汉语词性标注系统。
关键词 汉语词性标注系统 有限状态自动机 自然语言处理
在线阅读 下载PDF
自学习结合部分句法分析的汉语词性标注
9
作者 孔骏 陈玉泉 陆汝占 《上海交通大学学报》 EI CAS CSCD 北大核心 2001年第9期1370-1372,共3页
针对词性标注中单独使用概率方法或规则方法的缺陷 ,将概率方法和规则方法有机地结合起来 ,并引入了部分句法分析排除切分歧义和标注歧义 .利用机器学习得到的规则对输出结果进行修正 。
关键词 机器学习 汉语词性标注 部分句法分析 概率方法 规则方法 切分歧义 标注歧义
在线阅读 下载PDF
一种汉语词性标注规则获取算法的实现
10
作者 袁萍 周铁军 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第S1期200-202,共3页
主要针对基于规则的汉语词性自动标注问题,引入了关联规则挖掘的概念和方法,给出了一种汉语词性标注规则的获取算法,并对试验结果进行分析,从而提出一些改进思路。
关键词 汉语词性标注 文本挖掘 关联规则 频繁项集 大模式集
在线阅读 下载PDF
统计与规则并举的汉语词性自动标注算法 被引量:15
11
作者 张民 李生 +1 位作者 赵铁军 张艳风 《软件学报》 EI CSCD 北大核心 1998年第2期134-138,共5页
本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考... 本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考虑生词和汉语词错误切分的情况下,本算法的准确率为98.9%和98.1%. 展开更多
关键词 汉语词性标注 自动标注算法 语言信息处理
在线阅读 下载PDF
汉语语料词性标注自动校对方法的研究 被引量:11
12
作者 钱揖丽 郑家恒 《中文信息学报》 CSCD 北大核心 2004年第2期30-35,共6页
兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词... 兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词性校对规则 ,并应用获取的规则实现对机器初始标注语料的自动校对 ,从而提高语料中兼类词的词性标注质量。分别对 5 0万汉语语料做封闭测试和开放测试 ,结果显示 ,校对后语料的兼类词词性标注正确率分别可提高 11 32 %和 5 97%。 展开更多
关键词 计算机应用 中文信息处理 兼类词 汉语词性标注 自动校对 粗糙集
在线阅读 下载PDF
汉语词性自动标注系统的设计与实现 被引量:4
13
作者 王素格 张永奎 《计算机工程》 CAS CSCD 北大核心 2001年第3期7-8,65,共3页
介绍了汉语词性自动标注系统的设计与实现.该系统实现了统计与规则相结合的方法进行汉语词性自动标注.描述了该系统的总体结构,以及所使用的非兼类词表、兼类词表、标记集和词性标注规则的组织,特别对稀疏矩阵及其存储方法进行了详... 介绍了汉语词性自动标注系统的设计与实现.该系统实现了统计与规则相结合的方法进行汉语词性自动标注.描述了该系统的总体结构,以及所使用的非兼类词表、兼类词表、标记集和词性标注规则的组织,特别对稀疏矩阵及其存储方法进行了详细的介绍。 展开更多
关键词 汉语词性自动标注系统 自然语言理解 语料库 神经网络 设计
在线阅读 下载PDF
基于BP-HMM的词性标注方法的研究 被引量:1
14
作者 董跃华 邓文龙 《计算机工程与设计》 CSCD 北大核心 2014年第4期1424-1428,共5页
针对传统的HMM模型在词性标注中具有对兼类词及其对应词类标注能力差和模型差异大的缺点,提出一种利用混合BP-HMM词性标注模型进行词性标注算法。该算法通过BP网络优秀的甄别能力有效的弥补了HMM在对兼类词进行标注方面的不足,同时也利... 针对传统的HMM模型在词性标注中具有对兼类词及其对应词类标注能力差和模型差异大的缺点,提出一种利用混合BP-HMM词性标注模型进行词性标注算法。该算法通过BP网络优秀的甄别能力有效的弥补了HMM在对兼类词进行标注方面的不足,同时也利用HMM增强了BP网络的建模能力。实验结果表明,该模型相比传统的HMM以及BP网络模型,建模能力、分类性以及适应性都得到很大的增强,准确率也得到了2%~7%的提高。 展开更多
关键词 BP网络 隐马尔科夫模型 混合BP网络和隐马尔科夫模型 兼类词处理 汉语词性标注
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部