期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于无指导学习策略的无词表条件下的汉语自动分词 被引量:37
1
作者 孙茂松 肖明 邹嘉彦 《计算机学报》 EI CSCD 北大核心 2004年第6期736-742,共7页
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统... 探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % . 展开更多
关键词 无指导学习 汉语自动分词 汉字Bigram 互信息 t-测试差 线性叠加 统计量 中文信息处理应用系统
在线阅读 下载PDF
利用汉字二元语法关系解决汉语自动分词中的交集型歧义 被引量:66
2
作者 孙茂松 黄昌宁 +2 位作者 邹嘉彦 陆方 沈达阳 《计算机研究与发展》 EI CSCD 北大核心 1997年第5期332-339,共8页
本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理... 本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理90. 展开更多
关键词 汉语 自动分词 汉字二元语法 计算机语言学
在线阅读 下载PDF
利用上下文信息解决汉语自动分词中的组合型歧义 被引量:24
3
作者 肖云 孙茂松 邹嘉彦 《计算机工程与应用》 CSCD 北大核心 2001年第19期87-89,106,共4页
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分... 组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。 展开更多
关键词 自然语言处理 中文计算 汉语自动分词 组合型歧义切分字段 中文信息处理
在线阅读 下载PDF
机器学习在汉语关联词语识别中的应用 被引量:7
4
作者 高维君 姚天顺 +2 位作者 黎邦洋 陈伟光 邹嘉彦 《中文信息学报》 CSCD 北大核心 2000年第3期1-8,共8页
关联词语在一些汉语议论文章中占很大的比重 ,因而 ,对于此类汉语文章的分析 ,关联词可以起到非常重要的作用。本文主要讨论如何将机器学习应用于汉语关联词的歧义辨别———原因 ,方法和效果。我们在已经加工完毕的 80篇汉语语料的基础... 关联词语在一些汉语议论文章中占很大的比重 ,因而 ,对于此类汉语文章的分析 ,关联词可以起到非常重要的作用。本文主要讨论如何将机器学习应用于汉语关联词的歧义辨别———原因 ,方法和效果。我们在已经加工完毕的 80篇汉语语料的基础上 ,抽取了用于机器学习的训练集和测试集 ,并使用C4.5进行了测试 ,识别正确率在 80 %以上。在文章的后面 ,我们还从语言学的角度对机器学习的结果进行了解释和分析。 展开更多
关键词 机器学习 关联词语识别 语料库 汉语 歧义问题
在线阅读 下载PDF
高频最大交集型歧义切分字段在汉语自动分词中的作用 被引量:51
5
作者 孙茂松 左正平 邹嘉彦 《中文信息学报》 CSCD 北大核心 1999年第1期27-34,共8页
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强... 交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。 展开更多
关键词 中文信息处理 汉语自动分词 歧义切分字段
在线阅读 下载PDF
基于k-近似的汉语词类自动判定 被引量:9
6
作者 孙茂松 左正平 邹嘉彦 《计算机学报》 EI CSCD 北大核心 2000年第2期166-170,共5页
生词处理在面向大规模真实文本的自然语言处理各项应用中占有重要位置 .词类自动判定就是对词类未知的生词由机器自动赋予一个合适的词类标记 .文中提出了一种基于 k-近似的词类自动判定算法 ,并在一个 1亿字汉语语料库及一个 6 0万字... 生词处理在面向大规模真实文本的自然语言处理各项应用中占有重要位置 .词类自动判定就是对词类未知的生词由机器自动赋予一个合适的词类标记 .文中提出了一种基于 k-近似的词类自动判定算法 ,并在一个 1亿字汉语语料库及一个 6 0万字经过人工分词和词类标注的汉语熟语料库的支持下 ,构造了相应实验 .实验结果初步显示 ,本算法对汉语开放词类——名词、动词、形容词的词类自动判定平均正确率分别为 99.2 1%、84.73%、70 .6 7% 。 展开更多
关键词 词类自动判定 生词处理 自然语言处理 汉语
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部