期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于语料库的高频最大交集型歧义字段考察 被引量:6
1
作者 李斌 陈小荷 +1 位作者 方芳 徐艳华 《中文信息学报》 CSCD 北大核心 2006年第1期1-6,共6页
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上... 交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。 展开更多
关键词 计算机应用 中文信息处理 最大交集型歧义字段 全切分 强势切分
在线阅读 下载PDF
汉语交集型歧义切分字段关于专业领域的统计特性 被引量:3
2
作者 乔维 孙茂松 《中文信息学报》 CSCD 北大核心 2008年第4期10-18,共9页
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉... 交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。 展开更多
关键词 计算机应用 中文信息处理 汉语自动分词 专业领域语料库 交集歧义切分字段 歧义 歧义
在线阅读 下载PDF
汉语文本中交集型切分歧义的分类处理 被引量:3
3
作者 李凯 左万利 吕巍 《小型微型计算机系统》 CSCD 北大核心 2004年第8期1486-1490,共5页
自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准... 自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准确性 .该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中 .实验效果表明 。 展开更多
关键词 自动分词 交集型歧义字段 宏结构 类别
在线阅读 下载PDF
基于关联规则的交集型歧义消解算法 被引量:3
4
作者 袁鼎荣 钟宁 《郑州大学学报(理学版)》 CAS 北大核心 2010年第1期67-69,共3页
以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消... 以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消解上具有一定的发展潜力. 展开更多
关键词 交集型歧义字段 关联规则 歧义消解
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部