-
题名基于语料库的高频最大交集型歧义字段考察
被引量:6
- 1
-
-
作者
李斌
陈小荷
方芳
徐艳华
-
机构
南京师范大学文学院
-
出处
《中文信息学报》
CSCD
北大核心
2006年第1期1-6,共6页
-
基金
南京师范大学211资助项目(1240702504)
-
文摘
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。
-
关键词
计算机应用
中文信息处理
最大交集型歧义字段
全切分
强势切分
-
Keywords
computer application
Chinese information processing
maximal overlapping ambiguity siring
word omni-segmentation
biased segmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语交集型歧义切分字段关于专业领域的统计特性
被引量:3
- 2
-
-
作者
乔维
孙茂松
-
机构
清华信息科学与技术国家实验室(筹)
-
出处
《中文信息学报》
CSCD
北大核心
2008年第4期10-18,共9页
-
基金
国家自然科学基金资助项目(60573187)
国家863计划资助项目(2007AA01Z148)
-
文摘
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。
-
关键词
计算机应用
中文信息处理
汉语自动分词
专业领域语料库
交集型歧义切分字段
伪歧义
真歧义
-
Keywords
computer application
Chinese information processing
Chinese word segmentation
domain-specific corpus
overlapping ambiguity
pseudo ambiguity
true ambiguity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语文本中交集型切分歧义的分类处理
被引量:3
- 3
-
-
作者
李凯
左万利
吕巍
-
机构
吉林大学计算机科学与技术学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2004年第8期1486-1490,共5页
-
基金
国家自然科学基金 (69673 0 15
60 3 73 0 99)资助
吉林省科技发展计划项目 (合同号 :2 0 0 0 0111)资助
-
文摘
自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准确性 .该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中 .实验效果表明 。
-
关键词
自动分词
交集型歧义字段
宏结构
类别
-
Keywords
chinese information processing
cross ambiguity segmentation
macro structure
category
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于关联规则的交集型歧义消解算法
被引量:3
- 4
-
-
作者
袁鼎荣
钟宁
-
机构
北京工业大学国际WIC研究院
广西师范大学计算机科学与信息工程学院
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2010年第1期67-69,共3页
-
基金
国家自然科学基金重大研究计划培育项目
编号90718020
+3 种基金
国家973计划前期研究专项课题
编号2008CB317108
澳大利亚ARC项目
编号DP0667060
-
文摘
以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消解上具有一定的发展潜力.
-
关键词
交集型歧义字段
关联规则
歧义消解
-
Keywords
overlapping ambiguity word segment
association rule
disambiguating
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-