-
题名分词中的歧义处理
被引量:29
- 1
-
-
作者
谭琼
史忠植
-
机构
中国科学技术大学管理学院
中国科学院计算技术研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第11期125-127,236,共4页
-
文摘
歧义处理是影响分词系统切分精度的重要因素,是自动分词系统设计中的一个最困难也是最核心的问题。该文利用一种统计的方法来解决交集型歧义字段的切分。
-
关键词
分词
歧义处理
交集型歧义
汉字信息处理
-
Keywords
word segmenting,ambiguity processing,overlapped ambiguity
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词频学习和动态词频更新的藏文自动分词系统设计
被引量:4
- 2
-
-
作者
项炜
金澎
-
机构
乐山师范学院智能信息处理及应用实验室
乐山师范学院计算机科学学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2014年第5期106-109,共4页
-
文摘
藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别技术。在歧义字段分词准确性、未登录词识别率和分词速度上,该系统具有较优的性能。
-
关键词
藏文自动分词
自然语言处理
格助词
动态词频更新
歧义处理
未登录词识别
-
Keywords
Automatic Tibetan word segmentation Natural language processing Case-auxiliary word Dynamic word frequency update Ambiguity treatment Unknown words recognition
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Hash结构词典的双向最大匹配分词法
被引量:18
- 3
-
-
作者
陈之彦
李晓杰
朱淑华
付丹龙
邢诒海
-
机构
暨南大学国际学院
暨南大学信息科学技术学院
广州市经济贸易信息中心
-
出处
《计算机科学》
CSCD
北大核心
2015年第B11期49-54,共6页
-
基金
国家自然科学基金(61272415
61272067)
+2 种基金
国家863计划重大项目(2013AA01A212)
广东省自然基金团队研究项目(S2012030006242)
广州市重点实验室开放基金(2012-224)资助
-
文摘
针对当前自然语言处理中中文分词基于词典的机械分词方法,正序词典不能作为逆向最大匹配分词词典以及反序词典维护困难的问题,提出一种新的词典构造方法并设计了相应的双向最大匹配算法,同时在算法中加入了互信息歧义处理模块来处理分词中出现的交集型歧义。该算法可以在分词的过程中显著提高分词的精确度,适用于对词语切分精度要求较高的中文语言处理系统。
-
关键词
分词词典
双向最大匹配法
基于Hash的单字索引
互信息歧义处理
-
Keywords
Segmentation dictionary, Bi-direction maximum matching method, Single word index based on Hash struc-ture, Mutual information ambiguity processing
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-