-
题名融合实体特性识别越南语复杂命名实体的混合方法
被引量:3
- 1
-
-
作者
刘艳超
郭剑毅
余正涛
周兰江
严馨
陈秀琴
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学智能信息处理重点实验室
昆明理工大学国际教育学院
-
出处
《智能系统学报》
CSCD
北大核心
2016年第4期503-512,共10页
-
基金
国家自然科学基金项目(61262041
61472168
+1 种基金
61562052)
云南省自然科学基金重点项目(2013FA030)
-
文摘
命名实体识别是自然语言处理过程中的基础任务。本文针对越南语的复杂命名实体难识别及F值不够高的问题,提出了一种结合实体库的越南语命名实体识别混合方法。首先,本文根据越南语的语言和实体特点,选取有效的局部特征和全局特征,应用最大熵模型进行越南语命名实体识别;其次,根据本文制定的命名实体的规则进行越南语命名实体识别;然后,结合两者的识别结果,以规则为主,统计为辅原则;最后经过人工校对,把获取到的正确标记的实体加入到实体库,动态扩增实体库,为规则制定和特征选取提供丰富的语料和依据。实验表明,该方法能够有效地结合规则与统计的方法优点,互相弥补不足,明显提高了识别的正确率、召回率和F值。
-
关键词
越南语
实体库构建
实体识别
最大熵
规则
实体特点
全局特征
局部特征
-
Keywords
vietnamese
entity library construction
entity recognition
m a x i m u m entropy
rules set
entity characters
lobal features
local features
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于最大熵模型的越南语交叉歧义消解
被引量:1
- 2
-
-
作者
熊明明
刘艳超
郭剑毅
余正涛
周兰江
陈秀琴
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学智能信息处理重点实验室
昆明理工大学国际教育学院
-
出处
《中文信息学报》
CSCD
北大核心
2017年第4期63-69,共7页
-
基金
国家自然科学基金(61262041
61472168)
云南省自然科学基金(2013FA030)
-
文摘
越南语中存在大量的交叉歧义片段。为了解决交叉歧义给分词、词性标注、实体识别和机器翻译等带来的影响,该文选取统计特征、上下文特征和歧义字段内部特征,尝试性地构建最大熵模型,对越南语的交叉歧义进行消解。该文通过三种方法整理出包含174 646词条的越南语词典,然后通过正向和逆向最大匹配方法从25 981条人工标注好的越南语分词句子中抽取5 377条歧义字段,分别测试了三类特征对歧义模型的贡献程度,并对歧义字段做五折交叉验证实验,准确率达到了87.86%。同时,与CRFs进行对比实验,结果表明该方法能更有效消解越南语交叉歧义。
-
关键词
交叉歧义
歧义消解
最大熵模型
越南语词典
CRFS
-
Keywords
cross ambiguity
disambiguation
maximum entropy model
Vietnamese dictionary
CRFs
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-