-
题名融合细粒度词特征的老挝语词性标注研究
- 1
-
-
作者
唐文
周兰江
张建安
-
机构
昆明理工大学信息工程与自动化学院智能信息处理重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2022年第3期661-666,共6页
-
基金
国家自然科学基金项目(61662040)资助。
-
文摘
目前流行的词性标注方法严重依赖语料规模及人工提取特征的质量;然而,老挝语资源稀缺,语料及特征选取面临很大挑战,且老挝语句子本身存在普遍过长的特点.因此,该文提出一种融合细粒度词特征的老挝语词性标注方法,构建了融合细粒度词特征的Att-BiLSTM-CRF模型.首先,以老挝音素和声调符号作为基本单元来进行老挝细粒度词特征的提取,使模型获取更加丰富的语料信息;然后,将细粒度词特征输入BiLSTM中获取句子级别特征;其次,使用自注意力机制防止老挝句子长远上下文信息丢失;最后,使用CRF提取相邻词性约束关系,从而获取最优词性标签.实验结果表明,在有限语料集下,该方法精确率、召回率和F1值分别为93.70%、93.87%、93.62%.
-
关键词
词性标注
老挝语
细粒度词特征
注意力机制
-
Keywords
part-of-speech tagging
Lao
fine-grained word features
attention mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-