期刊文献+

融合短语结构的多通道老挝语名词短语识别方法

A Structure Enhanced Multi-channel Approach to Noun Phrase Identification for Lao Language
在线阅读 下载PDF
导出
摘要 名词短语的识别对句法分析等自然语言处理任务有着基础性的意义。目前,老挝语名词短语识别研究仍处于起步阶段,相较于其他语言,老挝语名词短语识别存在边界模糊、界定描述模糊、语料有限、句式过长等问题。针对以上问题,该文研究了老挝语名词短语的结构,并构建了融合其短语结构的多通道老挝语名词短语模型。模型通过将字符、词和词性特征组合形成不同的输入通道,使用多个BiLSTM网络从不同的方面提取更多隐藏信息,同时改善低资源语料存在大量未登录名词短语的问题。此外,由于老挝语句式过长,模型引入Attention机制,增加重要特征的权重,有效减少了无用信息的干扰。实验结果表明,该模型在有限标注语料下F_(1)值达到85.25%,优于其他模型方法。 The identification of noun phrases is of fundamental significance to natural language processing tasks such as syntactic analysis.At present,the study on the identification of Lao noun phrases is still in its infancy.Compared with other languages,the Lao has the problems such as fuzzy boundary,ambiguous definition description,limited corpus and excessively long sentences.This paper studies the structure of Lao noun phrases and builds the multi-channel model to identify Lao noun phrases.This model forms different channels by combining characters,words and POS features,and extract more hidden information from different aspects with multi BiLSTM networks,so as to alleviate the unenrolled noun phrases issue in low-resource corpus.To deal with the excessively long sentences in Lao,the model introduces the Attention mechanism to assign higher weight of important features,effectively abating the interference from useless information.The experimental results show that the F_(1) value of the model is up to 85.25%on a limited annotated corpus,which is better than other models and methods.
作者 汤礼欣 周兰江 张力 张建安 TANG Lixin;ZHOU Lanjiang;ZHANG Li;ZHANG Jian'an(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)
出处 《中文信息学报》 CSCD 北大核心 2022年第6期61-68,89,共9页 Journal of Chinese Information Processing
关键词 名词短语识别 BiLSTM 多通道 Attention机制 identification of noun phrases BiLSTM multi-channel Attention mechanism
作者简介 汤礼欣(1997-),硕士,主要研究领域为信息检索、机器学习和自然语言处理。E-mail:993458286@qq.com;通信作者:周兰江(1964-),硕士,副教授,主要研究领域为信息检索、机器学习和自然语言处理。E-mail:915090822@qq.com;张力(1963-),本科,副教授,主要研究领域为计算机应用。E-mail:877341544@qq.com。
  • 相关文献

参考文献15

二级参考文献120

共引文献225

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部