-
题名为上下文显式独立建模的中文实体识别方法
- 1
-
-
作者
陈点
曹逸轩
罗平
-
机构
智能信息处理重点实验室(中国科学院计算技术研究所)
中国科学院大学
鹏城实验室
-
出处
《高技术通讯》
CAS
北大核心
2024年第8期787-797,共11页
-
基金
国家重点研发计划(2022YFB2702502)
国家自然科学基金(62076231,62206265)
国家博士后基金(2021M703271)资助项目。
-
文摘
现有中文命名实体识别(NER)模型在公开数据集上的表现相对成熟,但有研究指出,模型过度依赖实体文本的字面特征,而上下文对实体识别的影响却未得到重视。现有的模型在简单的泛化测试中表现较差,因此本文提出显式地为上下文独立建模,令模型对上下文和实体的字面信息进行区分。为此,也提出了相应的数据增强方法用于训练模型中的上下文模块、实体字面模块和综合模块。实验结果表明,本文提出的方法在不损失测试集识别效果的情况下,明显改善了模型在不变性测试中的表现,较基准模型其失败率降低了2.3%。
-
关键词
自然语言处理
中文命名实体识别(NER)
上下文独立建模
数据增强
-
Keywords
natural language processing
Chinese named-entity recognition(NER)
independent context modeling
data augmentation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-