-
题名基于文本特征增强的电力命名实体识别
被引量:7
- 1
-
-
作者
刘文松
胡竹青
张锦辉
刘雪菁
林峰
俞俊
-
机构
南瑞集团有限公司(国网电力科学研究院有限公司)
江苏瑞中数据股份有限公司
-
出处
《电力系统自动化》
EI
CSCD
北大核心
2022年第21期134-142,共9页
-
基金
国家重点研发计划资助项目(2017YFB1001800)
国网电力科学研究院有限公司科技项目“知识图谱技术研究及在科技领域应用”资助。
-
文摘
针对电力领域语料规模小、实体嵌套、实体缩写等特点,提出基于文本特征增强的实体识别方法。首先,通过预设词库和低粒度分词的方式,在合理利用中文单词蕴含的语义信息的同时,降低分词传递误差的影响。其次,设计词级双向门控循环单元学习中文单词构造特征,融合词性和词长特征后,与单词向量拼接成为单词增强向量。然后,基于双向门控循环单元-注意力机制-条件随机场完成实体识别模型的构建和训练。在此基础上,采用电力领域语料库进行验证,F1分数为87.02%,证实了电力命名实体识别效果。
-
关键词
电力实体识别
低粒度分词
单词构造特征
词级双向门控循环单元
-
Keywords
named entity recognition(NER)for electric power industry
low-grain word segment
structure feature of word
wordlevel BiGRU
-
分类号
TM73
[电气工程—电力系统及自动化]
TP391.1
[自动化与计算机技术—计算机应用技术]
-