-
题名融合词汇边界信息的合同实体识别方法
被引量:1
- 1
-
-
作者
王浩畅
和婷婷
郑冠彧
-
机构
东北石油大学计算机与信息技术学院
-
出处
《计算机工程与设计》
北大核心
2024年第6期1757-1763,共7页
-
基金
国家自然科学基金项目(61402099、61702093)。
-
文摘
针对合同中实体表达形式复杂多变、识别粒度细的特点,及合同文本中实体较长问题,提出一种融合词汇边界信息的合同实体识别方法。利用预训练语言模型动态生成语义向量作为模型输入;运用相对位置编码对Transformer结构进行改进,使其在编码过程中融合词汇信息,进一步丰富语义特征;通过条件随机场(CRF)结构进行解码,得到输入序列的标签预测。实验结果表明,该方法可以有效确定合同文本中的实体边界,具有良好的泛化性能。
-
关键词
实体识别
合同文本
预训练语言模型
相对位置编码
转换器结构
词汇边界信息
条件随机场
-
Keywords
entity recognition
contract text
pre-trained language models
relative position encoding
transformer structure
lexical boundary information
conditional random field
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多头注意力机制字词联合的中文命名实体识别
被引量:2
- 2
-
-
作者
王进
王猛旗
张昕跃
孙开伟
朴昌浩
-
机构
重庆邮电大学数据工程与可视计算重点实验室
-
出处
《江苏大学学报(自然科学版)》
CAS
北大核心
2024年第1期77-84,共8页
-
基金
国家自然科学基金资助项目(61806033)。
-
文摘
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07.
-
关键词
中文命名实体识别
词汇冗余
词汇边界信息
字词联合
多头注意力机制
BIE词集
-
Keywords
Chinese named entity recognition
redundant word interference
word boundary information
character-word integration
multi-head attention
BIE word sets
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-