期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
面向买卖合同的词汇增强细粒度实体识别
1
作者 王浩畅 郑冠彧 赵铁军 《中文信息学报》 CSCD 北大核心 2024年第2期87-98,共12页
对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能。然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题。因此,该文提出一种新的基... 对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能。然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题。因此,该文提出一种新的基于词汇增强的细粒度实体识别模型BLBC-CFER,该方法通过对预训练语言模型提供的字级增强、字加词嵌入提供的词级增强以及词汇集合结构提供的词级增强进行融合并嵌入到模型输入中,然后采用深度神经网络获取最优标记序列。该文在自行构建的买卖合同细粒度实体语料集和两个不同领域的公开数据集上进行实验。实验结果表明,该方法不仅可以有效地完成合同文本的细粒度实体识别任务,而且具有较好的鲁棒性,效果优于基线模型。 展开更多
关键词 词汇增强 细粒度实体识别 序列标注 合同领域
在线阅读 下载PDF
基于样本贡献度对抗迁移的审计领域细粒度实体识别模型
2
作者 庞博文 陈一飞 黄佳 《计算机科学》 CSCD 北大核心 2024年第S02期136-143,共8页
细粒度命名实体识别(Named Entity Recognition,NER)在审计领域扶贫文本中识别实体信息,对优化扶贫政策成效分析与评估至关重要。近年来,深度学习在细粒度NER任务中取得显著成效,但特定领域仍面临语料集匮乏、迁移学习中细粒度特征不兼... 细粒度命名实体识别(Named Entity Recognition,NER)在审计领域扶贫文本中识别实体信息,对优化扶贫政策成效分析与评估至关重要。近年来,深度学习在细粒度NER任务中取得显著成效,但特定领域仍面临语料集匮乏、迁移学习中细粒度特征不兼容性加剧及数据不平衡等问题。针对这些问题,制定了细粒度扶贫审计实体标签体系,并构建了细粒度扶贫审计语料集(FG-PAudit-Corpus)以解决审计领域数据集匮乏的问题。提出了基于样本贡献度对抗迁移的细粒度实体识别模型(FGATSC),该模型做对抗迁移训练,提出将样本贡献度权重纳入迁移特征中以解决细粒度特征的不兼容问题。同时,针对源域高资源与扶贫审计领域低资源样本的不平衡,提出了平衡资源对抗鉴别器(BRAD)以降低这种影响。实验结果表明,FGATSC模型在FG-PAudit-Corpus上F1的值为75.83%,较基线模型提高了9.03%,较其他主流模型提升了4.01%~6.53%;在Resume数据集上进行泛化性验证,F1值较近几年的主流模型提高约0.14%~1.31%,达到了95.77%。综上,验证了FGATSC模型的有效性和泛化性。 展开更多
关键词 细粒度实体识别 扶贫审计 对抗训练 样本贡献度 平衡资源
在线阅读 下载PDF
基于MacBERT-BiLSTM-CRF的反恐领域细粒度实体识别 被引量:10
3
作者 焦凯楠 李欣 +2 位作者 叶瀚 朱容辰 孙海春 《科学技术与工程》 北大核心 2021年第29期12638-12648,共11页
为验证基于深度学习的命名实体识别框架在反恐领域的有效性,参照ACE 2005实体标注规范,制订了细粒度反恐实体标签体系,构建了反恐实体语料集Anti-Terr-Corpus;提出基于MacBERT-BiLSTM-CRF的实体识别模型,通过能减少预训练和微调阶段差异... 为验证基于深度学习的命名实体识别框架在反恐领域的有效性,参照ACE 2005实体标注规范,制订了细粒度反恐实体标签体系,构建了反恐实体语料集Anti-Terr-Corpus;提出基于MacBERT-BiLSTM-CRF的实体识别模型,通过能减少预训练和微调阶段差异的MacBERT(masked language modeling as correction bidirectional encoder representations from transformers)预训练语言模型获得动态字向量表达,送入双向长短时记忆(bidirectional long short-term memory,BiLSTM)和条件随机场(conditional random field,CRF)进行上下文特征编码和解码得到最佳实体标签;替换框架中的预训练语言模型进行对比实验。实验表明该模型可以有效获取反恐新闻中的重要实体。对比BiLSTM-CRF模型,MacBERT的加入提高了24.5%的F1值;保持编码-解码层为BiLSTM-CRF时,加入MacBERT比加入ALBERT(a lite BERT)提高了5.1%的F1值。可见,深度学习有利于反恐领域实体识别,能够利用公开反恐新闻文本为后续反恐形势预判服务,同时有助于反恐领域信息提取、知识图谱构建等基础性任务。 展开更多
关键词 深度学习 预训练语言模型 反恐领域实体识别 细粒度实体识别
在线阅读 下载PDF
基于关联记忆网络的中文细粒度命名实体识别 被引量:14
4
作者 琚生根 李天宁 孙界平 《软件学报》 EI CSCD 北大核心 2021年第8期2545-2556,共12页
细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不... 细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息融入预测句子的字符表示中.该方法将训练集中带实体标签的句子作为记忆单元,利用预训练语言模型获取原句子和记忆单元句子的上下文表示,再通过注意力机制将记忆单元句子的标签信息与原句子的表示结合,从而提升识别效果.在CLUENER2020中文细粒度命名实体识别任务上,该方法对比基线方法获得了提升. 展开更多
关键词 中文细粒度命名实体识别 关联记忆网络 多头自注意力 预训练语言模型
在线阅读 下载PDF
融合词语信息的细粒度命名实体识别 被引量:1
5
作者 曹晖 徐杨 《计算机应用与软件》 北大核心 2023年第3期235-240,共6页
针对基于字级别的命名实体识别方法无法充分利用句子词语信息的问题,提出一种融合词语信息的细粒度命名实体识别模型。该模型通过引入外部词典,在基于字表示中融入句子潜在词语的信息,避免了分词错误传播的问题,同时构建了一种增强型字... 针对基于字级别的命名实体识别方法无法充分利用句子词语信息的问题,提出一种融合词语信息的细粒度命名实体识别模型。该模型通过引入外部词典,在基于字表示中融入句子潜在词语的信息,避免了分词错误传播的问题,同时构建了一种增强型字向量表达;利用扁平化的Lattice Transformer网络结构对字和词语的表示以及位置关系信息进行建模;通过CRF(Conditional Random Filed)计算得到最优标签序列。在细粒度命名实体语料CLUENER2020上进行了实验,精确率达到82.46%,召回率达到83.14%,F1值达到82.80%,验证了融合词语信息可以提升细粒度命名实体识别效果。 展开更多
关键词 词语信息 细粒度实体识别 扁平化Lattice TRANSFORMER BERT
在线阅读 下载PDF
基于原型网络的细粒度实体分类方法 被引量:3
6
作者 任权 《中文信息学报》 CSCD 北大核心 2020年第12期65-72,共8页
细粒度实体分类任务作为命名实体识别任务的扩展,其目的是根据指称及其上下文,发掘实体更细粒度的类别含义。由于细粒度实体语料的标注代价较大,标注错误率较高,因此该文研究了在少量样本情况下的细粒度实体分类方法。该文首先提出了一... 细粒度实体分类任务作为命名实体识别任务的扩展,其目的是根据指称及其上下文,发掘实体更细粒度的类别含义。由于细粒度实体语料的标注代价较大,标注错误率较高,因此该文研究了在少量样本情况下的细粒度实体分类方法。该文首先提出了一种特征提取模型,能够分别从单词层面以及字符层面提取实体信息,随后结合原型网络将多标签分类任务转化为单标签分类任务,通过缩小空间中同类样本与原型的距离实现分类。该文使用少样本学习以及零样本学习两种设置在公开数据集FIGER(GOLD)上进行了实验,在少样本学习的设置下,较基线模型在三个指标中均有提升,其中macro-F1的提升最大,为2.4%。 展开更多
关键词 细粒度实体识别 少样本学习 零样本学习 原型网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部