期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
结合字形特征与迭代学习的金融领域命名实体识别 被引量:20
1
作者 刘宇瀚 刘常健 +4 位作者 徐睿峰 骆旺达 陈奕 吉忠晟 应能涛 《中文信息学报》 CSCD 北大核心 2020年第11期74-83,共10页
针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进... 针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。 展开更多
关键词 金融领域命名实体识别 中文语料库 深度学习
在线阅读 下载PDF
基于数据增强和损失平衡的机电领域命名实体识别
2
作者 林娜 岳希 唐聃 《计算机工程与应用》 北大核心 2025年第7期222-232,共11页
机电领域命名实体识别是机电创新设计信息检索最基础的过程。目前命名实体识别任务的数据在机电领域较少,且大部分存在不平衡问题。通过构建机电领域命名实体识别数据集,根据数据集文本结构特点设计多维数据增强方法,并提出基于改进los... 机电领域命名实体识别是机电创新设计信息检索最基础的过程。目前命名实体识别任务的数据在机电领域较少,且大部分存在不平衡问题。通过构建机电领域命名实体识别数据集,根据数据集文本结构特点设计多维数据增强方法,并提出基于改进loss的命名实体识别模型BERT-BiGRU-CRF(BL)。对互联网机电领域文本语料进行爬取并进行标注构成机电领域命名实体识别数据集;根据不同方式对数据集的影响从同类实体替换、同义词替换、语料裁减和语料拼接四个方面进行多维数据增强后按一定比例进行数据扩充增加数据丰富度;针对数据集数据不平衡问题设计使用Weigh loss平衡focal loss与CRF loss权重的模型,该模型采用BERT进行词向量编码,利用BiGRU完成文本向量的特征提取,使用CRF进行标签约束与解码。经实验证明,多维数据增强方法对模型效果有显著提升,并且经过改进的模型在原始和增强后数据集上表现均为最优,F1值分别为78.23%和83.3%。 展开更多
关键词 机电领域 命名实体识别 数据增强 focal loss Weigh loss
在线阅读 下载PDF
基于领域知识图谱增强和Lattice-LSTM的中医药命名实体识别
3
作者 牛天星 郑小盈 +1 位作者 祝永新 汪辉 《计算机应用与软件》 北大核心 2025年第3期127-134,共8页
针对中医药领域命名实体识别任务中,现有的通过构造词典对实体识别模型进行增强的方法中存在的专业术语发现困难、构造词典效率低下和识别准确率不足等问题,提出一种基于领域知识图谱增强和Lattice-LSTM的领域命名实体识别模型。通过对... 针对中医药领域命名实体识别任务中,现有的通过构造词典对实体识别模型进行增强的方法中存在的专业术语发现困难、构造词典效率低下和识别准确率不足等问题,提出一种基于领域知识图谱增强和Lattice-LSTM的领域命名实体识别模型。通过对已经构建完成的领域图谱使用嵌入算法,将其快速高效地转化为领域词典,并使用融合多粒度词汇信息的Lattice-LSTM将词典中的专业词汇编码到模型的输入中去,从而提高了模型在领域实体识别任务上的效果。采用中医药数据集进行实验,结果表明,所提模型的F1值高于传统实体识别模型,验证了模型的有效性。 展开更多
关键词 领域知识图谱 中医药 命名实体识别 知识图谱嵌入
在线阅读 下载PDF
融合知识的文博领域低资源命名实体识别方法研究 被引量:1
4
作者 李超 侯霞 乔秀明 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期13-22,共10页
文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法Re... 文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法RelicsNER。该方法将类别描述信息的语义知识融入文物文本中,使用基于跨度的方式进行解码,用于改善实体嵌套问题,并采用边界平滑的方式缓解跨度识别模型的过度自信问题。与基线模型相比,该方法在FewRlicsData数据集上的F1值有所提升,在文博领域命名实体识别任务中取得较好的性能。在公开数据集OntoNotes 4.0上的实验结果证明该方法具有较好的泛化性,同时在数据集OntoNotes 4.0和MSRA上进行小规模数据实验,性能均高于基线模型,说明所提方法适用于低资源场景。 展开更多
关键词 文博领域 命名实体识别 知识融合 注意力机制
在线阅读 下载PDF
融合领域词典嵌入的航空不安全事件命名实体识别 被引量:3
5
作者 许雅玺 孟天宇 +1 位作者 王欣 刘炳南 《科学技术与工程》 北大核心 2024年第8期3284-3290,共7页
针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder repre... 针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder representations from transformers)预训练语言模型提出融合领域词典嵌入的领域语义信息增强的方法。在自建数据集上进行多次对比实验,结果表明:所提出的方法可以进一步提升实体边界的识别率,相较于传统的双向长短期记忆网络-条件随机场(bi-directional long short term memory-conditional random field,BiLSTM-CRF)命名实体识别模型,性能提升约5%。 展开更多
关键词 航空不安全事件 领域词典 命名实体识别 预训练语言模型
在线阅读 下载PDF
因果关系表示增强的跨领域命名实体识别
6
作者 刘小明 曹梦远 +2 位作者 杨关 刘杰 王杭 《计算机工程与应用》 CSCD 北大核心 2024年第18期176-188,共13页
跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域... 跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域中的虚假相关性问题,提出一种因果关系表示增强的跨领域命名实体识别模型,将源域的语义特征表示与目标域的语义特征表示进行融合,生成一种增强的上下文语义特征表示。通过结构因果模型捕捉增强后的特征变量与标签之间的因果关系。在目标域中应用因果干预和反事实推断策略,提取存在的直接因果效应,从而进一步缓解特征与标签之间的虚假相关性问题。该方法在公共数据集上进行了实验,实验结果得到了显著提高。 展开更多
关键词 领域命名实体识别 迁移学习 因果关系 结构因果模型 语义特征表示
在线阅读 下载PDF
教育领域下多维度特征命名实体识别方法 被引量:1
7
作者 任义 苏博 袁帅 《计算机工程》 CAS CSCD 北大核心 2024年第10期110-118,共9页
信息技术的发展与进步促使“互联网+教育”成为目前教育领域的研究热点,教育教学的各个环节都在向智能化的方向发展。中学数学的命名实体识别(NER)任务的研究,可为后续构建中学数学学科知识图谱及自动问答等任务奠定基础,进而满足中学... 信息技术的发展与进步促使“互联网+教育”成为目前教育领域的研究热点,教育教学的各个环节都在向智能化的方向发展。中学数学的命名实体识别(NER)任务的研究,可为后续构建中学数学学科知识图谱及自动问答等任务奠定基础,进而满足中学生个性化知识获取的需求,助力新型智能化教育体系的构建。目前中学数学知识语义复杂,其NER和研究数据较少,且在当前主流模型特征提取任务中容易忽略掉部分局部特征。为解决该领域的实体识别困难问题,以自建的中学数学知识语料库为研究对象,提出一种融合多头注意力的多维度特征NER方法。该方法首先采用BERT进行文本表征预训练得到词向量,接着引入对抗训练对每个嵌入向量进行扰动,将得到的对抗样本和嵌入向量传送到多维度特征提取层进行特征提取,再将输出的特征进行拼接,通过多头注意力机制进行动态融合,最终经过条件随机场(CRF)修正后输出。实验结果表明,该方法在自建Educ数据集上的识别准确率、召回率以及F1值分别达到96.68%、97.71%和97.19%,证明了该方法在中学数学知识实体识别上的有效性。 展开更多
关键词 命名实体识别 教育领域 对抗训练 多维度特征提取 多头注意力机制
在线阅读 下载PDF
面向联合收割机故障领域的命名实体识别研究 被引量:1
8
作者 杨宁 钱晔 陈健 《中国农机化学报》 北大核心 2024年第8期338-343,共6页
联合收割机作为一种机械化设备不可避免地会出现机械故障,为快速地找出并解决机械故障,提出一种面向联合收割机故障领域的命名实体识别模型RP-TEBC(RoBERTa-wwm-ext+PGD+Transformer-Encoder+BiGRU+CRF)。RP-TEBC使用动态编码的RoBERTa-... 联合收割机作为一种机械化设备不可避免地会出现机械故障,为快速地找出并解决机械故障,提出一种面向联合收割机故障领域的命名实体识别模型RP-TEBC(RoBERTa-wwm-ext+PGD+Transformer-Encoder+BiGRU+CRF)。RP-TEBC使用动态编码的RoBERTa-wwm-ext预训练模型作为词嵌入层,利用自适应Transformer编码器层融合双向门控单元(BiGRU)作为上下文编码器,利用条件随机场(CRF)作为解码层,使用维特比算法找出最优的路径输出。同时,RP-TEBC模型在词嵌入层中通过添加一些扰动,生成对抗样本,经过对模型不断的训练优化,可以提高模型整体的鲁棒性和泛化性能。结果表明,在构建的联合收割机故障领域命名实体识别数据集上,相比于基线模型,该模型的准确率、召回率、F1值分别提高1.79%、1.01%、1.46%。 展开更多
关键词 联合收割机 故障领域 命名实体识别 知识图谱 预训练模型 对抗样本
在线阅读 下载PDF
基于BERT+Bi-LSTM+CRF的航天领域命名实体识别研究 被引量:2
9
作者 夏旭东 于荣欢 《兵工自动化》 北大核心 2024年第2期78-83,92,共7页
针对互联网开放数据中文本表述模糊、实体边界不清等问题,构建航天语料库Space-Corpus,提出一种基于BERT+Bi-LSTM+CRF的航天领域命名实体识别模型。基于微调的多层双向Transformer编码器(bidirectional encoder representations from tr... 针对互联网开放数据中文本表述模糊、实体边界不清等问题,构建航天语料库Space-Corpus,提出一种基于BERT+Bi-LSTM+CRF的航天领域命名实体识别模型。基于微调的多层双向Transformer编码器(bidirectional encoder representations from transformer,BERT)模型生成输入语料的向量化表示,结合双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM)获取上下文特征,通过条件随机场(conditional random field,CRF)层进行序列解码标注,输出得分最高的预测标签。实验结果表明,该模型在Space-Corpus语料库上较基于BERT模型、基于BERT+Bi-LSTM以及基于CNN+Bi-LSTM+CRF识别模型的准确率、召回率及F1值均有提升。 展开更多
关键词 航天领域 命名实体识别 BERT 深度学习
在线阅读 下载PDF
基于数据增强的MRC水利领域命名实体识别模型研究 被引量:1
10
作者 朱永明 邢丹艳 《人民黄河》 CAS 北大核心 2024年第9期156-160,共5页
水利领域命名实体识别对水利知识图谱构建、水利智能问答系统构建等具有重要意义,但当前水利领域命名实体识别存在缺乏标注语料、传统方法识别精度低和无法解决多义实体等不足。针对水利文本特点,提出基于数据(词汇和实体类型标签)增强... 水利领域命名实体识别对水利知识图谱构建、水利智能问答系统构建等具有重要意义,但当前水利领域命名实体识别存在缺乏标注语料、传统方法识别精度低和无法解决多义实体等不足。针对水利文本特点,提出基于数据(词汇和实体类型标签)增强的机器阅读理解(MRC)命名实体识别模型,即MRC-WLE模型,主要是将水利文本中词汇特征信息和实体类型标签特征信息作为“知识”注入模型。引入BERT-CRF、BERT-CRF-Word、BERT-BiLSTM-CRF、BERT-BiLSTM-CRF-Word等模型作为对照,评价MRC-WLE模型的性能。结果表明:与上述BERT-CRF等模型相比,MRC-WLE模型的微平均F1值均有所提高。与MRC模型相比,MRC-WLE模型的微平均F1值提高了0.85%,体现了数据增强的有效性。 展开更多
关键词 水利领域 命名实体识别 数据增强 机器阅读理解
在线阅读 下载PDF
基于BERT-BiLSTM-CRF的隧道施工安全领域命名实体识别 被引量:3
11
作者 张念 周彩凤 +3 位作者 万飞 刘非 王耀耀 徐栋梁 《中国安全科学学报》 CSCD 北大核心 2024年第12期56-63,共8页
为解决隧道施工安全领域传统命名实体识别(NER)方法存在的实体边界模糊、小样本学习困难、特征信息提取不够全面准确等问题,提出一种基于变换器的双向编码器表征(BERT)-双向长短时记忆(BiLSTM)网络-条件随机场(CRF)模型的隧道施工事故... 为解决隧道施工安全领域传统命名实体识别(NER)方法存在的实体边界模糊、小样本学习困难、特征信息提取不够全面准确等问题,提出一种基于变换器的双向编码器表征(BERT)-双向长短时记忆(BiLSTM)网络-条件随机场(CRF)模型的隧道施工事故文本实体识别方法。首先,利用BERT模型将隧道施工事故文本编码得到蕴含语义特征的词向量;然后,将BERT模型训练后输出的词向量输入BiLSTM模型进一步获取隧道施工事故文本的上下文特征并进行标签概率预测;最后,利用CRF层的标注规则的约束,修正BiLSTM模型的输出结果,得到最大概率序列标注结果,从而实现对隧道施工事故文本标签的智能分类。将该模型与其他4种常用的传统NER模型在隧道施工安全事故语料数据集上进行对比试验,试验结果表明:BERT-BiLSTM-CRF模型的识别准确率、召回率和F 1值分别达到88%、89%和88%,实体识别效果优于其他基准模型。利用所建立的NER模型识别实际隧道施工事故文本中的实体,验证了其在隧道施工安全领域中的应用效果。 展开更多
关键词 变换器的双向编码器表征(BERT) 双向长短时记忆(BiLSTM)网络 条件随机场(CRF) 隧道施工 安全领域 命名实体识别(NER) 深度学习
在线阅读 下载PDF
基于知识图谱增强的领域多模态实体识别 被引量:3
12
作者 李华昱 张智康 +1 位作者 闫阳 岳阳 《计算机工程》 CAS CSCD 北大核心 2024年第8期31-39,共9页
针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet15... 针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet152提取图像特征,并使用分词工具获得句子中的名词实体。通过BERT将名词实体与图谱节点进行特征嵌入,利用余弦相似度查找句子中的分词在学科图谱中最相似的节点,保留到该节点距离为1的邻居节点,生成最佳匹配子图,作为句子的语义补充。使用多层感知机(MLP)将文本、图像和子图3种特征映射到同一空间,并通过独特的门控机制实现文本和图像的细粒度跨模态特征融合。最后,通过交叉注意力机制将多模态特征与子图特征进行融合,输入解码器进行实体标记。在Twitter2015、Twitter2017和自建计算机学科数据集上同基线模型进行实验比较,结果显示,所提方法在领域数据集上的精确率、召回率和F1值分别可达88.56%、87.47%和88.01%,与最优基线模型相比,F1值提高了1.36个百分点,表明利用领域知识图谱能有效提升实体识别效果。 展开更多
关键词 命名实体识别 多模态 领域 知识图谱 跨模态特征融合 注意力机制
在线阅读 下载PDF
金融领域中文命名实体识别研究进展 被引量:3
13
作者 徐秋荣 朱鹏 +1 位作者 罗轶凤 董启文 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第5期1-13,共13页
命名实体识别(Named Entity Recognition, NER)作为自然语言处理的基本任务之一,一直以来都是国内外研究的热点.随着金融互联网的快速发展,迄今为止,金融领域中文NER不断进步,并得以应用到其他金融业务中.为了方便研究者了解金融领域中... 命名实体识别(Named Entity Recognition, NER)作为自然语言处理的基本任务之一,一直以来都是国内外研究的热点.随着金融互联网的快速发展,迄今为止,金融领域中文NER不断进步,并得以应用到其他金融业务中.为了方便研究者了解金融领域中文NER方法的发展状况和未来发展趋势,进行了一项相关方法的研究和总结.首先,介绍了NER的相关概念和金融领域中文NER的特点;然后,按照金融领域中文NER的发展历程,将研究方法分为基于字典和规则的方法、基于统计机器学习的方法和基于深度学习的方法,并详细介绍了每类方法的特点和典型模型;接下来,简要概括了金融领域中文NER的公开数据集和工具、评估方法及其应用;最后,向读者阐述了目前面临的挑战和未来的发展趋势. 展开更多
关键词 自然语言处理 中文命名实体识别 金融领域
在线阅读 下载PDF
基于偏正结构表示的加工命名实体识别方法
14
作者 王素琴 王钰珏 +2 位作者 石敏 朱登明 李兆歆 《计算机集成制造系统》 EI CSCD 北大核心 2024年第3期958-967,共10页
制造企业积累大量的零件加工经验多以文本形式存在,如何从文本中挖掘出高质量的零件加工知识是个尚待解决的问题。针对待识别实体存在的偏正结构特征,导致实体边界界定模糊的问题,提出一种多网络协调的中文命名实体识别方法。在BERT生... 制造企业积累大量的零件加工经验多以文本形式存在,如何从文本中挖掘出高质量的零件加工知识是个尚待解决的问题。针对待识别实体存在的偏正结构特征,导致实体边界界定模糊的问题,提出一种多网络协调的中文命名实体识别方法。在BERT生成字向量的过程中,通过领域自适应方法,提高字向量对工艺实体的表征能力,同时,在BiLSTM-CRF模型中引入注意力机制和多门控制的混合专家网络捕获上下文特征与实体信息。实验表明,较于当前主流的命名实体识别模型,该文提出的方法对机械零件加工实体识别的F1值达到80.15%,取得优于其他模型的最好性能。 展开更多
关键词 中文命名实体识别 机械零件加工 多门控制的混合专家网络 领域自适应
在线阅读 下载PDF
基于多粒度字形增强的中文医学命名实体识别 被引量:4
15
作者 刘威 马磊 +1 位作者 李凯 李蓉 《计算机工程》 CAS CSCD 北大核心 2024年第2期337-344,共8页
中文医学命名实体识别(CMNER)旨在从中文非结构化医学文本中提取实体。现有的基于字符的CMNER模型没有从不同角度全面考虑汉字的特点,限制了其应用于CMNER的性能。基于此,提出基于多粒度字形增强的中文医学命名实体识别模型。对于输入... 中文医学命名实体识别(CMNER)旨在从中文非结构化医学文本中提取实体。现有的基于字符的CMNER模型没有从不同角度全面考虑汉字的特点,限制了其应用于CMNER的性能。基于此,提出基于多粒度字形增强的中文医学命名实体识别模型。对于输入的句子,结合汉字的字形空间结构和偏旁部首的表示,同时根据相应的领域词典来匹配字符的领域词信息,增强字符的语义和潜在边界信息,使模型获得更好的实体识别能力;通过门控机制整合领域词和汉字的字形多粒度特征,综合考虑汉字的领域信息和汉字底层信息,从而具有更好的感知医学实体的能力。在此基础上,将多粒度字形增强的字符表示输入到双向长短记忆和条件随机场层,分别进行上下文编码和标签解码。实验结果表明,本文模型较于最佳基线模型在IMCS21和CMeEE数据集上的F1值分别提升了1.04%和0.62%。此外,通过消融实验验证了该模型的每个组成部分的有效性,在识别中文医学命名实体时具有较好的识别性能。 展开更多
关键词 命名实体识别 医学领域 字形结构 门控机制 领域词典
在线阅读 下载PDF
结合GAN与BiLSTM-Attention-CRF的领域命名实体识别 被引量:32
16
作者 张晗 郭渊博 李涛 《计算机研究与发展》 EI CSCD 北大核心 2019年第9期1851-1858,共8页
领域内命名实体识别通常面临领域内标注数据缺乏以及由于实体名称多样性导致的同一文档中实体标注不一致等问题.针对以上问题,利用生成式对抗网络(generative adversarial network, GAN)可以生成数据的特点,将生成式对抗网络与BiLSTM-At... 领域内命名实体识别通常面临领域内标注数据缺乏以及由于实体名称多样性导致的同一文档中实体标注不一致等问题.针对以上问题,利用生成式对抗网络(generative adversarial network, GAN)可以生成数据的特点,将生成式对抗网络与BiLSTM-Attention-CRF模型相结合.首先以BiLSTM-Attention作为生成式对抗网络的生成器模型,以CNN作为判别器模型,从众包标注数据集中整合出与专家标注数据分布一致的正样本标注数据来解决领域内标注数据缺乏的问题;然后通过在BiLSTM-Attention-CRF模型中引入文档层面的全局向量,计算每个单词与该全局向量的关系得出其新的特征表示以解决由于实体名称多样化造成的同一文档中实体标注不一致问题;最后,在基于信息安全领域众包标注数据集上的实验结果表明,该模型在各项指标上显著优于同类其他模型方法. 展开更多
关键词 领域命名实体识别 生成式对抗网络 众包标注数据 实体标注一致 BiLSTM-Attention-CRF模型
在线阅读 下载PDF
基于层叠条件随机场的旅游领域命名实体识别 被引量:37
17
作者 郭剑毅 薛征山 +3 位作者 余正涛 张志坤 张宜浩 姚贤明 《中文信息学报》 CSCD 北大核心 2009年第5期47-52,共6页
针对旅游领域,提出了一种基于层叠条件随机场模型的旅游领域命名实体识别方法。该方法在低层条件随机场中以字为切分粒度,结合旅游景点常用字表、景点常用后缀表、地名常用字表等特征词典,实现简单旅游命名实体的识别;其识别结果传递到... 针对旅游领域,提出了一种基于层叠条件随机场模型的旅游领域命名实体识别方法。该方法在低层条件随机场中以字为切分粒度,结合旅游景点常用字表、景点常用后缀表、地名常用字表等特征词典,实现简单旅游命名实体的识别;其识别结果传递到高层模型,以词为切分粒度,结合复杂特征,实现嵌套景点、特产风味、地点的识别。最后进行了两组相关实验,结果表明,在开放测试中,层叠条件随机场模型相比于单层模型,F值提高了8个百分点;相比于HMM模型,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。 展开更多
关键词 计算机应用 中文信息处理 旅游领域 命名实体识别 层叠条件随机场 特征模板
在线阅读 下载PDF
基于本体的汉语领域命名实体识别 被引量:3
18
作者 史树敏 冯冲 +2 位作者 黄河燕 刘东升 王树梅 《情报学报》 CSSCI 北大核心 2009年第6期857-863,共7页
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点。本文将命名实体分为两大类:常规命名实体和领域命名实体。基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识... 命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点。本文将命名实体分为两大类:常规命名实体和领域命名实体。基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法。该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别。实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%。同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用。 展开更多
关键词 领域实体 领域命名实体识别 本体 词性规则模板 CRFS
在线阅读 下载PDF
基于BERT和对抗训练的食品领域命名实体识别 被引量:17
19
作者 董哲 邵若琦 +1 位作者 陈玉梁 翟维枫 《计算机科学》 CSCD 北大核心 2021年第5期247-253,共7页
为了在食品领域从非结构化语料中抽取出有效的实体信息,提出了一种基于BERT(Bidirectional Encoder Representations from Transformers)和对抗训练的命名实体识别(Named Entity Recognition,NER)的方法。命名实体识别是一种典型的序列... 为了在食品领域从非结构化语料中抽取出有效的实体信息,提出了一种基于BERT(Bidirectional Encoder Representations from Transformers)和对抗训练的命名实体识别(Named Entity Recognition,NER)的方法。命名实体识别是一种典型的序列标注问题。目前,深度学习方法已经被广泛应用于该任务并取得了显著的成果,但食品领域等特定领域中的命名实体识别存在难以构建大量样本集、专用名词边界识别不准确等问题。针对这些问题,文中利用BERT得到字向量,以丰富语义的表示;并引入对抗训练,在有效防止中文分词任务私有信息的噪声的基础上,利用中文分词(Chinese Word Segmentation,CWS)和命名实体识别的共享信息来提高识别实体边界的精确率。在两类领域的语料上进行实验,这两类领域分别是中文食品安全案例和人民日报新闻。其中,中文食品安全案例用于训练命名实体识别任务,人民日报新闻用于训练中文分词任务。使用对抗训练来提高命名实体识别任务中实体(包括人名、地名、机构名、食品名称、添加剂名称)识别的精确度,实验结果表明,所提方法的精确率、召回率和F1值分别为95.46%,89.50%,92.38%,因此在食品领域边界不显著的中文命名实体识别任务上,该方法的了F1值得到提升。 展开更多
关键词 食品领域 命名实体识别 BERT BiLSTM 对抗训练
在线阅读 下载PDF
基于BERT的电机领域中文命名实体识别方法 被引量:18
20
作者 顾亦然 霍建霖 +2 位作者 杨海根 卢逸飞 郭玉雯 《计算机工程》 CAS CSCD 北大核心 2021年第8期78-83,92,共7页
针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通... 针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通过条件随机场算法标注出实体识别结果。根据电机文本特点对自建数据集进行标注,并将电机领域实体划分为实物、特性描述、问题/故障、方法/技术等4个类别。实验结果表明,与基于Bi LSTM-CRF、Bi LSTM-CNN和Bi GRU的实体识别方法相比,该方法具有更高的准确率、召回率和F1值,并且有效解决了电机领域命名实体识别任务中标注数据不足及实体边界模糊的问题。 展开更多
关键词 命名实体识别 BERT预训练语言模型 电机领域 深度学习 迁移学习
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部