随着网络空间安全文档数量的快速增长,网络空间安全领域命名实体识别变的越来越重要。与通用领域命名实体识别任务相比,网络空间安全领域的命名实体识别面临许多挑战。例如网络空间安全实体类型多样、新词语经常作为新的实体出现并引起...随着网络空间安全文档数量的快速增长,网络空间安全领域命名实体识别变的越来越重要。与通用领域命名实体识别任务相比,网络空间安全领域的命名实体识别面临许多挑战。例如网络空间安全实体类型多样、新词语经常作为新的实体出现并引起超出词表(out-of-vocabulary,OOV)的问题。现有的深度学习识别模型(如循环神经网络、卷积神经网络)的性能不足以应对这些挑战。随着预训练模型的快速发展,它已被广泛用于许多任务中并获得了最优的表现。但是,在网络空间安全命名实体识别领域,很少有关于预训练模型的研究。本文提出了两个基于预训练pre-training of deep bidirectional transformers(BERT)模型的网络空间安全命名实体识别模型来从网络空间安全文本中提取安全实体,分别称为“First Subword Replaced(FSR)”和“Masked Cross-Entropy Loss(MCEL)”。FSR模型和MCEL模型还可以解决因BERT使用WordPiece分词器引起的子词和标签之间的不匹配问题。本文基于真实的网络空间安全文本语料库进行了充分的实验。结果表明,本文提出基于预训练的模型在网络空间安全数据集上的F1值比之前的最优模型高了1.88%。展开更多
针对目前最先进的临床命名实体识别(Cinical Named Entity Recognition,CNER)模型未能充分挖掘文本的全局信息和语义特征,以及未能解决文本中的字符替换等问题,改进了传统的单词嵌入模型,并在此基础上提出了一种结合深度卷积神经网络和...针对目前最先进的临床命名实体识别(Cinical Named Entity Recognition,CNER)模型未能充分挖掘文本的全局信息和语义特征,以及未能解决文本中的字符替换等问题,改进了传统的单词嵌入模型,并在此基础上提出了一种结合深度卷积神经网络和双向短时记忆条件随机场(DCNN-BiLSTM-CRF)的临床文本命名实体识别方法。改进的单词嵌入模型融合词根、拼音和字符本身意义,使用了来自Transformers的双向编码器表示,使单词嵌入向量具有汉字和临床文本的特点,该方法通过在临床命名实体识别任务中引入深度卷积神经网络(Deep Convolutional Neural Networks,DCNN),解决了CNN预测时丢失部分信息无法找回的问题。通过使用DCNN,本文模型能够更有效地捕获全局信息、获取字符之间的权重关系和多层次语义特征信息,从而提高了临床命名实体识别的准确性。在数据集CCKS2017和CCKS2018上分别进行实验,实验结果表明,与基准模型相比,该模型F1值分别改善了0.48%,0.68%,0.6%,0.58%,0.04%和1.43%,2.36%,3.31%,1.11%,0.17%。为了进一步验证本文的模型,进行了两种消融实验。结果表明,在两个数据集CCKS2017和CCKS2018上本文模型对比变体模型M1,F1值分别改善了0.79%和0.84%;对比变体模型M2,F1值分别改善了0.53%和0.64%。这些实验结果证明了本文所提算法的可行性。展开更多
针对卫星领域命名实体语料匮乏、现有算法识别性能较低的问题,提出一种考虑模糊边界的卫星领域实体标注方法,构建包含8类常见卫星领域实体的语料库,与该领域现有语料库相比粒度更细、覆盖更广,并以此为基础提出迁移学习和多网络融合的...针对卫星领域命名实体语料匮乏、现有算法识别性能较低的问题,提出一种考虑模糊边界的卫星领域实体标注方法,构建包含8类常见卫星领域实体的语料库,与该领域现有语料库相比粒度更细、覆盖更广,并以此为基础提出迁移学习和多网络融合的卫星领域实体识别算法。该算法采用预训练双向编码器对语料语义平滑迁移获得子词级别特征,采用双向长短期记忆(bi-directional long-short term memory,BiLSTM)神经网络捕捉上下文信息确定边界,以条件随机场作为解码器实现标签预测。实验结果表明:相比于BiLSTM等传统模型具有更优的识别性能,算法在8种实体上的F1值均在92%以上,微平均F1值达到96.10%。展开更多
为解决水产医学命名实体识别中存在的嵌套实体识别准确率不高的问题,提出一种基于多核卷积的命名实体识别模型(BERT+Multi-CNN+CRF),采用多核卷积神经网络提取嵌套实体特征,通过BERT(bidirectional encoder representations from transf...为解决水产医学命名实体识别中存在的嵌套实体识别准确率不高的问题,提出一种基于多核卷积的命名实体识别模型(BERT+Multi-CNN+CRF),采用多核卷积神经网络提取嵌套实体特征,通过BERT(bidirectional encoder representations from transformers)方法对输入语料进行预训练,丰富嵌套实体位置向量信息,获得嵌套实体输入特征矩阵,将提取特征矩阵与输入特征矩阵融合,以增强嵌套实体的特征表示,并进行不同模型的对比试验。结果表明,本文中提出的BERT+Multi-CNN+CRF模型,在水产医学嵌套命名实体识别任务中的准确率、召回率和F1值分别为88.04%、88.92%和88.48%,与识别准确率较高的BERT+BiLSTM+ATT+CRF模型相比,分别提高了2.25%、3.23%和2.74%。研究表明,本文中提出的BERT+Multi-CNN+CRF模型可有效解决水产医学嵌套实体识别准确率不高的问题,是一种有效的水产医学嵌套命名实体识别方法。展开更多
为解决传统施工安全管理中对事故报告信息分析效率低的问题,利用自然语言处理(Natural Language Processing,NLP)技术,提出基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的施工安全事故文本命名...为解决传统施工安全管理中对事故报告信息分析效率低的问题,利用自然语言处理(Natural Language Processing,NLP)技术,提出基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的施工安全事故文本命名实体识别方法。以自建的施工安全事故领域实体标注语料数据集为研究对象,首先利用BERT预训练模型获取动态字向量,然后采用双向长短时记忆网络-注意力机制-条件随机场(BiLSTM-Attention-CRF)对前一层输出的语义编码进行序列标注和解码以获取最优文本标签序列。实验结果表明,该模型在自建数据集上的F1值分数为92.58%,较基准模型BiLSTM-CRF提升了4.19%;该方法对事故时间等5类实体识别F1值均可达到91%以上,验证了该方法对施工安全事故实体识别的有效性,说明模型可用于实际施工知识管理中并指导建筑安全管理的安全培训。展开更多
文摘针对中文网络安全领域缺乏公开数据集和有效的命名实体识别(Named Entity Recognition,NER)方法,提出一种融合汉字多源信息的网络安全NER方法。通过构建数据集中所有字符的偏旁和字频向量表,增强了中文字向量的特征表达能力,嵌入到改进的词汇融合模型中进行字向量与词向量的融合,输入到条件随机场(Conditional Random Fields,CRF)进行解码。实验结果表明,该方法在保持较快解码速度和占用较低计算机资源的情况下,在网络安全数据集上,其准确率、召回率和F1值分别为0.8649、0.8402和0.8523,均优于现有模型,能够为后续网络安全知识图谱的构建提供支撑。
文摘随着网络空间安全文档数量的快速增长,网络空间安全领域命名实体识别变的越来越重要。与通用领域命名实体识别任务相比,网络空间安全领域的命名实体识别面临许多挑战。例如网络空间安全实体类型多样、新词语经常作为新的实体出现并引起超出词表(out-of-vocabulary,OOV)的问题。现有的深度学习识别模型(如循环神经网络、卷积神经网络)的性能不足以应对这些挑战。随着预训练模型的快速发展,它已被广泛用于许多任务中并获得了最优的表现。但是,在网络空间安全命名实体识别领域,很少有关于预训练模型的研究。本文提出了两个基于预训练pre-training of deep bidirectional transformers(BERT)模型的网络空间安全命名实体识别模型来从网络空间安全文本中提取安全实体,分别称为“First Subword Replaced(FSR)”和“Masked Cross-Entropy Loss(MCEL)”。FSR模型和MCEL模型还可以解决因BERT使用WordPiece分词器引起的子词和标签之间的不匹配问题。本文基于真实的网络空间安全文本语料库进行了充分的实验。结果表明,本文提出基于预训练的模型在网络空间安全数据集上的F1值比之前的最优模型高了1.88%。
文摘针对卫星领域命名实体语料匮乏、现有算法识别性能较低的问题,提出一种考虑模糊边界的卫星领域实体标注方法,构建包含8类常见卫星领域实体的语料库,与该领域现有语料库相比粒度更细、覆盖更广,并以此为基础提出迁移学习和多网络融合的卫星领域实体识别算法。该算法采用预训练双向编码器对语料语义平滑迁移获得子词级别特征,采用双向长短期记忆(bi-directional long-short term memory,BiLSTM)神经网络捕捉上下文信息确定边界,以条件随机场作为解码器实现标签预测。实验结果表明:相比于BiLSTM等传统模型具有更优的识别性能,算法在8种实体上的F1值均在92%以上,微平均F1值达到96.10%。
文摘为解决水产医学命名实体识别中存在的嵌套实体识别准确率不高的问题,提出一种基于多核卷积的命名实体识别模型(BERT+Multi-CNN+CRF),采用多核卷积神经网络提取嵌套实体特征,通过BERT(bidirectional encoder representations from transformers)方法对输入语料进行预训练,丰富嵌套实体位置向量信息,获得嵌套实体输入特征矩阵,将提取特征矩阵与输入特征矩阵融合,以增强嵌套实体的特征表示,并进行不同模型的对比试验。结果表明,本文中提出的BERT+Multi-CNN+CRF模型,在水产医学嵌套命名实体识别任务中的准确率、召回率和F1值分别为88.04%、88.92%和88.48%,与识别准确率较高的BERT+BiLSTM+ATT+CRF模型相比,分别提高了2.25%、3.23%和2.74%。研究表明,本文中提出的BERT+Multi-CNN+CRF模型可有效解决水产医学嵌套实体识别准确率不高的问题,是一种有效的水产医学嵌套命名实体识别方法。
文摘为解决传统施工安全管理中对事故报告信息分析效率低的问题,利用自然语言处理(Natural Language Processing,NLP)技术,提出基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的施工安全事故文本命名实体识别方法。以自建的施工安全事故领域实体标注语料数据集为研究对象,首先利用BERT预训练模型获取动态字向量,然后采用双向长短时记忆网络-注意力机制-条件随机场(BiLSTM-Attention-CRF)对前一层输出的语义编码进行序列标注和解码以获取最优文本标签序列。实验结果表明,该模型在自建数据集上的F1值分数为92.58%,较基准模型BiLSTM-CRF提升了4.19%;该方法对事故时间等5类实体识别F1值均可达到91%以上,验证了该方法对施工安全事故实体识别的有效性,说明模型可用于实际施工知识管理中并指导建筑安全管理的安全培训。