随着网络空间安全文档数量的快速增长,网络空间安全领域命名实体识别变的越来越重要。与通用领域命名实体识别任务相比,网络空间安全领域的命名实体识别面临许多挑战。例如网络空间安全实体类型多样、新词语经常作为新的实体出现并引起...随着网络空间安全文档数量的快速增长,网络空间安全领域命名实体识别变的越来越重要。与通用领域命名实体识别任务相比,网络空间安全领域的命名实体识别面临许多挑战。例如网络空间安全实体类型多样、新词语经常作为新的实体出现并引起超出词表(out-of-vocabulary,OOV)的问题。现有的深度学习识别模型(如循环神经网络、卷积神经网络)的性能不足以应对这些挑战。随着预训练模型的快速发展,它已被广泛用于许多任务中并获得了最优的表现。但是,在网络空间安全命名实体识别领域,很少有关于预训练模型的研究。本文提出了两个基于预训练pre-training of deep bidirectional transformers(BERT)模型的网络空间安全命名实体识别模型来从网络空间安全文本中提取安全实体,分别称为“First Subword Replaced(FSR)”和“Masked Cross-Entropy Loss(MCEL)”。FSR模型和MCEL模型还可以解决因BERT使用WordPiece分词器引起的子词和标签之间的不匹配问题。本文基于真实的网络空间安全文本语料库进行了充分的实验。结果表明,本文提出基于预训练的模型在网络空间安全数据集上的F1值比之前的最优模型高了1.88%。展开更多
实体关系抽取是构建大规模知识图谱和专业领域数据集的重要基础之一,为此提出了一种基于预训练大语言模型的实体关系抽取框架(entity relation extraction framework based on pre-trained large language model, PLLM-RE),并针对循环...实体关系抽取是构建大规模知识图谱和专业领域数据集的重要基础之一,为此提出了一种基于预训练大语言模型的实体关系抽取框架(entity relation extraction framework based on pre-trained large language model, PLLM-RE),并针对循环经济政策进行了实体关系抽取研究。基于所提出的PLLM-RE框架,首先使用RoBERTa模型进行循环经济政策文本的实体识别,然后选取基于Transformer的双向编码器表示(bidirectional encoder representation from Transformers, BERT)模型进行循环经济政策实体关系抽取研究,以构建该政策领域的知识图谱。研究结果表明,PLLM-RE框架在循环经济政策实体关系抽取任务上的性能优于对比模型BiLSTM-ATT、PCNN、BERT以及ALBERT,验证了所提框架在循环经济政策实体关系抽取任务上的适配性和优越性,为后续循环经济领域资源的信息挖掘和政策分析提供了新思路。展开更多
文摘随着网络空间安全文档数量的快速增长,网络空间安全领域命名实体识别变的越来越重要。与通用领域命名实体识别任务相比,网络空间安全领域的命名实体识别面临许多挑战。例如网络空间安全实体类型多样、新词语经常作为新的实体出现并引起超出词表(out-of-vocabulary,OOV)的问题。现有的深度学习识别模型(如循环神经网络、卷积神经网络)的性能不足以应对这些挑战。随着预训练模型的快速发展,它已被广泛用于许多任务中并获得了最优的表现。但是,在网络空间安全命名实体识别领域,很少有关于预训练模型的研究。本文提出了两个基于预训练pre-training of deep bidirectional transformers(BERT)模型的网络空间安全命名实体识别模型来从网络空间安全文本中提取安全实体,分别称为“First Subword Replaced(FSR)”和“Masked Cross-Entropy Loss(MCEL)”。FSR模型和MCEL模型还可以解决因BERT使用WordPiece分词器引起的子词和标签之间的不匹配问题。本文基于真实的网络空间安全文本语料库进行了充分的实验。结果表明,本文提出基于预训练的模型在网络空间安全数据集上的F1值比之前的最优模型高了1.88%。
文摘实体关系抽取是构建大规模知识图谱和专业领域数据集的重要基础之一,为此提出了一种基于预训练大语言模型的实体关系抽取框架(entity relation extraction framework based on pre-trained large language model, PLLM-RE),并针对循环经济政策进行了实体关系抽取研究。基于所提出的PLLM-RE框架,首先使用RoBERTa模型进行循环经济政策文本的实体识别,然后选取基于Transformer的双向编码器表示(bidirectional encoder representation from Transformers, BERT)模型进行循环经济政策实体关系抽取研究,以构建该政策领域的知识图谱。研究结果表明,PLLM-RE框架在循环经济政策实体关系抽取任务上的性能优于对比模型BiLSTM-ATT、PCNN、BERT以及ALBERT,验证了所提框架在循环经济政策实体关系抽取任务上的适配性和优越性,为后续循环经济领域资源的信息挖掘和政策分析提供了新思路。