随着网络信息的爆炸式增长,威胁情报分析作为军事情报分析与战略决策的重要组成部分,其面临着来源多样化和信息结构复杂化的挑战。传统的人工信息提取方法在处理这些大量结构化及非结构化信息时效率低下,准确性有限。文中针对这一挑战,...随着网络信息的爆炸式增长,威胁情报分析作为军事情报分析与战略决策的重要组成部分,其面临着来源多样化和信息结构复杂化的挑战。传统的人工信息提取方法在处理这些大量结构化及非结构化信息时效率低下,准确性有限。文中针对这一挑战,提出了一种结合RoBERTa、BiLSTM和条件随机场(Conditional Random Fields,CRF)的命名实体识别新算法。此算法通过Ro-BERTa模型深入挖掘文本的语义特征,BiLSTM模型捕捉序列上下文信息,CRF层用于精确的实体标记,从而有效提升信息提取的准确率和效率。本文基于开源情报语料库构建了一个涉及导弹发射事件的命名实体识别数据集,并在此基础上进行了实验,结果表明,该方法在精确率、召回率及F1值等关键指标上相较于主流深度学习方法表现出显著的性能提升,其中F1值高达94.21%。展开更多
文摘随着网络信息的爆炸式增长,威胁情报分析作为军事情报分析与战略决策的重要组成部分,其面临着来源多样化和信息结构复杂化的挑战。传统的人工信息提取方法在处理这些大量结构化及非结构化信息时效率低下,准确性有限。文中针对这一挑战,提出了一种结合RoBERTa、BiLSTM和条件随机场(Conditional Random Fields,CRF)的命名实体识别新算法。此算法通过Ro-BERTa模型深入挖掘文本的语义特征,BiLSTM模型捕捉序列上下文信息,CRF层用于精确的实体标记,从而有效提升信息提取的准确率和效率。本文基于开源情报语料库构建了一个涉及导弹发射事件的命名实体识别数据集,并在此基础上进行了实验,结果表明,该方法在精确率、召回率及F1值等关键指标上相较于主流深度学习方法表现出显著的性能提升,其中F1值高达94.21%。
文摘针对中文网络安全领域缺乏公开数据集和有效的命名实体识别(Named Entity Recognition,NER)方法,提出一种融合汉字多源信息的网络安全NER方法。通过构建数据集中所有字符的偏旁和字频向量表,增强了中文字向量的特征表达能力,嵌入到改进的词汇融合模型中进行字向量与词向量的融合,输入到条件随机场(Conditional Random Fields,CRF)进行解码。实验结果表明,该方法在保持较快解码速度和占用较低计算机资源的情况下,在网络安全数据集上,其准确率、召回率和F1值分别为0.8649、0.8402和0.8523,均优于现有模型,能够为后续网络安全知识图谱的构建提供支撑。