为研究水利领域知识图谱构建中基于文本的知识自动抽取方法,本文以水文模型的名称、模拟要素、应用流域、计算时段、精度、继承-发展关系、研发人、研发单位等知识抽取为例,以883篇水文模型领域中文期刊论文为数据源,构建了BERT-Base-Ch...为研究水利领域知识图谱构建中基于文本的知识自动抽取方法,本文以水文模型的名称、模拟要素、应用流域、计算时段、精度、继承-发展关系、研发人、研发单位等知识抽取为例,以883篇水文模型领域中文期刊论文为数据源,构建了BERT-Base-Chinese模型、LAC(Lexical Analysis of Chinese)工具、模式识别联合的多策略水文模型命名实体识别方法。本文采用五位序列标注法(BMOES)方法对期刊论文进行人工标注等处理,建立知识抽取的输入数据集,用于BERT模型训练以及多策略识别方法的性能评价。识别结果显示:多策略识别方法对8种水文模型领域命名实体识别结果精确率和召回率的调和平均数(F 1值)均达到90%以上;针对不同实体类别,采取不同的命名实体识别方法较单BERT模型识别方法能有效提高识别性能。本文提出的方法可为水利领域其他场景的知识抽取提供参考,为领域知识图谱构建提供支撑。展开更多
文摘源代码漏洞检测常使用代码指标、机器学习和深度学习等技术.但是这些技术存在无法保留源代码中的句法和语义信息、需要大量专家知识对漏洞特征进行定义等问题.为应对现有技术存在的问题,提出基于BERT(bidirectional encoder representations from transformers)模型的源代码漏洞检测模型.该模型将需要检测的源代码分割为多个小样本,将每个小样本转换成近似自然语言的形式,通过BERT模型实现源代码中漏洞特征的自动提取,然后训练具有良好性能的漏洞分类器,实现Python语言多种类型漏洞的检测.该模型在不同类型的漏洞中实现了平均99.2%的准确率、97.2%的精确率、96.2%的召回率和96.7%的F1分数的检测水平,对比现有的漏洞检测方法有2%~14%的性能提升.实验结果表明,该模型是一种通用的、轻量级的、可扩展的漏洞检测方法.
文摘为研究水利领域知识图谱构建中基于文本的知识自动抽取方法,本文以水文模型的名称、模拟要素、应用流域、计算时段、精度、继承-发展关系、研发人、研发单位等知识抽取为例,以883篇水文模型领域中文期刊论文为数据源,构建了BERT-Base-Chinese模型、LAC(Lexical Analysis of Chinese)工具、模式识别联合的多策略水文模型命名实体识别方法。本文采用五位序列标注法(BMOES)方法对期刊论文进行人工标注等处理,建立知识抽取的输入数据集,用于BERT模型训练以及多策略识别方法的性能评价。识别结果显示:多策略识别方法对8种水文模型领域命名实体识别结果精确率和召回率的调和平均数(F 1值)均达到90%以上;针对不同实体类别,采取不同的命名实体识别方法较单BERT模型识别方法能有效提高识别性能。本文提出的方法可为水利领域其他场景的知识抽取提供参考,为领域知识图谱构建提供支撑。