准确识别和提取海量学术文献中蕴含的各类知识实体,对于精准满足科研人员的知识需求、促进细粒度知识发现具有重要意义。针对学术文献中领域知识实体数据稀疏和不均衡等问题,本研究提出一种融合语义增强和知识蒸馏的知识实体抽取改进方...准确识别和提取海量学术文献中蕴含的各类知识实体,对于精准满足科研人员的知识需求、促进细粒度知识发现具有重要意义。针对学术文献中领域知识实体数据稀疏和不均衡等问题,本研究提出一种融合语义增强和知识蒸馏的知识实体抽取改进方案。首先,本研究提出语义增强的教师模型。一方面,通过构建融合SciBERT(bidirectional encoder representations from transformers for scientific text)和ELMo(embeddings from language models)模型的嵌入表示方法,将全局语义与动态词义信息相结合生成更加全面的语义表示,从而提升教师模型对领域学术文献复杂上下文的建模能力;另一方面,基于领域预训练词嵌入模型筛选出与知识实体语义关联度最高的Top n单词或短语,并结合注意力和门控机制对增强的实体语义信息进行动态加权,以有效缓解实体数据稀疏和长尾类别建模的不足。其次,采用一组异构的单一实体教师模型,生成不同教师模型在聚合数据集下的概率分布结果,并以此来指导学生模型的训练。最后,本研究利用材料科学领域的三个公开数据集验证所提方法的有效性。实验结果表明,所提方法在材料科学领域的三个数据集上均取得了最高的micro F1和macro F1,并且在实体数据稀疏和不均衡等情境下,具有显著的鲁棒性和泛化能力。展开更多
目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现...目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现,基于规则的方法泛化性不强,基于人工智能的方法占用资源过高且依赖大量标注数据,为解决以上问题,提出一种小样本语义分析的漏洞实体抽取方法.该方法使用BERT(bidirectional encoder representations from transformers)预训练漏洞描述数据得到漏洞领域内的预训练模型,以更好地理解漏洞数据,减少对大量标注数据的依赖,此外,采用增量学习的自监督方式提高标注数据非常有限(1785个标注样本).所提模型抽取了漏洞领域中12类漏洞实体,实验结果表明,所提方法在漏洞实体抽取的效果上优于其他抽取模型,F1值达到0.8643,整体的识别性能较高,实现了对漏洞实体的精确抽取.展开更多
中文实体抽取(Chinese named entity recognition,CNER)是中文信息抽取任务中的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础,其方法主要分为知识驱动和数据驱动两大类。然而基于规则、词典与机器学习的传统知识驱动方法...中文实体抽取(Chinese named entity recognition,CNER)是中文信息抽取任务中的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础,其方法主要分为知识驱动和数据驱动两大类。然而基于规则、词典与机器学习的传统知识驱动方法存在忽视上下文语义信息、计算成本高和低召回率的问题,限制了CNER技术的发展。介绍了CNER的定义和发展历程。详细整理了CNER任务的典型数据集、训练工具、序列标注方式和模型评价指标。对基于数据驱动的方法进行了总结,将数据驱动的方法划分为基于深度学习、预训练语言模型和中文实体关系联合抽取等方法,并分析了数据驱动方法在不同领域的实际应用场景。对CNER任务的未来研究方向进行了展望,为新方法的提出提供一定参考。展开更多
文摘准确识别和提取海量学术文献中蕴含的各类知识实体,对于精准满足科研人员的知识需求、促进细粒度知识发现具有重要意义。针对学术文献中领域知识实体数据稀疏和不均衡等问题,本研究提出一种融合语义增强和知识蒸馏的知识实体抽取改进方案。首先,本研究提出语义增强的教师模型。一方面,通过构建融合SciBERT(bidirectional encoder representations from transformers for scientific text)和ELMo(embeddings from language models)模型的嵌入表示方法,将全局语义与动态词义信息相结合生成更加全面的语义表示,从而提升教师模型对领域学术文献复杂上下文的建模能力;另一方面,基于领域预训练词嵌入模型筛选出与知识实体语义关联度最高的Top n单词或短语,并结合注意力和门控机制对增强的实体语义信息进行动态加权,以有效缓解实体数据稀疏和长尾类别建模的不足。其次,采用一组异构的单一实体教师模型,生成不同教师模型在聚合数据集下的概率分布结果,并以此来指导学生模型的训练。最后,本研究利用材料科学领域的三个公开数据集验证所提方法的有效性。实验结果表明,所提方法在材料科学领域的三个数据集上均取得了最高的micro F1和macro F1,并且在实体数据稀疏和不均衡等情境下,具有显著的鲁棒性和泛化能力。
文摘目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现,基于规则的方法泛化性不强,基于人工智能的方法占用资源过高且依赖大量标注数据,为解决以上问题,提出一种小样本语义分析的漏洞实体抽取方法.该方法使用BERT(bidirectional encoder representations from transformers)预训练漏洞描述数据得到漏洞领域内的预训练模型,以更好地理解漏洞数据,减少对大量标注数据的依赖,此外,采用增量学习的自监督方式提高标注数据非常有限(1785个标注样本).所提模型抽取了漏洞领域中12类漏洞实体,实验结果表明,所提方法在漏洞实体抽取的效果上优于其他抽取模型,F1值达到0.8643,整体的识别性能较高,实现了对漏洞实体的精确抽取.
文摘中文实体抽取(Chinese named entity recognition,CNER)是中文信息抽取任务中的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础,其方法主要分为知识驱动和数据驱动两大类。然而基于规则、词典与机器学习的传统知识驱动方法存在忽视上下文语义信息、计算成本高和低召回率的问题,限制了CNER技术的发展。介绍了CNER的定义和发展历程。详细整理了CNER任务的典型数据集、训练工具、序列标注方式和模型评价指标。对基于数据驱动的方法进行了总结,将数据驱动的方法划分为基于深度学习、预训练语言模型和中文实体关系联合抽取等方法,并分析了数据驱动方法在不同领域的实际应用场景。对CNER任务的未来研究方向进行了展望,为新方法的提出提供一定参考。