煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识...煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识,在此基础上构建知识图谱,挖掘出不同技术间的内在联系、适用条件、实施效果及减排路径,为相关人员获取碳排放治理技术领域前沿知识提供支撑,推动煤炭行业向绿色低碳方向转型。一是广泛收集煤炭减排技术相关的专业书籍、术语字典、权威研究报告、中国知网核心期刊文献以及各类标准规范等,采用自底向上和自顶向下的混合构建法构建煤炭开采利用碳排放治理技术领域概念知识模型;二是运用BIO标注策略,并应用BERT+CRF(Bidirectional Encoder Representations from Transformers&Conditional Random Fields)模型,识别该领域实体;三是在实体识别基础上,应用BiLSTM-Attention模型进一步挖掘实体间关系,实现关系抽取;四是采用实体消歧和共指消解技术进行知识融合,消除数据中的矛盾与冗余信息;五是通过Neo4j图数据库存储实体与关系,基于上述结构化的方法与模型,由此完成煤炭开采利用碳排放治理技术领域知识图谱的构建。构建了涵盖排放特征、开采方式、利用方式和减碳技术四大类的煤炭开采利用碳排放治理技术领域知识概念模型,又将这四大类知识概念细分为12个子类,30个细类,形成了完整的概念分类体系。定义了10类命名实体及6种关系,基于提出的知识图谱构建组合方法与创新模型,抽取出12631个节点与32209个实体间关系,揭示了碳排放技术与排放特征、开采方式、利用方式之间的复杂关联,并根据已构建的煤炭开采利用碳排放治理技术领域的知识图谱,支持矿山企业选取相适配的减碳技术路径。随着煤炭行业低碳发展的场景拓展、数据的积累以及人工智能和大模型的发展,本研究将在多模态数据融合的基础上,优化图谱的构建方法,拓展图谱的应用范围,提高技术路径推荐的精准度。展开更多
命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实...命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实体识别任务广受重视.然而,现有的多模态命名实体识别方法中,存在跨模态知识间的细粒度对齐不足问题,文本表征会融合语义不相关的图像信息,进而引入噪声.为了解决这些问题,提出了一种基于细粒度图文对齐的多模态命名实体识别方法(FGITA:A Multi-Modal NER Frame based on Fine-Grained Image-Text Alignment).首先,该方法通过目标检测、语义相似性判断等,确定更为细粒度的文本实体和图像子对象之间的语义相关性;其次,通过双线性注意力机制,计算出图像子对象与实体的相关性权重,并依据权重将子对象信息融入到实体表征中;最后,提出了一种跨模态对比学习方法,依据图像和实体之间的匹配程度,优化实体和图像在嵌入空间中的距离,借此帮助实体表征学习相关的图像信息.在两个公开数据集上的实验表明,FGITA优于5个主流多模态命名实体识别方法,验证了方法的有效性,同时验证了细粒度跨模态对齐在多模态命名实体识别任务中的重要性和优越性.展开更多
文摘现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations from Transformers)获取输入序列的向量表示,并结合BiLSTM进一步学习输入序列的上下文信息。其次,提出由梯度稳定层和特征融合模块组成的全域信息融合机制:前者使模型保持稳定的梯度传播并更新优化输入序列的表示,后者则融合BiLSTM的前后向表示获取更全面的特征表示。接着,构建多维关系感知结构学习不同子空间单词的关联性,以捕获文档中复杂的实体关系。此外,使用自适应焦点损失函数动态调整不同类别实体的权重,提高模型对少数类实体的识别性能。最后,在7个公开数据集上将所提模型和11个基线模型进行对比,实验结果表明所提模型的F1值均优于对比模型,可见该模型的综合性较优。
文摘煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识,在此基础上构建知识图谱,挖掘出不同技术间的内在联系、适用条件、实施效果及减排路径,为相关人员获取碳排放治理技术领域前沿知识提供支撑,推动煤炭行业向绿色低碳方向转型。一是广泛收集煤炭减排技术相关的专业书籍、术语字典、权威研究报告、中国知网核心期刊文献以及各类标准规范等,采用自底向上和自顶向下的混合构建法构建煤炭开采利用碳排放治理技术领域概念知识模型;二是运用BIO标注策略,并应用BERT+CRF(Bidirectional Encoder Representations from Transformers&Conditional Random Fields)模型,识别该领域实体;三是在实体识别基础上,应用BiLSTM-Attention模型进一步挖掘实体间关系,实现关系抽取;四是采用实体消歧和共指消解技术进行知识融合,消除数据中的矛盾与冗余信息;五是通过Neo4j图数据库存储实体与关系,基于上述结构化的方法与模型,由此完成煤炭开采利用碳排放治理技术领域知识图谱的构建。构建了涵盖排放特征、开采方式、利用方式和减碳技术四大类的煤炭开采利用碳排放治理技术领域知识概念模型,又将这四大类知识概念细分为12个子类,30个细类,形成了完整的概念分类体系。定义了10类命名实体及6种关系,基于提出的知识图谱构建组合方法与创新模型,抽取出12631个节点与32209个实体间关系,揭示了碳排放技术与排放特征、开采方式、利用方式之间的复杂关联,并根据已构建的煤炭开采利用碳排放治理技术领域的知识图谱,支持矿山企业选取相适配的减碳技术路径。随着煤炭行业低碳发展的场景拓展、数据的积累以及人工智能和大模型的发展,本研究将在多模态数据融合的基础上,优化图谱的构建方法,拓展图谱的应用范围,提高技术路径推荐的精准度。
文摘命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实体识别任务广受重视.然而,现有的多模态命名实体识别方法中,存在跨模态知识间的细粒度对齐不足问题,文本表征会融合语义不相关的图像信息,进而引入噪声.为了解决这些问题,提出了一种基于细粒度图文对齐的多模态命名实体识别方法(FGITA:A Multi-Modal NER Frame based on Fine-Grained Image-Text Alignment).首先,该方法通过目标检测、语义相似性判断等,确定更为细粒度的文本实体和图像子对象之间的语义相关性;其次,通过双线性注意力机制,计算出图像子对象与实体的相关性权重,并依据权重将子对象信息融入到实体表征中;最后,提出了一种跨模态对比学习方法,依据图像和实体之间的匹配程度,优化实体和图像在嵌入空间中的距离,借此帮助实体表征学习相关的图像信息.在两个公开数据集上的实验表明,FGITA优于5个主流多模态命名实体识别方法,验证了方法的有效性,同时验证了细粒度跨模态对齐在多模态命名实体识别任务中的重要性和优越性.