地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地...地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地震灾害数据、地质/地理环境、地震灾害事件、地震灾害应急任务、地震灾害模型本体,形成地震灾害本体层;结合自底向上方法构建高质量数据层,通过卷积神经网络对遥感影像进行灾害前后变化识别,实现从影像信息到文本知识的智能结构化转换;融合微调后通用信息抽取框架(universal information extraction,简称UIE)预训练模型对文本数据进行命名实体及关系属性知识抽取,精确率分别为82.04%和70.66%。通过计算词向量语义相似度实现数据融合与统一表达。以2023年12月18日甘肃省临夏州积石山县地震为例,通过本体构建、数据抽取、统一表达形成高质量地震灾害知识图谱,实现地震灾害多源异构地震数据到统一知识表达的转化。基于所构建的地震灾害知识图谱实现了灾害损失、应急链决策支持的查询展示,及结合相关地质数据推理和查询潜在次生灾害。该方法结合深度学习与预训练技术,融合多模态数据,构建了地震灾害知识图谱构建,为快速准确的地震灾害信息查询与次生灾害发生提供辅助支撑。展开更多
为了解决自动文本摘要任务存在的文本语义信息不能充分编码、生成的摘要语义冗余、原始语义信息丢失等语义问题,提出了一种融合知识和文本语义信息的双编码器自动摘要模型(dual-encoder automatic summarization model incorporating kn...为了解决自动文本摘要任务存在的文本语义信息不能充分编码、生成的摘要语义冗余、原始语义信息丢失等语义问题,提出了一种融合知识和文本语义信息的双编码器自动摘要模型(dual-encoder automatic summarization model incorporating knowledge and semantic information,KSDASum)。该方法采用双编码器对原文语义信息进行充分编码,文本编码器获取全文的语义信息,图结构编码器维护全文上下文结构信息。解码器部分采用基于Transformer结构和指针网络,更好地捕捉文本和结构信息进行交互,并利用指针网络的优势提高生成摘要的准确性。同时,训练过程中采用强化学习中自我批判的策略梯度优化模型能力。该方法在CNN/Daily Mail和XSum公开数据集上与GSUM生成式摘要方法相比,在评价指标上均获得最优的结果,证明了所提模型能够有效地利用知识和语义信息,提升了生成文本摘要的能力。展开更多
本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了...本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越.展开更多
文摘地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地震灾害数据、地质/地理环境、地震灾害事件、地震灾害应急任务、地震灾害模型本体,形成地震灾害本体层;结合自底向上方法构建高质量数据层,通过卷积神经网络对遥感影像进行灾害前后变化识别,实现从影像信息到文本知识的智能结构化转换;融合微调后通用信息抽取框架(universal information extraction,简称UIE)预训练模型对文本数据进行命名实体及关系属性知识抽取,精确率分别为82.04%和70.66%。通过计算词向量语义相似度实现数据融合与统一表达。以2023年12月18日甘肃省临夏州积石山县地震为例,通过本体构建、数据抽取、统一表达形成高质量地震灾害知识图谱,实现地震灾害多源异构地震数据到统一知识表达的转化。基于所构建的地震灾害知识图谱实现了灾害损失、应急链决策支持的查询展示,及结合相关地质数据推理和查询潜在次生灾害。该方法结合深度学习与预训练技术,融合多模态数据,构建了地震灾害知识图谱构建,为快速准确的地震灾害信息查询与次生灾害发生提供辅助支撑。
文摘为了解决自动文本摘要任务存在的文本语义信息不能充分编码、生成的摘要语义冗余、原始语义信息丢失等语义问题,提出了一种融合知识和文本语义信息的双编码器自动摘要模型(dual-encoder automatic summarization model incorporating knowledge and semantic information,KSDASum)。该方法采用双编码器对原文语义信息进行充分编码,文本编码器获取全文的语义信息,图结构编码器维护全文上下文结构信息。解码器部分采用基于Transformer结构和指针网络,更好地捕捉文本和结构信息进行交互,并利用指针网络的优势提高生成摘要的准确性。同时,训练过程中采用强化学习中自我批判的策略梯度优化模型能力。该方法在CNN/Daily Mail和XSum公开数据集上与GSUM生成式摘要方法相比,在评价指标上均获得最优的结果,证明了所提模型能够有效地利用知识和语义信息,提升了生成文本摘要的能力。
文摘本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越.