大语言模型(large language model,LLM)技术热潮对数据质量的要求提升到了一个新的高度.在现实场景中,数据通常来源不同且高度相关.但由于数据隐私安全问题,跨域异质数据往往不允许集中共享,难以被LLM高效利用.鉴于此,提出了一种LLM和...大语言模型(large language model,LLM)技术热潮对数据质量的要求提升到了一个新的高度.在现实场景中,数据通常来源不同且高度相关.但由于数据隐私安全问题,跨域异质数据往往不允许集中共享,难以被LLM高效利用.鉴于此,提出了一种LLM和知识图谱(knowledge graph,KG)协同的跨域异质数据查询框架,在LLM+KG的范式下给出跨域异质数据查询的一个治理方案.为确保LLM能够适应多场景中的跨域异质数据,首先采用适配器对跨域异质数据进行融合,并构建相应的知识图谱.为提高查询效率,引入线性知识图,并提出同源知识图抽取算法HKGE来实现知识图谱的重构,可显著提高查询性能,确保跨域异质数据治理的高效性.进而,为保证多域数据查询的高可信度,提出可信候选子图匹配算法Trust HKGM,用于检验跨域同源数据的置信度计算和可信候选子图匹配,剔除低质量节点.最后,提出基于线性知识图提示的多域数据查询算法MKLGP,实现LLM+KG范式下的高效可信跨域查询.该方法在多个真实数据集上进行了广泛实验,验证了所提方法的有效性和高效性.展开更多
地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地...地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地震灾害数据、地质/地理环境、地震灾害事件、地震灾害应急任务、地震灾害模型本体,形成地震灾害本体层;结合自底向上方法构建高质量数据层,通过卷积神经网络对遥感影像进行灾害前后变化识别,实现从影像信息到文本知识的智能结构化转换;融合微调后通用信息抽取框架(universal information extraction,简称UIE)预训练模型对文本数据进行命名实体及关系属性知识抽取,精确率分别为82.04%和70.66%。通过计算词向量语义相似度实现数据融合与统一表达。以2023年12月18日甘肃省临夏州积石山县地震为例,通过本体构建、数据抽取、统一表达形成高质量地震灾害知识图谱,实现地震灾害多源异构地震数据到统一知识表达的转化。基于所构建的地震灾害知识图谱实现了灾害损失、应急链决策支持的查询展示,及结合相关地质数据推理和查询潜在次生灾害。该方法结合深度学习与预训练技术,融合多模态数据,构建了地震灾害知识图谱构建,为快速准确的地震灾害信息查询与次生灾害发生提供辅助支撑。展开更多
文摘大语言模型(large language model,LLM)技术热潮对数据质量的要求提升到了一个新的高度.在现实场景中,数据通常来源不同且高度相关.但由于数据隐私安全问题,跨域异质数据往往不允许集中共享,难以被LLM高效利用.鉴于此,提出了一种LLM和知识图谱(knowledge graph,KG)协同的跨域异质数据查询框架,在LLM+KG的范式下给出跨域异质数据查询的一个治理方案.为确保LLM能够适应多场景中的跨域异质数据,首先采用适配器对跨域异质数据进行融合,并构建相应的知识图谱.为提高查询效率,引入线性知识图,并提出同源知识图抽取算法HKGE来实现知识图谱的重构,可显著提高查询性能,确保跨域异质数据治理的高效性.进而,为保证多域数据查询的高可信度,提出可信候选子图匹配算法Trust HKGM,用于检验跨域同源数据的置信度计算和可信候选子图匹配,剔除低质量节点.最后,提出基于线性知识图提示的多域数据查询算法MKLGP,实现LLM+KG范式下的高效可信跨域查询.该方法在多个真实数据集上进行了广泛实验,验证了所提方法的有效性和高效性.
文摘地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地震灾害数据、地质/地理环境、地震灾害事件、地震灾害应急任务、地震灾害模型本体,形成地震灾害本体层;结合自底向上方法构建高质量数据层,通过卷积神经网络对遥感影像进行灾害前后变化识别,实现从影像信息到文本知识的智能结构化转换;融合微调后通用信息抽取框架(universal information extraction,简称UIE)预训练模型对文本数据进行命名实体及关系属性知识抽取,精确率分别为82.04%和70.66%。通过计算词向量语义相似度实现数据融合与统一表达。以2023年12月18日甘肃省临夏州积石山县地震为例,通过本体构建、数据抽取、统一表达形成高质量地震灾害知识图谱,实现地震灾害多源异构地震数据到统一知识表达的转化。基于所构建的地震灾害知识图谱实现了灾害损失、应急链决策支持的查询展示,及结合相关地质数据推理和查询潜在次生灾害。该方法结合深度学习与预训练技术,融合多模态数据,构建了地震灾害知识图谱构建,为快速准确的地震灾害信息查询与次生灾害发生提供辅助支撑。