地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地...地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地震灾害数据、地质/地理环境、地震灾害事件、地震灾害应急任务、地震灾害模型本体,形成地震灾害本体层;结合自底向上方法构建高质量数据层,通过卷积神经网络对遥感影像进行灾害前后变化识别,实现从影像信息到文本知识的智能结构化转换;融合微调后通用信息抽取框架(universal information extraction,简称UIE)预训练模型对文本数据进行命名实体及关系属性知识抽取,精确率分别为82.04%和70.66%。通过计算词向量语义相似度实现数据融合与统一表达。以2023年12月18日甘肃省临夏州积石山县地震为例,通过本体构建、数据抽取、统一表达形成高质量地震灾害知识图谱,实现地震灾害多源异构地震数据到统一知识表达的转化。基于所构建的地震灾害知识图谱实现了灾害损失、应急链决策支持的查询展示,及结合相关地质数据推理和查询潜在次生灾害。该方法结合深度学习与预训练技术,融合多模态数据,构建了地震灾害知识图谱构建,为快速准确的地震灾害信息查询与次生灾害发生提供辅助支撑。展开更多
最近大数据技术受到国内外学界和业界的广泛关注。为全面深入了解大数据的研究成果,以Derwent Innovations Index(德温特专利数据库)和Web of Science(WOS)数据库为数据源,利用专利地图和知识图谱方法,从年份、国家、研究机构、高被引...最近大数据技术受到国内外学界和业界的广泛关注。为全面深入了解大数据的研究成果,以Derwent Innovations Index(德温特专利数据库)和Web of Science(WOS)数据库为数据源,利用专利地图和知识图谱方法,从年份、国家、研究机构、高被引文献、关键词五个方面进行专利和论文的可视化比较。专利和论文的视角均表明,大数据技术发展呈现两个明显的阶段,目前正处于快速发展阶段。美国在大数据研究领域优势突出,我国在大数据专利方面数量领先。无论是从专利还是论文的角度,IBM公司的数量显著,并且研究主题包括大数据技术的系统、获取、存储、分析、管理、应用等方面。在揭示大数据核心技术方面,共被引论文的角度比高被引专利更具优势。ThemeScape专利地图从微观的视角深入和具体的展示大数据的技术进展,关键词共现图谱从宏观的视角全面和系统的展示大数据的研究进展。总体来说,目前大数据研究呈现4个方面的特征:研究热潮正在袭来、美国实力超群、互联网企业引领研究方阵、核心技术集中在MapReduce、Hadoop、云计算等。展开更多
文摘地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地震灾害数据、地质/地理环境、地震灾害事件、地震灾害应急任务、地震灾害模型本体,形成地震灾害本体层;结合自底向上方法构建高质量数据层,通过卷积神经网络对遥感影像进行灾害前后变化识别,实现从影像信息到文本知识的智能结构化转换;融合微调后通用信息抽取框架(universal information extraction,简称UIE)预训练模型对文本数据进行命名实体及关系属性知识抽取,精确率分别为82.04%和70.66%。通过计算词向量语义相似度实现数据融合与统一表达。以2023年12月18日甘肃省临夏州积石山县地震为例,通过本体构建、数据抽取、统一表达形成高质量地震灾害知识图谱,实现地震灾害多源异构地震数据到统一知识表达的转化。基于所构建的地震灾害知识图谱实现了灾害损失、应急链决策支持的查询展示,及结合相关地质数据推理和查询潜在次生灾害。该方法结合深度学习与预训练技术,融合多模态数据,构建了地震灾害知识图谱构建,为快速准确的地震灾害信息查询与次生灾害发生提供辅助支撑。
文摘最近大数据技术受到国内外学界和业界的广泛关注。为全面深入了解大数据的研究成果,以Derwent Innovations Index(德温特专利数据库)和Web of Science(WOS)数据库为数据源,利用专利地图和知识图谱方法,从年份、国家、研究机构、高被引文献、关键词五个方面进行专利和论文的可视化比较。专利和论文的视角均表明,大数据技术发展呈现两个明显的阶段,目前正处于快速发展阶段。美国在大数据研究领域优势突出,我国在大数据专利方面数量领先。无论是从专利还是论文的角度,IBM公司的数量显著,并且研究主题包括大数据技术的系统、获取、存储、分析、管理、应用等方面。在揭示大数据核心技术方面,共被引论文的角度比高被引专利更具优势。ThemeScape专利地图从微观的视角深入和具体的展示大数据的技术进展,关键词共现图谱从宏观的视角全面和系统的展示大数据的研究进展。总体来说,目前大数据研究呈现4个方面的特征:研究热潮正在袭来、美国实力超群、互联网企业引领研究方阵、核心技术集中在MapReduce、Hadoop、云计算等。
文摘知识图谱(knowledge graph,KG)中实体间缺失关系的补全,是目前KG领域研究的热点之一。随着Web2.0的快速发展,用户生成数据(user-generated data,UGD)中体现出来的实体间的关联关系是KG所描述知识的有益补充。目前基于路径的KG知识推理方法,由于存在稀疏或者错误实体关系,且连通性差,从而导致实体间关系抽取不准确。针对该问题,提出一种借助UGD中实体间关联关系来补全KG的方法。首先从UGD出发,使用互信息来计算实体节点间的关联关系,从而构建实体节点关联图(entity association graph,EAG);然后给出关联影响叠加方法来定量计算EAG中互不相邻实体间的潜在关联关系,从而得到一个关联影响值;最后对不相邻的实体节点之间的多个关联影响值再次进行叠加计算,从而判断实体间是否存在强的潜在关联关系,实现KG的补全。建立在真实数据之上的实验结果表明,所提方法对KG的补全是有效的。