-
题名基于知识图谱的医疗病历数据存储研究
被引量:15
- 1
-
-
作者
夏宇航
高大启
阮彤
王昊奋
殷亦超
-
机构
华东理工大学信息科学与工程学院
深圳狗尾草智能科技有限公司
上海中医药大学附属曙光医院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第1期9-16,22,共9页
-
基金
国家高技术研究发展计划(2015AA020107)
-
文摘
基于关系数据库的资源描述框架(RDF)存储方案多数未考虑领域特性而造成查询性能不足。为此,提出一种改进的病历图谱存储方案。根据原始病历数据具有多元关系的特征,设计多元关系到RDF三元组的转化方案。基于原始病历数据具有空值多、谓词数量多且谓词不固定等特性,采用基于改进三元组表的存储方案,将病历RDF三元组的实体和属性进行ID化。在此基础上,设计实体类型表,面向病历图谱使用SPARQL-to-SQL查询转换算法。实验结果表明,与基于类型的存储方案相比,该方案具有较高的查询效率。
-
关键词
医疗病例
知识图谱
数据存储
查询效率
统计分析
-
Keywords
medical record
knowledge graph
data storage
query efficiency
statistical analysis
-
分类号
TP392
[自动化与计算机技术—计算机应用技术]
-
-
题名中文电子病历中的时间关系识别
被引量:6
- 2
-
-
作者
孙健
高大启
阮彤
殷亦超
高炬
王祺
-
机构
华东理工大学信息科学与工程学院
上海中医药大学附属曙光医院
-
出处
《计算机应用》
CSCD
北大核心
2018年第3期626-632,共7页
-
基金
国家863计划项目(2015AA020107)
国家科技支撑计划项目(2015BAH12F01-05)~~
-
文摘
中文电子病历中的时间关系包括句内时间关系和句间时间关系,其中,句内时间关系包括句内事件-事件的时间关系和句内事件-时间的时间关系,句间时间关系即是句间事件-事件的时间关系。把中文电子病历文本中的时间关系识别转化成实体对分类问题,针对句内时间关系的识别,制定了高准确率的启发式规则,并设计了基本特征、短语句法特征、依存特征和其他特征,训练分类器缓解句内时间关系的识别错误;针对句间时间关系的识别,在高准确率的启发式规则之外,设计了基本特征、短语句法特征和其他特征,训练分类器减少句间时间关系的识别错误。实验结果表明,当分别使用支持向量机(SVM)、SVM和随机森林(RF)算法时,所提方法在句内事件-事件、句内事件-时间和句间事件-事件的时间关系识别上的效果最好,其F1值分别达到了84.0%、85.6%和63.5%。
-
关键词
时间关系识别
实体对分类
句内时间关系
句间时间关系
语言特征
-
Keywords
temporal relation recognition
entity pair classification
within-sentence temporal relation
between-sentencetemporal relation
linguistic feature
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向临床科研的医疗事件模型与开放数据集合构建
被引量:3
- 3
-
-
作者
刘旭利
金季豪
阮彤
高大启
殷亦超
葛小玲
-
机构
华东理工大学信息科学与工程学院
上海中医药大学附属曙光医院
复旦大学附属儿科医院
-
出处
《中文信息学报》
CSCD
北大核心
2020年第11期37-48,共12页
-
基金
国家重大新药创制项目(2019ZX09201004)
基于上海区域卫生信息平台的复旦儿科医联体互联网医院项目(201701013)。
-
文摘
基于电子病历观察性数据的真实世界研究成为目前临床科研的热点。然而关系数据模型无法直接支撑起科研应用中医疗事件的时序关系表示以及知识融合的查询需求。针对上述问题,该文提出了一种新的基于RDF的医疗观察性数据表示模型,该模型可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。对来源于医院的电子病历数据,经过数据预处理、数据模式转换、时序关系构建以及知识融合4个步骤建立事件图谱。具体地,使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173395个医疗事件以及501335个事件时序关系的医疗数据集,并融合了5313个中文医疗知识库概念。基于临床文献与医生科研需求,该文根据公共卫生流行病学的病因研究、治疗研究等类型,分别提供了针对本数据集的40个问题示例,并将其中的部分问题与传统关系数据库在查询的构建与执行方面进行了实验比对,论证了该事件图谱的优越性。该数据集遵循开放链接标准,在OpenKG上发布并提供了在线访问的SPARQL站点,链接为https://peg.ecustnlplab.com/dataset.html。
-
关键词
电子病历数据
病人事件图谱
知识融合
-
Keywords
electronic medical record
patient event graph
knowledge fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于症状构成成分的上下位关系自动抽取方法
被引量:1
- 4
-
-
作者
王婷
王祺
黄越圻
殷亦超
高炬
-
机构
华东理工大学信息科学与工程学院
上海中医药大学附属曙光医院
-
出处
《计算机应用》
CSCD
北大核心
2017年第10期2999-3005,共7页
-
基金
国家863计划项目(2015AA020107)
国家科技支撑计划项目(2015BAH12 F01-05)~~
-
文摘
针对症状间上下位关系具有较强结构特性的问题,提出一种基于症状构成成分的上下位关系自动抽取方法。首先,通过观察症状实体,发现症状可以切分为原子症状词、修饰词等八种成分,且成分的构成序列满足一定的规则。然后,利用词法分析系统和条件随机场模型对症状进行切分和成分标注。最后,把症状之间的关系抽取看作一个分类问题,选取症状成分的构成特征、词典特征以及通用特征作为分类算法的特征;基于多种分类算法训练模型,将症状间的关系分为上下位关系和非上下位关系。实验结果表明,当选用支持向量机算法,同时选用三类特征时,取得了最好的效果,准确率、召回率和F1值分别达到了82.68%、82.13%和82.40%。在此基础上,使用所提出的关系抽取算法,抽取了20 619条上下位关系,构建了具有上下位关系的症状知识库。
-
关键词
上下位关系
症状构成成分
条件随机场
关系分类
支持向量机
决策树
朴素贝叶斯
-
Keywords
hyponymy
symptom component
Conditional Random Field (CRF)
relationship classification
SupportVector Machine (SVM)
decision tree
Naive Bayesian (NB)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-