-
题名基于约束的混合类型数据因果推断方法构建研究
- 1
-
-
作者
侯爽
栗景坤
刘梦洋
郭瑞泽
刘美娜
-
机构
哈尔滨医科大学
-
出处
《中国卫生统计》
CSCD
北大核心
2023年第2期167-171,共5页
-
基金
国家自然科学基金资助项目(82173614)。
-
文摘
目的构建适用于含隐变量混合数据类型的因果推断方法,通过模拟研究评估方法的效果,为观察性数据的因果结构研究提供依据。方法基于约束的FCI-stable结构学习方法,结合条件高斯独立性检验,建立适用于含隐变量混合数据类型的因果推断算法框架。利用Tetrad 6.9.0生成含隐变量的混合类型模拟数据,模拟研究设置不同的离散型数据占比、隐变量占比、网络节点数量及样本量;将FCI_(cg)方法与基于约束的FCI_(chi-square)、FCI_(dg)、FCIF_(fisher-z)、FCI_(kci)及FCI_(mrcit)五种方法进行比较,采用F1 Score和马修斯相关系数(matthews correlation coefficient,MCC)对因果结构识别效果进行评估。结果本研究建立了适用于含隐变量混合数据类型的因果推断方法FCI_(cg),该方法可用于从观察性数据中学习变量间的因果结构。模拟结果表明,在不同离散型数据占比下,除FCI_(chi-square)和FCIF_(fisher-z)外,其他方法估计效果较稳定,FCI_(cg)和FCI_(kci)的估计效果优于FCIdg和FCI_(mrcit);在有无隐变量和隐变量占比随之增加的情况下,除FCI_(mrcit)外其他方法估计效果的变化较平缓,FCIcg和FCIFkci的估计效果好于其他方法;在不同网络大小的情况下,除FCI_(mrcit)外其他方法评估效果较稳定;随着样本数量的增加,FCI_(cg)和FCIF_(fisher-z)估计效果稳步提升;当样本数量为2000,网络节点数量为14时,FCI_(cg)的平均运行时间为(0.580±0.301)秒。结论本文构建的因果推断方法针对含有隐变量的混合数据类型具有良好的效果,算法运行速度快;本方法可作为医学领域观察性数据因果结构识别的推荐方法。
-
关键词
隐变量
混合数据类型
因果推断
观察性数据
-
Keywords
Implicit variable
Mixed data type
Causal inference
Observational data
-
分类号
R195.1
[医药卫生—卫生统计学]
-