-
题名基于医疗文本数据聚类的帕金森病早期诊断预测
被引量:6
- 1
-
-
作者
张晓博
杨燕
李天瑞
陆凡
彭莉兰
-
机构
西南交通大学信息科学与技术学院
西南交通大学人工智能研究院
综合交通大数据应用技术国家工程实验室(西南交通大学)
-
出处
《计算机应用》
CSCD
北大核心
2020年第10期3088-3094,共7页
-
基金
国家自然科学基金资助项目(61976247)
四川省重点研发计划项目(20ZDYF2837)。
-
文摘
针对多发于老龄人群的帕金森病(PD)的早期智能化诊断的问题,提出基于医疗检测文本信息数据的聚类技术来对PD进行分析预测。首先,对原始数据集进行预处理以获取有效特征信息,并通过主成分分析(PCA)方法将原始特征分别降维到8个不同维度的维度空间;然后,应用5个传统的经典聚类模型和3种不同的聚类集成方法分别对8个维度空间的数据进行聚类;最后,采用4个聚类性能指标来预测数据集中的多巴胺异常PD患者、健康体和无多巴胺缺失(SWEDD)PD患者。仿真结果显示,PCA特征维度值取30时,高斯混合模型(GMM)的聚类准确度达到89.12%;PCA特征维度值取70时,谱聚类(SC)的聚类准确度达到61.41%;PCA特征维度值取80时,元聚类算法(MCLA)的聚类准确度达到59.62%。对比实验结果表明,5种经典聚类方法中,PCA的特征维度值小于40时,高斯混合模型聚类效果最佳;3种聚类集成方法中,对于不同的特征维度,MCLA的聚类性能均表现优异,进而为PD的早期智能化辅助诊断提供了技术和理论支撑。
-
关键词
帕金森病
医疗文本数据
主成分分析
聚类
聚类集成
-
Keywords
Parkinson’s Disease(PD)
medical text data
Principal Component Analysis(PCA)
clustering
clustering ensemble
-
分类号
TP391.7
[自动化与计算机技术—计算机应用技术]
-