-
题名基于不平衡文本数据挖掘的铁路信号设备故障智能分类
被引量:46
- 1
-
-
作者
杨连报
李平
薛蕊
马小宁
吴艳华
邹丹
-
机构
中国铁道科学研究院
中国铁道科学研究院电子计算技术研究所
-
出处
《铁道学报》
EI
CAS
CSCD
北大核心
2018年第2期59-66,共8页
-
基金
中国铁道科学研究院院基金重大课题(2017YJ005
2017YJ006)
-
文摘
针对铁路信号设备不平衡故障文本数据,提出基于文本挖掘的铁路信号设备故障智能分类模型。采用TF-IDF模型实现电务信号设备故障文本的特征提取并转换为向量,基于Voting的方式实现多分类器集成学习分类。该模型利用SVM-SMOTE算法对TF-IDF转换后的小类别文本向量数据进行随机生成,采用逻辑回归、朴素贝叶斯、SVM等基分类器和GBDT、随机森林集成分类器对平衡后的数据进行分类,考虑不同分类器的适用特点,通过Voting方式进行多分类器集成学习。通过对某铁路局2012—2016年铁路信号设备故障文本数据进行试验分析,表明该模型可使故障分类的准确率、召回率和F-score均得到显著提升。
-
关键词
铁路信号设备
故障分类
不平衡文本数据
SMOTE
基分类器
集成分类器
集成学习
-
Keywords
railway signal equipment
fault classification
unbalanced text data
SMOTE
base classifier
integrated classifier
integrated learning
-
分类号
U284
[交通运输工程—交通信息工程及控制]
-
-
题名面向不平衡文本情感分类的三支决策特征选择方法
被引量:4
- 2
-
-
作者
万志超
胡峰
邓维斌
-
机构
重庆邮电大学计算机科学与技术学院
计算智能重庆市重点实验室(重庆邮电大学)
-
出处
《计算机应用》
CSCD
北大核心
2019年第11期3127-3133,共7页
-
基金
国家重点研发计划项目(2018YFC0832100,2018YFC0832102)
国家自然科学基金资助项目(61533020,61751312,61309014)
重庆市基础科学与前沿技术研究专项(cstc2017jcyjAX0408)~~
-
文摘
传统的特征选择方法在面对不平衡文本情感倾向性分类时会有很大的局限性,这种局限性主要体现在特征维数过高、特征过于稀疏和特征分布不平衡,这会使得分类的准确度大幅度下降。根据不平衡文本情感特征分布的特点,结合三支决策的思想,提出了一种面向不平衡文本情感分类的三支决策特征选择方法(TWD-FS)。该方法将两种有监督特征选择方法相结合,将选择出的特征词进一步筛选,使得最终选择出的特征词同时满足类间离散度最大和类内离散度最小的特点,有效地减少了特征词的数量,降低了特征维度;此外,通过组合正负类情感特征,缓解了情感特征的不平衡性,有效提高了不平衡样本中少数类情感的分类效果。在COAE2013中文微博非平衡数据集等多个数据集上的实验结果表明,所提的特征选择算法TWD-FS可以有效提高不平衡文本情感分类的准确度。
-
关键词
不平衡文本
特征选择
情感分类
有监督
三支决策
-
Keywords
imbalanced text
feature selection
sentiment classification
supervised
three-way decisions
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名不平衡文本的PSVM-2分类法
- 3
-
-
作者
徐海涛
-
机构
聊城大学
-
出处
《情报杂志》
CSSCI
北大核心
2010年第9期167-169,共3页
-
文摘
针对PSVM没有考虑不平衡数据的情况,提出一个基于改进PSVM的分类方法(PSVM-2)。首先用PSVM对输入集数据进行初次训练,并得到分类超平面的法向量,做输入集在法向量上的投影,利用投影样本点提供的数据改进PSVM,并对输入集数据进行再次分类。实验证明本方法在处理不平衡数据时性能表现良好。
-
关键词
支持向量机
文本分类
不平衡文本
PSVM
-
分类号
G202
[文化科学—传播学]
-