题名 基于最大信息系数和近似马尔科夫毯的特征选择方法
被引量:51
1
作者
孙广路
宋智超
刘金来
朱素霞
何勇军
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
出处
《自动化学报》
EI
CSCD
北大核心
2017年第5期795-805,共11页
基金
国家自然科学基金(60903083
61502123)
黑龙江省新世纪人才项目(1155-ncet-008)资助~~
文摘
最大信息系数(Maximum information coefficient,MIC)可以对变量间的线性和非线性关系,以及非函数依赖关系进行有效度量.本文首先根据最大信息系数理论,提出了一种评价各维特征间以及每维特征与类别间相关性的度量标准,然后提出了基于新度量标准的近似马尔科夫毯特征选择方法,删除冗余特征.在此基础上提出了基于特征排序和近似马尔科夫毯的两阶段特征选择方法,分别对特征的相关性和冗余性进行分析,选择有效的特征子集.在UCI和ASU上的多个公开数据集上的对比实验表明,本文提出的方法总体优于快速相关滤波(Fast correlation-based filter,FCBF)方法,与Relief F,FAST,Lasso和RFS方法相比也具有优势.
关键词
特征选择
最大信息系数
近似马尔科夫毯
特征相关性
特征冗余性
Keywords
Feature selection, maximal information coefficient, approximate Markov blanket, feature relevance, feature redundancy
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 满足本地差分隐私的分类变换扰动机制
被引量:6
2
作者
朱素霞
王蕾
孙广路
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
出处
《计算机研究与发展》
EI
CSCD
北大核心
2022年第2期430-439,共10页
基金
国家自然科学基金项目(61502123)
黑龙江省留学归国人员科学基金项目(LC2018030)
+1 种基金
黑龙江普通高校基本科研业务专项资金(JMRH2018XM04)
黑龙江省自然科学基金项目(LH2021F032)。
文摘
本地差分隐私作为一种隐私保护技术,被广泛用于连续数值型数据的均值估计,使用的扰动机制将直接影响均值的准确度.为进一步提高均值估计的准确性,提出了一种满足差分隐私的分类变换扰动机制.该机制对连续数值型数据划分变换范围并进行分段,根据分段将其变换为1维二元分类数据.转换后使用随机响应机制进行扰动,再根据扰动后的数据标识的数值段从中随机均匀抽取数值作为扰动值.在真实数据和合成数据中的均值估计实验结果表明该机制极大地提高了准确性.除此之外,将分类变换扰动机制用于构建满足本地差分隐私的小批量梯度下降算法,并完成线性回归学习任务,实验结果证明该方法同样优于其他已有机制,可得到更小的均方误差.
关键词
本地差分隐私
数据转换
均值估计
小批量梯度下降
随机响应
Keywords
local differential privacy
data transformation
mean value estimation
mini-batch gradient descent
random response
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 基于聚类和流量传播图的P2P流量识别方法
被引量:3
3
作者
苏阳阳
孙冬璞
李丹丹
孙广路
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
出处
《计算机应用研究》
CSCD
北大核心
2019年第11期3448-3451,3455,共5页
基金
国家自然科学基金资助项目(60903083,61502123)
黑龙江省新世纪人才项目(1155-ncet-008)
黑龙江省博士后科研启动基金资助项目
文摘
为有效监管网络,快速精确识别P2P流量,通过分析P2P网络流量中节点与节点、节点与链路之间的交互和行为特征,将聚类方法与流量传播图方法相结合,提出了一种基于网络行为特征的P2P流量识别方法。该方法首先通过采集网络流的包级和流级统计特征对不同种类的网络应用的流量进行聚类,然后利用流量传播图对P2P流量进行识别。实验结果表明,提出的方法在骨干网络数据上能够有效识别P2P网络应用流量,F 1-measure达到95%以上。
关键词
P2P流量识别
流量行为特征
流量传播图
基于密度带噪声的空间聚类算法
Keywords
P2P traffic identification
traffic behavior characteristics
traffic dispersion graph
density-based spatial clustering of applications with noise
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 自适应概念漂移问题的增量集成分类算法
被引量:1
4
作者
韩明明
孙广路
朱素霞
机构
哈尔滨理工大学 计算机科学与技术 学院
哈尔滨理工大学信息安全与智能技术研究中心
出处
《计算机科学与探索》
CSCD
北大核心
2020年第7期1200-1210,共11页
基金
黑龙江省留学归国人员科学基金No.LC2018030
黑龙江省普通高校基本科研业务费专项资金No.JMRH2018XM04。
文摘
由于数据流具有非平稳特性,即概念漂移问题,导致机器学习模型的性能随着概念漂移的发生而降低。对分类器如何自适应概念漂移进行了研究,提出了以小数据块为输入的增量学习的增强集成算法,用于处理概念漂移情况下的数据流分类问题。该算法没有复杂的参数,但对弱分类器提出较高的要求,每次移除不合格的弱分类器后添加新的弱分类器,在迭代增量训练过程中根据训练误差更新样本和弱分类器的权重,最后通过加权投票方式整合各弱分类器的预测结果。用五组已知具体漂移情况的人工数据和三组未知漂移情况的真实数据进行实验,并与已有的算法进行对比,实验结果表明该算法能很好地处理概念漂移下的数据流分类问题。
关键词
数据流分类问题
概念漂移
集成算法
Keywords
data stream classification problem
concept drift
ensemble algorithm
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]