-
题名改进的K-近邻算法及其在学习预警中的应用
被引量:4
- 1
-
-
作者
宗晓萍
陶泽泽
-
机构
河北大学电子信息工程学院
-
出处
《河北大学学报(自然科学版)》
CAS
北大核心
2020年第2期193-199,共7页
-
基金
河北省高等教育教学改革研究与实践项目(2016GJJG016)。
-
文摘
随着大数据在教育中的作用日益凸显,大量的数据被应用到教学研究、教学评估和行为预测.学生的成绩、行为记录、与老师的互动记录等教育数据,都已经开始发挥价值.为了解决课程的低通过率问题,将改进的K-近邻算法应用到学习预警中,首先利用网格搜索和交叉验证相结合的方法对模型参数进行优选,其次在构建决策树过程中,利用基尼增益确定特征的权重系数并且根据权重系数进行特征选择,在计算距离时引入权重系数,使每个特征收到权重系数的约束.实验表明,在一个公开的数据集和一个真实的数据集上,改进后的K-近邻算法显著优于传统的K-NN.
-
关键词
教育数据挖掘
网格搜索
K-近邻
交叉验证
基尼增益
-
Keywords
educational data mining
grid search
K-nearest neighbor
cross validation
Gini gain
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-
-
题名一种增强的差分隐私数据发布算法
被引量:4
- 2
-
-
作者
孙奎
张志勇
赵长伟
-
机构
河南科技大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第4期160-165,共6页
-
基金
国家自然科学基金(61370220)
河南省高校科技创新团队支持计划项目(15IRTSTHN010)
+3 种基金
河南省科技攻关计划项目(142102210425)
河南省教育厅科学技术研究重点基础研究计划项目(13A520240
14A520048)
河南科技大学科研创新能力培育基金(2013ZCX022)
-
文摘
为在同等隐私保护强度下提高发布数据的分类准确率,在Diff Gen算法基础上提出一种改进的差分隐私数据发布算法Gini Diff。该算法将原始数据集完全泛化,在每轮迭代中通过指数机制选择特化方案,并以构建决策树的方式将特化后的记录划归到新的等价类,使用拉普拉斯机制为等价类计数添加噪声并生成发布数据集。运用基尼系数增益衡量不同特化方案的可用性,合理分配隐私预算并动态计算其消耗,发布数据集的可用性得到有效提高。实验结果表明,该算法发布的数据在分类准确率方面优于Diff Gen,接近理想水平。
-
关键词
差分隐私
数据发布
决策树
基尼系数增益
指数机制
拉普拉斯机制
-
Keywords
differential privacy
data release
decision tree
gini-index gain
exponential mechanism
Laplace mechanism
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-