-
题名基于评分预测与图模型扩散的推荐方法
- 1
-
-
作者
王柳
陈学斌
高远
马凯光
赵桐
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《计算机应用研究》
北大核心
2025年第11期3284-3290,共7页
-
基金
国家自然科学基金资助项目(U20A20179)。
-
文摘
针对协同过滤算法存在数据稀疏性和局部推荐的问题,提出一种基于评分预测与图模型扩散的推荐方法SIRR。该推荐方法首先根据用户对物品的评分数量,设计算法动态切换机制预测用户对未评分物品的评分,从而解决数据稀疏性问题;其次,基于正则化的余弦相似度提升了相似度计算的准确性和协同过滤算法的鲁棒性;最后,为解决局部推荐问题,通过图的加权随机游走扩展推荐范围,提高推荐的覆盖率。为平衡推荐的准确性和多样性,通过融合评分权重实现了优化。在两个不同类型的数据集上对正则化余弦相似度的有效性进行验证,在三个稀疏度不同的数据集上将所提方法与三种基线算法进行比较。仿真结果表明,SIRR与已有的推荐算法相比,在各指标上均表现出良好性能,为解决数据稀疏性和局部推荐问题提供了一种有效的解决方案。
-
关键词
局部推荐
评分预测
正则化余弦相似度
图的加权随机游走
评分权重
-
Keywords
local recommendation
score prediction
regularized cosine similarity
weighted random walk of graph
rating weight
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于遗传算法和支持向量机的XSS攻击检测方法
被引量:4
- 2
-
-
作者
马征
陈学斌
张国鹏
翟冉
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《江苏大学学报(自然科学版)》
CAS
北大核心
2024年第6期686-693,共8页
-
基金
国家自然科学基金资助项目(U20A20179)。
-
文摘
针对现有基于过滤器、动态分析、静态分析等的解决方案在检测未知XSS攻击方面效果不佳的问题,利用机器学习方法可高效检测出未知XSS攻击的特点,提出一种基于遗传算法和支持向量机的XSS攻击检测模型.通过模糊测试生成XSS攻击预样本,利用遗传算法搜索特征空间,迭代生成最优测试用例,从而扩充数据集、丰富XSS攻击向量库.给出了基于遗传算法和支持向量机的攻击检测模型,确定了XSS测试用例编码规则.进行了适应度函数设计,完成了选择算子、交叉算子、变异算子的设计.从准确率、召回率、误报率和F_(1)值来评价分类器的检测效果,结果表明:该模型准确率达到了99.5%;对比其他检测方法,该检测模型具有更好的检测效果,并且召回率和误报率也有明显改善.
-
关键词
跨站脚本攻击
模糊测试
遗传算法
支持向量机
特征向量化
-
Keywords
cross site script attack
fuzzy testing
genetic algorithm
support vector machine
feature vectorization
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名基于差分隐私的直方图发布方法综述
被引量:1
- 3
-
-
作者
陈学斌
单丽洋
郭如敏
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室(华北理工大学)
华北理工大学唐山市数据科学重点实验室
-
出处
《计算机应用》
CSCD
北大核心
2024年第10期3114-3121,共8页
-
基金
国家自然科学基金资助项目(U20A20179)。
-
文摘
在数字经济时代,数据发布是数据共享的重要环节。直方图数据发布是数据发布的常见方式,但它面临着隐私泄露的问题。为此,对基于差分隐私(DP)的直方图数据发布方法进行了研究。首先,介绍了DP和直方图的相关性质,以及近5年国内外针对静态数据集和流数据的直方图发布方法的研究,并讨论了静态数据下直方图分组数、分组方式、噪声误差和分组误差的均衡,以及隐私预算分配问题。其次,探讨了动态数据下数据采样、数据预测以及滑动窗口实现分组的问题;同时针对面向区间树结构的DP直方图发布方法,将原始数据与树结构进行转化,并讨论了树结构数据的加噪、基于树结构的优化、树结构的隐私预算的分配等;此外,还讨论了直方图发布数据的可用性和隐私性、查询范围和查询精度问题。最后,通过对相关算法进行对比分析,总结了各算法的优缺点,以及部分算法的定量分析比较及适用场景,展望了未来基于DP的直方图在不同数据场景中的研究方向。
-
关键词
数据发布
直方图发布
差分隐私
隐私预算
均方误差
-
Keywords
data publication
histogram publication
differential privacy
privacy budget
Mean Squared Error(MSE)
-
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]
-
-
题名基于差分隐私的非等距直方图发布算法
- 4
-
-
作者
单丽洋
陈学斌
郭如敏
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2024年第6期1052-1063,共12页
-
基金
国家自然科学基金(No.U20A20179)资助。
-
文摘
针对直方图隐私泄露与分组数难以确定的问题,提出一种基于差分隐私的非等距直方图数据发布算法。首先,提出一种改进的定量化的综合评价指标,将直方图的分组评判标准定量化为特定的计算公式,以确定直方图最优分组数。然后,利用经验分布函数设计隐私预算分配方案,计算得出分组边界,从而构建非等距直方图。最后,根据非等距边界划分的分组,统计组内频数,对频数进行加噪,发布满足差分隐私的非等距直方图。实验结果表明,分组数的最优计算及非等距的实现,保证了直方图发布数据的准确性和隐私性,同时仍能保证直方图的分布特征不受影响,该文所提发布算法的均方误差与同类精确的直方图发布(accurate histogram publication, AHP)算法相比降低了99%。
-
关键词
非等距
直方图分组
差分隐私
隐私预算
-
Keywords
non-isometric
histogram grouping
differential privacy(DP)
privacy budget
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名融合特征选择的随机森林DDoS攻击检测
被引量:13
- 5
-
-
作者
徐精诚
陈学斌
董燕灵
杨佳
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室(华北理工大学)
华北理工大学唐山市数据科学重点实验室
-
出处
《计算机应用》
CSCD
北大核心
2023年第11期3497-3503,共7页
-
基金
国家自然科学基金资助项目(U20A20179)。
-
文摘
现有基于机器学习的分布式拒绝服务(DDoS)攻击检测方法在面对愈发复杂的网络流量、不断升维的数据结构时,检测难度和成本不断上升。针对这些问题,提出一种融合特征选择的随机森林DDoS攻击检测方法。该方法选用基于基尼系数的平均不纯度算法作为特征选择算法,对DDoS异常流量样本进行降维,以降低训练成本、提高训练精度;同时将特征选择算法嵌入随机森林的单个基学习器,将特征子集搜索范围由全部特征缩小到单个基学习器对应特征,在提高两种算法耦合性的同时提高了模型精度。实验结果表明,融合特征选择的随机森林DDoS攻击检测方法训练所得到的模型,在限制决策树棵数和训练样本数量的前提下,召回率相较于改进前提升21.8个百分点,F1-score值提升12.0个百分点,均优于传统的随机森林检测方案。
-
关键词
分布式拒绝服务
特征选择
基尼系数
平均不纯度算法
随机森林算法
-
Keywords
Distributed Denial-of-Service(DDoS)
feature selection
Gini coefficient
mean impurity algorithm
random forest algorithm
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-
-
题名基于层析分析改进的联邦平均算法
被引量:6
- 6
-
-
作者
罗长银
陈学斌
马春地
张淑芬
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2021年第8期32-40,共9页
-
基金
国家自然科学基金项目(61572170,61170254)
唐山市科技项目(18120203A)。
-
文摘
联邦平均(Fedavg)算法采用权重更新来更新全局模型,该算法在权重更新时仅考虑每个客户端数据量的大小,未考虑数据质量对模型的影响。针对该问题,文中提出了基于层次分析改进的联邦平均算法,首次从数据质量的角度来处理多源数据。首先采用熵权法计算数据中各属性的重要度,并将其作为层次分析中准则层的数值,计算每个客户端数据的质量,然后结合客户端数据量的大小,重新计算全局模型中的权重。仿真实验的结果表明,对于中小型数据集而言,使用支持向量机训练的模型准确度最高,达到了85.7152%;对于大型数据集而言,采用随机森林训练的模型准确率最高,达到了91.9321%。与传统联邦平均方法相比,所提方法在中小数据集上准确率提升了3.5%,在大数据集上提升了1.3%,能够在提升模型准确率的同时提高数据与模型的安全性。
-
关键词
联邦平均(Fedavg)
熵权法
层析分析
权重更新
-
Keywords
Federated average(Fedavg)
Entropy weight method
Tomographic analysis
Weight update
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于不同敏感度的改进K-匿名隐私保护算法
被引量:2
- 7
-
-
作者
翟冉
陈学斌
张国鹏
裴浪涛
马征
-
机构
华北理工大学理学院
河北省数据科学与应用重点实验室(华北理工大学)
华北理工大学唐山市数据科学重点实验室
-
出处
《计算机应用》
CSCD
北大核心
2023年第5期1497-1503,共7页
-
基金
国家自然科学基金资助项目(U20A20179)。
-
文摘
针对机器学习的发展需要大量兼顾数据安全性和可用性的真实数据集的问题,提出一种基于随机森林(RF)的K-匿名隐私保护算法——RFK-匿名隐私保护。首先,使用RF算法预测出每种属性值的敏感程度;然后,使用k-means聚类算法将属性值根据不同敏感程度进行聚类,再使用K-匿名算法根据属性值的敏感程度集群对数据进行不同程度的隐匿;最后,由用户自主地选择需要哪种隐匿程度的数据表。实验结果表明,在Adult数据集中,与K-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为3、4时的准确率分别提高了0.5、1.6个百分点;与(p,α,k)-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为4、5时的准确率分别提高了0.4、1.9个百分点。RFK-匿名隐私保护算法在保护数据的隐私安全的基础上能有效提高数据的可用性,更适合应用于机器学习中的分类预测。
-
关键词
随机森林
K-匿名
隐私保护
K-MEANS
聚类算法
-
Keywords
Random Forest(RF)
K-anonymity
privacy protection
k-means
clustering algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习的联邦集成算法
- 8
-
-
作者
罗长银
陈学斌
宋尚文
张淑芬
刘之瑜
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2022年第3期493-510,共18页
-
基金
国家自然科学基金(No.61572170,No.61170254,No.61379116)资助
-
文摘
联邦学习是多源隐私数据保护领域研究的热点,其框架在满足数据不出本地的情况下,可以训练出多方均满意的共同模型,但存在本地模型参数难以整合且无法在安全的情况下将多源数据充分使用的问题,因此提出基于深度学习的联邦集成算法,将深度学习与集成学习应用到联邦学习的框架下,通过优化本地模型的参数,提高了本地模型准确率;使用不同的集成算法来整合本地模型参数,在提升模型准确率的同时兼顾了多源数据的安全性。实验结果表明:与传统多源数据处理技术相比,该算法在mnist、digits、letter、wine数据集训练模型的准确率依次提升1%、8%、-1%、1%,在保证准确率的同时也提升多源数据与模型的安全性,具有很重要的应用价值。
-
关键词
联邦学习
联邦集成算法
深度神经网络模型
集成算法
深度学习
-
Keywords
federated learning
federated ensemble algorithm
deep neural network(DNN)model
ensemble algorithm
deep learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-