期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
9
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于随机森林和欠采样集成的垃圾网页检测
被引量:
17
1
作者
卢晓勇
陈木生
《计算机应用》
CSCD
北大核心
2016年第3期731-734,共4页
为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练...
为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK-2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果更好,准确率、F1测度、ROC曲线下面积(AUC)等指标提高至少14%,13%和11%。与Web spam challenge 2007优胜团队的竞赛结果相比,该集成分类器算法在F1测度上提高至少1%,在AUC上达到最优结果。
展开更多
关键词
垃圾网页检测
随机森林
欠采样
集成分类器
机器学习
在线阅读
下载PDF
职称材料
基于内容的搜索引擎垃圾网页检测
被引量:
9
2
作者
贾志洋
李伟伟
张海燕
《计算机应用与软件》
CSCD
2009年第11期165-167,共3页
有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,...
有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,将网页分成正常网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。
展开更多
关键词
搜索引擎
垃圾
网页
垃圾网页检测
决策树
C4.5分类算法
在线阅读
下载PDF
职称材料
三种用于垃圾网页检测的随机欠采样集成分类器
被引量:
8
3
作者
陈木生
卢晓勇
《计算机应用》
CSCD
北大核心
2017年第2期535-539,558,共6页
针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样...
针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样技术将训练样本集转换成平衡样本集,然后对每个平衡样本集使用分类回归树(CART)分类器算法进行分类,最后采用简单投票法构建集成分类器对测试样本进行分类。实验表明,三种随机欠采样集成分类器均取得了良好的分类效果,其中RUS-multiple和RUS-replacement比RUS-once的分类效果更好。与CART及其Bagging和Adaboost集成分类器相比,在WEBSPAM UK-2006数据集上,RUS-multiple和RUS-replacement方法的AUC指标值提高了10%左右,在WEBSPAM UK-2007数据集上,提高了25%左右;与其他最优研究结果相比,RUS-multiple和RUS-replacement方法在AUC指标上能达到最优分类结果。
展开更多
关键词
垃圾网页检测
不平衡分类
集成学习
欠采样
分类回归树
在线阅读
下载PDF
职称材料
基于多视图典型相关分析的垃圾网页检测
被引量:
3
4
作者
高爽
张化祥
房晓南
《计算机应用研究》
CSCD
北大核心
2013年第3期810-813,共4页
首先将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新的特征;再对新生成的两视图特征采用不同组合方式产生单视图数据,并用这组数据作为训练数...
首先将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新的特征;再对新生成的两视图特征采用不同组合方式产生单视图数据,并用这组数据作为训练数据构建分类算法。实验结果表明,将垃圾网页看成两视图数据,并应用多视图典型相关分析技术,可有效提高垃圾网页的识别精度。
展开更多
关键词
垃圾网页检测
典型相关分析
多视图分类
特征抽取
在线阅读
下载PDF
职称材料
基于免疫克隆特征选择和欠采样集成的垃圾网页检测
被引量:
3
5
作者
卢晓勇
陈木生
+1 位作者
吴政隆
张百栈
《计算机应用》
CSCD
北大核心
2016年第7期1899-1903,共5页
为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本...
为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本合并构成多个平衡的子训练样本集;然后,设计一种免疫克隆算法遴选出多个最优的特征子集;基于最优特征子集对平衡的子样本集进行投影操作,生成平衡数据集的多个视图;最后,用随机森林(RF)分类器对测试样本进行分类,采用简单投票法确定测试样本的最终类别。在WEBSPAM UK-2006数据集上的实验结果表明,该集成分类器算法应用于垃圾网页检测:与随机森林算法及其Bagging和Ada Boost集成分类器算法相比,准确率、F1测度、AUC等指标均提高11%以上;与其他最优的研究结果相比,该集成分类器算法在F1测度上提高2%,在AUC上达到最优。
展开更多
关键词
垃圾网页检测
集成学习
免疫克隆算法
特征选择
欠采样
随机森林
在线阅读
下载PDF
职称材料
基于朴素贝叶斯的伪装型垃圾网页检测
被引量:
4
6
作者
王莉丽
朱焱
马永强
《计算机应用》
CSCD
北大核心
2013年第A01期102-103,106,共3页
针对伪装型垃圾网页的隐藏性、欺诈性和难以检测等问题,运用二元分类方法对伪装型垃圾网页进行检测。该方法将网页分解成内容特征和链接特征,并采用朴素贝叶斯(NB)算法对伪装型垃圾网页进行分类检测。最后,将NB算法和几种常见的分类算...
针对伪装型垃圾网页的隐藏性、欺诈性和难以检测等问题,运用二元分类方法对伪装型垃圾网页进行检测。该方法将网页分解成内容特征和链接特征,并采用朴素贝叶斯(NB)算法对伪装型垃圾网页进行分类检测。最后,将NB算法和几种常见的分类算法在同一数据集上进行测试,结果表明,朴素贝叶斯算法的综合评价F1值达到94.64%,明显高于其余几种分类算法,能够有效地检测出伪装型垃圾网页,提高网络信息检索质量。
展开更多
关键词
伪装型
垃圾网页检测
机器学习
分类算法
朴素贝叶斯
在线阅读
下载PDF
职称材料
集成PCA降维与分类算法的垃圾网页检测
被引量:
4
7
作者
李法良
朱焱
曾俊东
《计算机应用与软件》
CSCD
北大核心
2014年第10期269-272,共4页
针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过...
针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpamUK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。
展开更多
关键词
垃圾
网页
垃圾网页检测
主成分分析
ADABOOST
支持向量机
在线阅读
下载PDF
职称材料
改进样本加权K近邻分类器用于垃圾网页检测
被引量:
2
8
作者
吴俊华
谭博觉
+1 位作者
高切
陈木生
《重庆理工大学学报(自然科学)》
CAS
北大核心
2021年第7期283-290,共8页
针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score...
针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。
展开更多
关键词
垃圾网页检测
特征选择
K近邻
不平衡数据分类
代价敏感分析
在线阅读
下载PDF
职称材料
主题相似度与链接权重相结合的垃圾网页排序检测
被引量:
2
9
作者
韦莎
朱焱
《计算机应用》
CSCD
北大核心
2016年第3期735-739,共5页
针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分...
针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分配(LDA)模型得到所有网页的主题分布,并计算相互链接网页间的主题相似度;其次,根据Web图计算链接权重,并与主题相似度结合,得到主题链接权重矩阵;然后,利用主题链接权重调节非信任值传播,改进Anti-TrustRank和加权非信任值排序(WATR)算法,使网页得到更合理的非信任值;最后,将所有网页的非信任值进行排序,通过划分阈值检测出垃圾网页。在数据集WEBSPAM-UK2007上进行的实验结果表明,与Anti-TrustRank和WATR相比,TLDR的Spam Factor分别提高了45%和23.7%,F1-measure(阈值取600)分别提高了3.4个百分点和0.5个百分点,spam比例(前三个桶)分别提高了15个百分点和10个百分点。因此,主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能。
展开更多
关键词
垃圾网页检测
链接作弊
排序算法
主题相似度
非信任值传播
在线阅读
下载PDF
职称材料
题名
基于随机森林和欠采样集成的垃圾网页检测
被引量:
17
1
作者
卢晓勇
陈木生
机构
南昌大学软件学院
南昌大学信息工程学院
出处
《计算机应用》
CSCD
北大核心
2016年第3期731-734,共4页
基金
江西省科技支撑计划项目(20131102040039)~~
文摘
为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK-2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果更好,准确率、F1测度、ROC曲线下面积(AUC)等指标提高至少14%,13%和11%。与Web spam challenge 2007优胜团队的竞赛结果相比,该集成分类器算法在F1测度上提高至少1%,在AUC上达到最优结果。
关键词
垃圾网页检测
随机森林
欠采样
集成分类器
机器学习
Keywords
Web spam detection
Random Forest(RF)
under-sampling
ensemble classifier
machine learning
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于内容的搜索引擎垃圾网页检测
被引量:
9
2
作者
贾志洋
李伟伟
张海燕
机构
云南师范大学计算机科学与信息技术学院
中国石油大庆石化公司信息中心
出处
《计算机应用与软件》
CSCD
2009年第11期165-167,共3页
文摘
有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,将网页分成正常网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。
关键词
搜索引擎
垃圾
网页
垃圾网页检测
决策树
C4.5分类算法
Keywords
Search engine Spam web page Spam web page detection Decision tree C4.5 classification algorithm
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
TP393.092 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
三种用于垃圾网页检测的随机欠采样集成分类器
被引量:
8
3
作者
陈木生
卢晓勇
机构
南昌大学信息工程学院
南昌大学软件学院
出处
《计算机应用》
CSCD
北大核心
2017年第2期535-539,558,共6页
基金
江西省科技支撑计划项目(20131102040039)~~
文摘
针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样技术将训练样本集转换成平衡样本集,然后对每个平衡样本集使用分类回归树(CART)分类器算法进行分类,最后采用简单投票法构建集成分类器对测试样本进行分类。实验表明,三种随机欠采样集成分类器均取得了良好的分类效果,其中RUS-multiple和RUS-replacement比RUS-once的分类效果更好。与CART及其Bagging和Adaboost集成分类器相比,在WEBSPAM UK-2006数据集上,RUS-multiple和RUS-replacement方法的AUC指标值提高了10%左右,在WEBSPAM UK-2007数据集上,提高了25%左右;与其他最优研究结果相比,RUS-multiple和RUS-replacement方法在AUC指标上能达到最优分类结果。
关键词
垃圾网页检测
不平衡分类
集成学习
欠采样
分类回归树
Keywords
Web spam detection
imbalanced classification
ensemble learning
under-sampling
Classification And Regression Tree (CART)
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP393.098 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于多视图典型相关分析的垃圾网页检测
被引量:
3
4
作者
高爽
张化祥
房晓南
机构
山东师范大学信息科学与工程学院
山东省分布式计算机软件新技术重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2013年第3期810-813,共4页
基金
国家自然科学基金资助项目(61170145)
国家教育部高等学校博士点专项基金资助项目(20113704110001)
+2 种基金
山东省自然科学基金和科技攻关计划资助项目(ZR2010FM021
2008B0026
2010G0020115)
文摘
首先将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新的特征;再对新生成的两视图特征采用不同组合方式产生单视图数据,并用这组数据作为训练数据构建分类算法。实验结果表明,将垃圾网页看成两视图数据,并应用多视图典型相关分析技术,可有效提高垃圾网页的识别精度。
关键词
垃圾网页检测
典型相关分析
多视图分类
特征抽取
Keywords
Web spam detection
canonical correlation analysis(CCA)
multi-view classification
feature extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于免疫克隆特征选择和欠采样集成的垃圾网页检测
被引量:
3
5
作者
卢晓勇
陈木生
吴政隆
张百栈
机构
南昌大学软件学院
南昌大学信息工程学院
元智大学资讯学院
出处
《计算机应用》
CSCD
北大核心
2016年第7期1899-1903,共5页
基金
江西省科技支撑计划项目(20131102040039)~~
文摘
为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本合并构成多个平衡的子训练样本集;然后,设计一种免疫克隆算法遴选出多个最优的特征子集;基于最优特征子集对平衡的子样本集进行投影操作,生成平衡数据集的多个视图;最后,用随机森林(RF)分类器对测试样本进行分类,采用简单投票法确定测试样本的最终类别。在WEBSPAM UK-2006数据集上的实验结果表明,该集成分类器算法应用于垃圾网页检测:与随机森林算法及其Bagging和Ada Boost集成分类器算法相比,准确率、F1测度、AUC等指标均提高11%以上;与其他最优的研究结果相比,该集成分类器算法在F1测度上提高2%,在AUC上达到最优。
关键词
垃圾网页检测
集成学习
免疫克隆算法
特征选择
欠采样
随机森林
Keywords
Web spam detection
ensemble learning
immune clonal algorithm
feature selection
Under-Sampling(US)
Random Forest(RF)
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP393.098 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于朴素贝叶斯的伪装型垃圾网页检测
被引量:
4
6
作者
王莉丽
朱焱
马永强
机构
西南交通大学信息科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2013年第A01期102-103,106,共3页
文摘
针对伪装型垃圾网页的隐藏性、欺诈性和难以检测等问题,运用二元分类方法对伪装型垃圾网页进行检测。该方法将网页分解成内容特征和链接特征,并采用朴素贝叶斯(NB)算法对伪装型垃圾网页进行分类检测。最后,将NB算法和几种常见的分类算法在同一数据集上进行测试,结果表明,朴素贝叶斯算法的综合评价F1值达到94.64%,明显高于其余几种分类算法,能够有效地检测出伪装型垃圾网页,提高网络信息检索质量。
关键词
伪装型
垃圾网页检测
机器学习
分类算法
朴素贝叶斯
Keywords
cloaking detection
machine learning
sort algorithm
Naive Bayes(NB)
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP393.098 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
集成PCA降维与分类算法的垃圾网页检测
被引量:
4
7
作者
李法良
朱焱
曾俊东
机构
西南交通大学信息科学与技术学院
出处
《计算机应用与软件》
CSCD
北大核心
2014年第10期269-272,共4页
基金
中央高校基本科研业务费专项基金项目(SWJTU11ZT08)
文摘
针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpamUK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。
关键词
垃圾
网页
垃圾网页检测
主成分分析
ADABOOST
支持向量机
Keywords
Spam webpage
Spam webpage detection
Principal component analysis
AdaBoost
Support vector machine (SVM)
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
改进样本加权K近邻分类器用于垃圾网页检测
被引量:
2
8
作者
吴俊华
谭博觉
高切
陈木生
机构
江西理工大学软件工程学院
出处
《重庆理工大学学报(自然科学)》
CAS
北大核心
2021年第7期283-290,共8页
基金
江西省教育厅科学技术研究基金项目(GJJ180450)。
文摘
针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。
关键词
垃圾网页检测
特征选择
K近邻
不平衡数据分类
代价敏感分析
Keywords
web spam detection
feature selection
K nearest neighbor
unbalanced data classification
cost sensitive analysis
分类号
TP391.6 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
主题相似度与链接权重相结合的垃圾网页排序检测
被引量:
2
9
作者
韦莎
朱焱
机构
西南交通大学信息科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2016年第3期735-739,共5页
基金
四川省学术和技术带头人培养资助项目~~
文摘
针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分配(LDA)模型得到所有网页的主题分布,并计算相互链接网页间的主题相似度;其次,根据Web图计算链接权重,并与主题相似度结合,得到主题链接权重矩阵;然后,利用主题链接权重调节非信任值传播,改进Anti-TrustRank和加权非信任值排序(WATR)算法,使网页得到更合理的非信任值;最后,将所有网页的非信任值进行排序,通过划分阈值检测出垃圾网页。在数据集WEBSPAM-UK2007上进行的实验结果表明,与Anti-TrustRank和WATR相比,TLDR的Spam Factor分别提高了45%和23.7%,F1-measure(阈值取600)分别提高了3.4个百分点和0.5个百分点,spam比例(前三个桶)分别提高了15个百分点和10个百分点。因此,主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能。
关键词
垃圾网页检测
链接作弊
排序算法
主题相似度
非信任值传播
Keywords
Web spam detection
link-based spam
ranking algorithm
topic similarity
distrust propagation
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于随机森林和欠采样集成的垃圾网页检测
卢晓勇
陈木生
《计算机应用》
CSCD
北大核心
2016
17
在线阅读
下载PDF
职称材料
2
基于内容的搜索引擎垃圾网页检测
贾志洋
李伟伟
张海燕
《计算机应用与软件》
CSCD
2009
9
在线阅读
下载PDF
职称材料
3
三种用于垃圾网页检测的随机欠采样集成分类器
陈木生
卢晓勇
《计算机应用》
CSCD
北大核心
2017
8
在线阅读
下载PDF
职称材料
4
基于多视图典型相关分析的垃圾网页检测
高爽
张化祥
房晓南
《计算机应用研究》
CSCD
北大核心
2013
3
在线阅读
下载PDF
职称材料
5
基于免疫克隆特征选择和欠采样集成的垃圾网页检测
卢晓勇
陈木生
吴政隆
张百栈
《计算机应用》
CSCD
北大核心
2016
3
在线阅读
下载PDF
职称材料
6
基于朴素贝叶斯的伪装型垃圾网页检测
王莉丽
朱焱
马永强
《计算机应用》
CSCD
北大核心
2013
4
在线阅读
下载PDF
职称材料
7
集成PCA降维与分类算法的垃圾网页检测
李法良
朱焱
曾俊东
《计算机应用与软件》
CSCD
北大核心
2014
4
在线阅读
下载PDF
职称材料
8
改进样本加权K近邻分类器用于垃圾网页检测
吴俊华
谭博觉
高切
陈木生
《重庆理工大学学报(自然科学)》
CAS
北大核心
2021
2
在线阅读
下载PDF
职称材料
9
主题相似度与链接权重相结合的垃圾网页排序检测
韦莎
朱焱
《计算机应用》
CSCD
北大核心
2016
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部