检索结果-维普期刊中文期刊服务平台

基于随机森林和欠采样集成的垃圾网页检测被引量：17: 1; 作者卢晓勇陈木生《计算机应用》 CSCD 北大核心 2016年第3期731-734,共4页; 为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练... 展开更多; 关键词垃圾网页检测随机森林欠采样集成分类器机器学习; 在线阅读下载PDF 职称材料

基于内容的搜索引擎垃圾网页检测被引量：9: 2; 作者贾志洋李伟伟张海燕《计算机应用与软件》 CSCD 2009年第11期165-167,共3页; 有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,... 展开更多; 关键词搜索引擎垃圾网页垃圾网页检测决策树 C4.5分类算法; 在线阅读下载PDF 职称材料

三种用于垃圾网页检测的随机欠采样集成分类器被引量：8: 3; 作者陈木生卢晓勇《计算机应用》 CSCD 北大核心 2017年第2期535-539,558,共6页; 针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样... 展开更多; 关键词垃圾网页检测不平衡分类集成学习欠采样分类回归树; 在线阅读下载PDF 职称材料

基于多视图典型相关分析的垃圾网页检测被引量：3: 4; 作者高爽张化祥房晓南《计算机应用研究》 CSCD 北大核心 2013年第3期810-813,共4页; 首先将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新的特征;再对新生成的两视图特征采用不同组合方式产生单视图数据,并用这组数据作为训练数... 展开更多; 关键词垃圾网页检测典型相关分析多视图分类特征抽取; 在线阅读下载PDF 职称材料

基于免疫克隆特征选择和欠采样集成的垃圾网页检测被引量：3: 5; 作者卢晓勇陈木生 +1 位作者吴政隆张百栈《计算机应用》 CSCD 北大核心 2016年第7期1899-1903,共5页; 为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本... 展开更多; 关键词垃圾网页检测集成学习免疫克隆算法特征选择欠采样随机森林; 在线阅读下载PDF 职称材料

基于朴素贝叶斯的伪装型垃圾网页检测被引量：4: 6; 作者王莉丽朱焱马永强《计算机应用》 CSCD 北大核心 2013年第A01期102-103,106,共3页; 针对伪装型垃圾网页的隐藏性、欺诈性和难以检测等问题,运用二元分类方法对伪装型垃圾网页进行检测。该方法将网页分解成内容特征和链接特征,并采用朴素贝叶斯(NB)算法对伪装型垃圾网页进行分类检测。最后,将NB算法和几种常见的分类算... 展开更多; 关键词伪装型垃圾网页检测机器学习分类算法朴素贝叶斯; 在线阅读下载PDF 职称材料

集成PCA降维与分类算法的垃圾网页检测被引量：4: 7; 作者李法良朱焱曾俊东《计算机应用与软件》 CSCD 北大核心 2014年第10期269-272,共4页; 针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过... 展开更多; 关键词垃圾网页垃圾网页检测主成分分析 ADABOOST 支持向量机; 在线阅读下载PDF 职称材料

改进样本加权K近邻分类器用于垃圾网页检测被引量：2: 8; 作者吴俊华谭博觉 +1 位作者高切陈木生《重庆理工大学学报（自然科学）》 CAS 北大核心 2021年第7期283-290,共8页; 针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score... 展开更多; 关键词垃圾网页检测特征选择 K近邻不平衡数据分类代价敏感分析; 在线阅读下载PDF 职称材料

主题相似度与链接权重相结合的垃圾网页排序检测被引量：2: 9; 作者韦莎朱焱《计算机应用》 CSCD 北大核心 2016年第3期735-739,共5页; 针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分... 展开更多; 关键词垃圾网页检测链接作弊排序算法主题相似度非信任值传播; 在线阅读下载PDF 职称材料

题名基于随机森林和欠采样集成的垃圾网页检测被引量：17: 1; 作者卢晓勇陈木生; 机构南昌大学软件学院南昌大学信息工程学院; 出处《计算机应用》 CSCD 北大核心 2016年第3期731-734,共4页; 基金江西省科技支撑计划项目(20131102040039)~~; 文摘为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK-2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果更好,准确率、F1测度、ROC曲线下面积(AUC)等指标提高至少14%,13%和11%。与Web spam challenge 2007优胜团队的竞赛结果相比,该集成分类器算法在F1测度上提高至少1%,在AUC上达到最优结果。; 关键词垃圾网页检测随机森林欠采样集成分类器机器学习; Keywords Web spam detection Random Forest（RF） under-sampling ensemble classifier machine learning; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于内容的搜索引擎垃圾网页检测被引量：9: 2; 作者贾志洋李伟伟张海燕; 机构云南师范大学计算机科学与信息技术学院中国石油大庆石化公司信息中心; 出处《计算机应用与软件》 CSCD 2009年第11期165-167,共3页; 文摘有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,将网页分成正常网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。; 关键词搜索引擎垃圾网页垃圾网页检测决策树 C4.5分类算法; Keywords Search engine Spam web page Spam web page detection Decision tree C4.5 classification algorithm; 分类号 TP393.4 [自动化与计算机技术—计算机应用技术] TP393.092 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名三种用于垃圾网页检测的随机欠采样集成分类器被引量：8: 3; 作者陈木生卢晓勇; 机构南昌大学信息工程学院南昌大学软件学院; 出处《计算机应用》 CSCD 北大核心 2017年第2期535-539,558,共6页; 基金江西省科技支撑计划项目(20131102040039)~~; 文摘针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样技术将训练样本集转换成平衡样本集,然后对每个平衡样本集使用分类回归树(CART)分类器算法进行分类,最后采用简单投票法构建集成分类器对测试样本进行分类。实验表明,三种随机欠采样集成分类器均取得了良好的分类效果,其中RUS-multiple和RUS-replacement比RUS-once的分类效果更好。与CART及其Bagging和Adaboost集成分类器相比,在WEBSPAM UK-2006数据集上,RUS-multiple和RUS-replacement方法的AUC指标值提高了10%左右,在WEBSPAM UK-2007数据集上,提高了25%左右;与其他最优研究结果相比,RUS-multiple和RUS-replacement方法在AUC指标上能达到最优分类结果。; 关键词垃圾网页检测不平衡分类集成学习欠采样分类回归树; Keywords Web spam detection imbalanced classification ensemble learning under-sampling Classification And Regression Tree （CART）; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP393.098 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于多视图典型相关分析的垃圾网页检测被引量：3: 4; 作者高爽张化祥房晓南; 机构山东师范大学信息科学与工程学院山东省分布式计算机软件新技术重点实验室; 出处《计算机应用研究》 CSCD 北大核心 2013年第3期810-813,共4页; 基金国家自然科学基金资助项目(61170145) 国家教育部高等学校博士点专项基金资助项目(20113704110001) +2 种基金 2008B0026 2010G0020115); 文摘首先将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新的特征;再对新生成的两视图特征采用不同组合方式产生单视图数据,并用这组数据作为训练数据构建分类算法。实验结果表明,将垃圾网页看成两视图数据,并应用多视图典型相关分析技术,可有效提高垃圾网页的识别精度。; 关键词垃圾网页检测典型相关分析多视图分类特征抽取; Keywords Web spam detection canonical correlation analysis（CCA） multi-view classification feature extraction; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于免疫克隆特征选择和欠采样集成的垃圾网页检测被引量：3: 5; 作者卢晓勇陈木生吴政隆张百栈; 机构南昌大学软件学院南昌大学信息工程学院元智大学资讯学院; 出处《计算机应用》 CSCD 北大核心 2016年第7期1899-1903,共5页; 基金江西省科技支撑计划项目(20131102040039)~~; 文摘为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本合并构成多个平衡的子训练样本集;然后,设计一种免疫克隆算法遴选出多个最优的特征子集;基于最优特征子集对平衡的子样本集进行投影操作,生成平衡数据集的多个视图;最后,用随机森林(RF)分类器对测试样本进行分类,采用简单投票法确定测试样本的最终类别。在WEBSPAM UK-2006数据集上的实验结果表明,该集成分类器算法应用于垃圾网页检测:与随机森林算法及其Bagging和Ada Boost集成分类器算法相比,准确率、F1测度、AUC等指标均提高11%以上;与其他最优的研究结果相比,该集成分类器算法在F1测度上提高2%,在AUC上达到最优。; 关键词垃圾网页检测集成学习免疫克隆算法特征选择欠采样随机森林; Keywords Web spam detection ensemble learning immune clonal algorithm feature selection Under-Sampling（US） Random Forest（RF）; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP393.098 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于朴素贝叶斯的伪装型垃圾网页检测被引量：4: 6; 作者王莉丽朱焱马永强; 机构西南交通大学信息科学与技术学院; 出处《计算机应用》 CSCD 北大核心 2013年第A01期102-103,106,共3页; 文摘针对伪装型垃圾网页的隐藏性、欺诈性和难以检测等问题,运用二元分类方法对伪装型垃圾网页进行检测。该方法将网页分解成内容特征和链接特征,并采用朴素贝叶斯(NB)算法对伪装型垃圾网页进行分类检测。最后,将NB算法和几种常见的分类算法在同一数据集上进行测试,结果表明,朴素贝叶斯算法的综合评价F1值达到94.64%,明显高于其余几种分类算法,能够有效地检测出伪装型垃圾网页,提高网络信息检索质量。; 关键词伪装型垃圾网页检测机器学习分类算法朴素贝叶斯; Keywords cloaking detection machine learning sort algorithm Naive Bayes(NB); 分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP393.098 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名集成PCA降维与分类算法的垃圾网页检测被引量：4: 7; 作者李法良朱焱曾俊东; 机构西南交通大学信息科学与技术学院; 出处《计算机应用与软件》 CSCD 北大核心 2014年第10期269-272,共4页; 基金中央高校基本科研业务费专项基金项目(SWJTU11ZT08); 文摘针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpamUK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。; 关键词垃圾网页垃圾网页检测主成分分析 ADABOOST 支持向量机; Keywords Spam webpage Spam webpage detection Principal component analysis AdaBoost Support vector machine （SVM）; 分类号 TP393.4 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名改进样本加权K近邻分类器用于垃圾网页检测被引量：2: 8; 作者吴俊华谭博觉高切陈木生; 机构江西理工大学软件工程学院; 出处《重庆理工大学学报（自然科学）》 CAS 北大核心 2021年第7期283-290,共8页; 基金江西省教育厅科学技术研究基金项目(GJJ180450)。; 文摘针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。; 关键词垃圾网页检测特征选择 K近邻不平衡数据分类代价敏感分析; Keywords web spam detection feature selection K nearest neighbor unbalanced data classification cost sensitive analysis; 分类号 TP391.6 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名主题相似度与链接权重相结合的垃圾网页排序检测被引量：2: 9; 作者韦莎朱焱; 机构西南交通大学信息科学与技术学院; 出处《计算机应用》 CSCD 北大核心 2016年第3期735-739,共5页; 基金四川省学术和技术带头人培养资助项目~~; 文摘针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分配(LDA)模型得到所有网页的主题分布,并计算相互链接网页间的主题相似度;其次,根据Web图计算链接权重,并与主题相似度结合,得到主题链接权重矩阵;然后,利用主题链接权重调节非信任值传播,改进Anti-TrustRank和加权非信任值排序(WATR)算法,使网页得到更合理的非信任值;最后,将所有网页的非信任值进行排序,通过划分阈值检测出垃圾网页。在数据集WEBSPAM-UK2007上进行的实验结果表明,与Anti-TrustRank和WATR相比,TLDR的Spam Factor分别提高了45%和23.7%,F1-measure(阈值取600)分别提高了3.4个百分点和0.5个百分点,spam比例(前三个桶)分别提高了15个百分点和10个百分点。因此,主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能。; 关键词垃圾网页检测链接作弊排序算法主题相似度非信任值传播; Keywords Web spam detection link-based spam ranking algorithm topic similarity distrust propagation; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于随机森林和欠采样集成的垃圾网页检测	卢晓勇陈木生	《计算机应用》 CSCD 北大核心	2016	17	在线阅读下载PDF 职称材料
2	基于内容的搜索引擎垃圾网页检测	贾志洋李伟伟张海燕	《计算机应用与软件》 CSCD	2009	9	在线阅读下载PDF 职称材料
3	三种用于垃圾网页检测的随机欠采样集成分类器	陈木生卢晓勇	《计算机应用》 CSCD 北大核心	2017	8	在线阅读下载PDF 职称材料
4	基于多视图典型相关分析的垃圾网页检测	高爽张化祥房晓南	《计算机应用研究》 CSCD 北大核心	2013	3	在线阅读下载PDF 职称材料
5	基于免疫克隆特征选择和欠采样集成的垃圾网页检测	卢晓勇陈木生吴政隆张百栈	《计算机应用》 CSCD 北大核心	2016	3	在线阅读下载PDF 职称材料
6	基于朴素贝叶斯的伪装型垃圾网页检测	王莉丽朱焱马永强	《计算机应用》 CSCD 北大核心	2013	4	在线阅读下载PDF 职称材料
7	集成PCA降维与分类算法的垃圾网页检测	李法良朱焱曾俊东	《计算机应用与软件》 CSCD 北大核心	2014	4	在线阅读下载PDF 职称材料
8	改进样本加权K近邻分类器用于垃圾网页检测	吴俊华谭博觉高切陈木生	《重庆理工大学学报（自然科学）》 CAS 北大核心	2021	2	在线阅读下载PDF 职称材料
9	主题相似度与链接权重相结合的垃圾网页排序检测	韦莎朱焱	《计算机应用》 CSCD 北大核心	2016	2	在线阅读下载PDF 职称材料