-
题名基于内容的搜索引擎垃圾网页检测
被引量:9
- 1
-
-
作者
贾志洋
李伟伟
张海燕
-
机构
云南师范大学计算机科学与信息技术学院
中国石油大庆石化公司信息中心
-
出处
《计算机应用与软件》
CSCD
2009年第11期165-167,共3页
-
文摘
有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,将网页分成正常网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。
-
关键词
搜索引擎
垃圾网页
垃圾网页检测
决策树
C4.5分类算法
-
Keywords
Search engine Spam web page Spam web page detection Decision tree C4.5 classification algorithm
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名元数据驱动的数据质量评估体系架构研究
被引量:16
- 2
-
-
作者
黄刚
袁满
吴秀英
丛慧刚
-
机构
东北石油大学计算机与信息技术学院
中国石油大庆石化公司信息技术中心
-
出处
《计算机工程与应用》
CSCD
2013年第8期114-119,181,共7页
-
文摘
到目前为止,国际上既没有形成系统化的数据质量评估标准,也没有建立完整的数据质量评估体系。通过对国际和国内数据质量相关内容的研究,分析了大型企业对数据质量的需求,提出了一个数据质量元模型框架结构,构建了数据质量评估体系。该体系包括数据质量的分类和定义、数据质量评估指标算法和数据质量评估体系及流程,为企业对数据质量进行评估提供了可靠的依据。
-
关键词
元数据
数据质量分析
数据质量评估
-
Keywords
meta-data
data quality analysis
data quality assessment
-
分类号
TP392
[自动化与计算机技术—计算机应用技术]
-
-
题名元数据驱动的异构数据模型双向映射策略
- 3
-
-
作者
黄刚
袁满
吴秀英
陈兴童
-
机构
东北石油大学计算机与信息技术学院
中国石油大庆石化公司信息技术中心
-
出处
《科学技术与工程》
北大核心
2012年第32期8750-8756,共7页
-
文摘
重点研究异构数据模型间的映射关系,并参考ETL框架思想,设计了针对异构数据模型间数据映射、转换和加载于一身的双向映射策略。分析并定义了数据模型间的映射关系与映射规则。基于元数据驱动理论方法设计了数据映射元模型。并将映射关系按照复杂程度分类,分为简单映射与复合映射关系。明确给出了分类原则。还对双向映射关系进行了描述,并分析了双向映射中遇到的问题。
-
关键词
元数据驱动
双向映射
异构数据模型
-
Keywords
metadata-driven bidirectional mapping heterogeneous data model
-
分类号
TP311.11
[自动化与计算机技术—计算机软件与理论]
-