-
题名一种HTML网页净化方法
被引量:57
- 1
-
-
作者
张志刚
陈静
李晓明
-
机构
北京大学计算机科学技术系网络与分布式系统实验室
-
出处
《情报学报》
CSSCI
北大核心
2004年第4期387-393,共7页
-
基金
国家重点基础研究发展计划(973计划)
-
文摘
Web网页中的"噪音"是影响基于网页内容的Web应用系统工作质量的一个重要因素,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一.本文提出一种网页净化的方法及相应算法.该方法以一组启发式规则为基础,利用信息检索的技术以及Web网页的特征,提取网页的主题以及和主题相关的内容,从而达到网页净化的目的.该方法已经应用于搜索引擎系统(天网)的网页消重过程以及一个网页自动分类系统.通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性.
-
关键词
网页净化
信息检索
搜索引擎
HTML
算法
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名基于统计的网页净化模板生成算法
- 2
-
-
作者
胡飞
黄军建
成平广
席海
李军
-
机构
重庆第二师范学院网络中心
重庆第二师范学院财务处
重庆第二师范学院教务处
-
出处
《科学技术与工程》
北大核心
2013年第4期1060-1063,共4页
-
基金
重庆教育学院研究项目(KY201176C)资助
-
文摘
同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST;然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成该站点的重要单边子树SPUST。这个SPUST就是该站点的网页净化模板。
-
关键词
网页净化
信息提取
单边子树
-
Keywords
Web page purification information extraction unilateral subtree
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名基于局部最优标签树的网页净化方法
- 3
-
-
作者
胡飞
杨华千
韦鹏程
彭涛
蒲昌玖
-
机构
重庆第二师范学院网络中心
数学与信息工程系
-
出处
《科学技术与工程》
北大核心
2012年第35期9556-9561,共6页
-
基金
重庆第二师范学院研究项目(KY201176C、KY201175C)资助
-
文摘
新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实验证明方法实现简单、净化效果明显,特别是对新闻类主题文字网页净化效果显著。
-
关键词
网页净化
信息提取
HTML标签
局部最优
网页噪音
-
Keywords
Web page purification information extraction HTML tags local optimal Web pagenoise9561
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种新的用于数据挖掘工具的网页净化算法
- 4
-
-
作者
孙楠
张华伟
-
机构
河南财经政法大学计算机与信息工程学院
-
出处
《郑州轻工业学院学报(自然科学版)》
CAS
2011年第3期85-87,91,共4页
-
文摘
为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在<table>标记和<p>标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要度,获取网页的主题内容.对门户网站的6 318个网页的检测表明,该算法可以有效地提取网页的主题内容,准确率达到98.2%以上.用于数据挖掘工具时,该算法优于其他同类算法,可以有效地去除网页噪声.
-
关键词
网页净化
网页噪声
文档对象模型
阈值
-
Keywords
Web page purification
Web noise
DOM
threshold
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网页分块的搜索引擎排序算法改进
- 5
-
-
作者
高乐
张健
钱杰
-
机构
浙江工业大学信息工程学院
浙江工业大学软件学院
-
出处
《浙江工业大学学报》
CAS
北大核心
2009年第5期495-498,共4页
-
文摘
目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定规则保留网页中与主题相关度高的语义块,最后用这些语义块代表整个网页参与检索,减少网页噪音对搜索引擎排序算法正确性的影响,实现了检索质量的改进.最后通过实验证明了改进算法的优越性.
-
关键词
网页噪音
网页分块
网页净化
排序算法
VIPS
-
Keywords
webpage noise
webpage segmentation
webpage purification
sorting algorithm
VIPS
-
分类号
TN393.09
[电子电信—物理电子学]
-
-
题名一种有效的网页噪声消除的方法
被引量:3
- 6
-
-
作者
罗成
李弼程
张先飞
-
机构
信息工程大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第8期89-91,共3页
-
文摘
大多数网页都有如广告、版权、导航链接等噪声,影响Web应用系统的工作质量,因此快速准确地清除网页中的噪声内容是提高Web应用程序性能的关键技术之一。提出了一种网页净化方法,通过用模式树(PT)表示网页的布局结构,根据模式树中节点的信息熵来消除噪声,以达到网页净化的目的。试验将此方法应用于一个SVM分类系统,结果显示通过净化的网页对分类结果的正确率和高效性都有了一定的改进。
-
关键词
文档树
模式树
基本节点
风格节点
网页净化
-
Keywords
Document tree
Pattern tree
Element node
Style node
Web page purification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名多层次web文本分类
被引量:12
- 7
-
-
作者
凌云
刘军
王勋
-
机构
浙江工商大学计算机与信息工程学院
-
出处
《情报学报》
CSSCI
北大核心
2005年第6期684-689,共6页
-
基金
浙江省自然科学基金
-
文摘
传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系.根据LSA理论提出了一种多层次web文本分类方法.建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类.这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题.同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式.实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好.
-
关键词
文本分类
网页净化
LSA
LS空间
-
Keywords
text classification, pape cleaning, LSA, LS space.
-
分类号
G254.11
[文化科学—图书馆学]
TP391
[自动化与计算机技术—计算机应用技术]
-