检索结果-维普期刊中文期刊服务平台

一种HTML网页净化方法被引量：57: 1; 作者张志刚陈静李晓明《情报学报》 CSSCI 北大核心 2004年第4期387-393,共7页; Web网页中的"噪音"是影响基于网页内容的Web应用系统工作质量的一个重要因素,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一.本文提出一种网页净化的方法及相应算法.该方法以一组启发式规则为基础,利... 展开更多; 关键词网页净化信息检索搜索引擎 HTML 算法; 在线阅读下载PDF 职称材料

基于统计的网页净化模板生成算法: 2; 作者胡飞黄军建 +2 位作者成平广席海李军《科学技术与工程》北大核心 2013年第4期1060-1063,共4页; 同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树... 展开更多; 关键词网页净化信息提取单边子树; 在线阅读下载PDF 职称材料

基于局部最优标签树的网页净化方法: 3; 作者胡飞杨华千 +2 位作者韦鹏程彭涛蒲昌玖《科学技术与工程》北大核心 2012年第35期9556-9561,共6页; 新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实... 展开更多; 关键词网页净化信息提取 HTML标签局部最优网页噪音; 在线阅读下载PDF 职称材料

一种新的用于数据挖掘工具的网页净化算法: 4; 作者孙楠张华伟《郑州轻工业学院学报（自然科学版）》 CAS 2011年第3期85-87,91,共4页; 为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在<table>标记和<p>标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要... 展开更多; 关键词网页净化网页噪声文档对象模型阈值; 在线阅读下载PDF 职称材料

基于网页分块的搜索引擎排序算法改进: 5; 作者高乐张健钱杰《浙江工业大学学报》 CAS 北大核心 2009年第5期495-498,共4页; 目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定... 展开更多; 关键词网页噪音网页分块网页净化排序算法 VIPS; 在线阅读下载PDF 职称材料

一种有效的网页噪声消除的方法被引量：3: 6; 作者罗成李弼程张先飞《计算机工程》 CAS CSCD 北大核心 2007年第8期89-91,共3页; 大多数网页都有如广告、版权、导航链接等噪声,影响Web应用系统的工作质量,因此快速准确地清除网页中的噪声内容是提高Web应用程序性能的关键技术之一。提出了一种网页净化方法,通过用模式树(PT)表示网页的布局结构,根据模式树中节点的... 展开更多; 关键词文档树模式树基本节点风格节点网页净化; 在线阅读下载PDF 职称材料

多层次web文本分类被引量：12: 7; 作者凌云刘军王勋《情报学报》 CSSCI 北大核心 2005年第6期684-689,共6页; 传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系.根据LSA理论提出了一种多层次web文本分类方法.建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根... 展开更多; 关键词文本分类网页净化 LSA LS空间; 在线阅读下载PDF 职称材料

题名一种HTML网页净化方法被引量：57: 1; 作者张志刚陈静李晓明; 机构北京大学计算机科学技术系网络与分布式系统实验室; 出处《情报学报》 CSSCI 北大核心 2004年第4期387-393,共7页; 基金国家重点基础研究发展计划(973计划); 文摘 Web网页中的"噪音"是影响基于网页内容的Web应用系统工作质量的一个重要因素,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一.本文提出一种网页净化的方法及相应算法.该方法以一组启发式规则为基础,利用信息检索的技术以及Web网页的特征,提取网页的主题以及和主题相关的内容,从而达到网页净化的目的.该方法已经应用于搜索引擎系统(天网)的网页消重过程以及一个网页自动分类系统.通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性.; 关键词网页净化信息检索搜索引擎 HTML 算法; 分类号 TP393.09 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于统计的网页净化模板生成算法: 2; 作者胡飞黄军建成平广席海李军; 机构重庆第二师范学院网络中心重庆第二师范学院财务处重庆第二师范学院教务处; 出处《科学技术与工程》北大核心 2013年第4期1060-1063,共4页; 基金重庆教育学院研究项目(KY201176C)资助; 文摘同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST;然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成该站点的重要单边子树SPUST。这个SPUST就是该站点的网页净化模板。; 关键词网页净化信息提取单边子树; Keywords Web page purification information extraction unilateral subtree; 分类号 TP393.09 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于局部最优标签树的网页净化方法: 3; 作者胡飞杨华千韦鹏程彭涛蒲昌玖; 机构重庆第二师范学院网络中心数学与信息工程系; 出处《科学技术与工程》北大核心 2012年第35期9556-9561,共6页; 基金重庆第二师范学院研究项目(KY201176C、KY201175C)资助; 文摘新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实验证明方法实现简单、净化效果明显,特别是对新闻类主题文字网页净化效果显著。; 关键词网页净化信息提取 HTML标签局部最优网页噪音; Keywords Web page purification information extraction HTML tags local optimal Web pagenoise9561; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名一种新的用于数据挖掘工具的网页净化算法: 4; 作者孙楠张华伟; 机构河南财经政法大学计算机与信息工程学院; 出处《郑州轻工业学院学报（自然科学版）》 CAS 2011年第3期85-87,91,共4页; 文摘为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在<table>标记和<p>标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要度,获取网页的主题内容.对门户网站的6 318个网页的检测表明,该算法可以有效地提取网页的主题内容,准确率达到98.2%以上.用于数据挖掘工具时,该算法优于其他同类算法,可以有效地去除网页噪声.; 关键词网页净化网页噪声文档对象模型阈值; Keywords Web page purification Web noise DOM threshold; 分类号 TP393.08 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于网页分块的搜索引擎排序算法改进: 5; 作者高乐张健钱杰; 机构浙江工业大学信息工程学院浙江工业大学软件学院; 出处《浙江工业大学学报》 CAS 北大核心 2009年第5期495-498,共4页; 文摘目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定规则保留网页中与主题相关度高的语义块,最后用这些语义块代表整个网页参与检索,减少网页噪音对搜索引擎排序算法正确性的影响,实现了检索质量的改进.最后通过实验证明了改进算法的优越性.; 关键词网页噪音网页分块网页净化排序算法 VIPS; Keywords webpage noise webpage segmentation webpage purification sorting algorithm VIPS; 分类号 TN393.09 [电子电信—物理电子学]; 在线阅读下载PDF 职称材料

题名一种有效的网页噪声消除的方法被引量：3: 6; 作者罗成李弼程张先飞; 机构信息工程大学信息工程学院; 出处《计算机工程》 CAS CSCD 北大核心 2007年第8期89-91,共3页; 文摘大多数网页都有如广告、版权、导航链接等噪声,影响Web应用系统的工作质量,因此快速准确地清除网页中的噪声内容是提高Web应用程序性能的关键技术之一。提出了一种网页净化方法,通过用模式树(PT)表示网页的布局结构,根据模式树中节点的信息熵来消除噪声,以达到网页净化的目的。试验将此方法应用于一个SVM分类系统,结果显示通过净化的网页对分类结果的正确率和高效性都有了一定的改进。; 关键词文档树模式树基本节点风格节点网页净化; Keywords Document tree Pattern tree Element node Style node Web page purification; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名多层次web文本分类被引量：12: 7; 作者凌云刘军王勋; 机构浙江工商大学计算机与信息工程学院; 出处《情报学报》 CSSCI 北大核心 2005年第6期684-689,共6页; 基金浙江省自然科学基金; 文摘传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系.根据LSA理论提出了一种多层次web文本分类方法.建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类.这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题.同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式.实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好.; 关键词文本分类网页净化 LSA LS空间; Keywords text classification, pape cleaning, LSA, LS space.; 分类号 G254.11 [文化科学—图书馆学] TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	一种HTML网页净化方法	张志刚陈静李晓明	《情报学报》 CSSCI 北大核心	2004	57	在线阅读下载PDF 职称材料
2	基于统计的网页净化模板生成算法	胡飞黄军建成平广席海李军	《科学技术与工程》北大核心	2013	0	在线阅读下载PDF 职称材料
3	基于局部最优标签树的网页净化方法	胡飞杨华千韦鹏程彭涛蒲昌玖	《科学技术与工程》北大核心	2012	0	在线阅读下载PDF 职称材料
4	一种新的用于数据挖掘工具的网页净化算法	孙楠张华伟	《郑州轻工业学院学报（自然科学版）》 CAS	2011	0	在线阅读下载PDF 职称材料
5	基于网页分块的搜索引擎排序算法改进	高乐张健钱杰	《浙江工业大学学报》 CAS 北大核心	2009	0	在线阅读下载PDF 职称材料
6	一种有效的网页噪声消除的方法	罗成李弼程张先飞	《计算机工程》 CAS CSCD 北大核心	2007	3	在线阅读下载PDF 职称材料
7	多层次web文本分类	凌云刘军王勋	《情报学报》 CSSCI 北大核心	2005	12	在线阅读下载PDF 职称材料