期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于维基百科和网页分块的主题爬行策略 被引量:5
1
作者 熊忠阳 史艳 张玉芳 《计算机应用》 CSCD 北大核心 2011年第12期3264-3267,共4页
针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先... 针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来验证主题描述的详略对爬行性能的影响。实验结果表明,该策略有效,并且在一定限度内,对主题描述越详细,搜集的网页的相关度就越高。 展开更多
关键词 主题爬行 维基百科 主题描述 网页分块 相关度计算
在线阅读 下载PDF
基于主题相关概念和网页分块的主题爬虫研究 被引量:9
2
作者 黄仁 王良伟 《计算机应用研究》 CSCD 北大核心 2013年第8期2377-2380,2409,共5页
针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接... 针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接结构相结合的策略计算候选链接优先级,并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明,利用该方法实现的主题爬虫查准率达66%、信息量总和达53%,在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。 展开更多
关键词 主题爬虫 主题相关概念 网页分块 优先级计算 R-HITS
在线阅读 下载PDF
一种基于分隔条的网页分块算法 被引量:2
3
作者 孙学波 张大伟 《计算机应用与软件》 CSCD 北大核心 2014年第7期286-289,333,共5页
网络信息时代的到来使得网络中的信息量呈指数增长,由此研究如何从网页中高效地提取出有用信息成为网络信息检索领域中的重要课题。从网页的可视性和统一性两大基本特征出发,提出一种通过检测分隔条对网页进行分块的算法,并使用相对位... 网络信息时代的到来使得网络中的信息量呈指数增长,由此研究如何从网页中高效地提取出有用信息成为网络信息检索领域中的重要课题。从网页的可视性和统一性两大基本特征出发,提出一种通过检测分隔条对网页进行分块的算法,并使用相对位置排版的概念解决在部分分块的高度未知的情况下如何表示各分块的相对位置的问题。分块过程中,通过已分块数、节点的信息长度、宽高等信息综合确定分块的终止条件,保证了算法的执行效率和有效性。实验结果说明,该算法具有较高的执行效率。 展开更多
关键词 Web分块 视觉特征 分隔条 网页分块
在线阅读 下载PDF
图像搜索中基于网页分块的图像分类研究 被引量:1
4
作者 章勤 余洋 陶文兵 《计算机工程与科学》 CSCD 2007年第6期42-44,80,共4页
本文提出并实现了一种基于网页分块的图像分类模型,利用图像位于网页中的特点,将图像和网页结构有效地结合起来对网络环境中的图像进行分类。首先利用VIPS页面分块算法对网页进行分块,然后根据分块网页结构的特点将各分块网页中的图像... 本文提出并实现了一种基于网页分块的图像分类模型,利用图像位于网页中的特点,将图像和网页结构有效地结合起来对网络环境中的图像进行分类。首先利用VIPS页面分块算法对网页进行分块,然后根据分块网页结构的特点将各分块网页中的图像分为背景类、广告类和主题类,最后利用这个图像分类结果指导网络环境下的图像搜索。实验结果表明,这种方法能够显著提高图像搜索性能。 展开更多
关键词 网页分块 图像搜索 分类 VIPS
在线阅读 下载PDF
网页分块聚类的Web站点逻辑域挖掘 被引量:1
5
作者 郑皎凌 王成良 《计算机工程》 CAS CSCD 北大核心 2007年第4期52-54,57,共4页
Web逻辑域挖掘是当前Web挖掘领域的研究热点之一,它强调从网站设计者的角度来挖掘站点中有逻辑联系的网页,以形成一个逻辑域,而不是单纯的文本聚类或超链排序。随着应用的不同,站点逻辑域的界定也有所不同。在综合分析了几种具有代表性... Web逻辑域挖掘是当前Web挖掘领域的研究热点之一,它强调从网站设计者的角度来挖掘站点中有逻辑联系的网页,以形成一个逻辑域,而不是单纯的文本聚类或超链排序。随着应用的不同,站点逻辑域的界定也有所不同。在综合分析了几种具有代表性的站点逻辑域及其挖掘方法后,提出了基于网页分块聚类的Web站点逻辑域挖掘模型和挖掘算法。实验结果表明,该算法具有很好的稳定性和适应性,其精度不受站点规模、语言、镜像等因素的影响,召回率则会随着取回网页数目的增加而增加。 展开更多
关键词 网页分块 Web逻辑域 WEB挖掘 分块粒度
在线阅读 下载PDF
基于网页分块的搜索引擎排序算法改进
6
作者 高乐 张健 钱杰 《浙江工业大学学报》 CAS 北大核心 2009年第5期495-498,共4页
目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定... 目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定规则保留网页中与主题相关度高的语义块,最后用这些语义块代表整个网页参与检索,减少网页噪音对搜索引擎排序算法正确性的影响,实现了检索质量的改进.最后通过实验证明了改进算法的优越性. 展开更多
关键词 网页噪音 网页分块 网页净化 排序算法 VIPS
在线阅读 下载PDF
基于网页分块技术主题爬行器的实现 被引量:4
7
作者 李晓亚 赫枫龄 左万利 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2007年第6期959-965,共7页
针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状,提出一种基于网页分块技术的主题爬行器实现方法,并实现了一个原型系统Crawler1.实验结果表明,本系统性能较好,所爬网页的相关度在55%以上.
关键词 主题搜索 主题爬行 相关度分析 网页分块
在线阅读 下载PDF
基于网页分块和链接特征的卷期目录链接提取方法 被引量:1
8
作者 于洪涛 王冬青 张付志 《情报学报》 CSSCI 北大核心 2012年第7期686-693,共8页
针对传统的信息抽取方法在提取卷期目录链接时精度不高的问题,本文提出一种基于网页分块和链接特征的卷期目录链接提取方法。首先,以网页标签树的布局标签为最小粒度,提出一种原子网页分块算法,将网页分割为若干个相互独立、互不包... 针对传统的信息抽取方法在提取卷期目录链接时精度不高的问题,本文提出一种基于网页分块和链接特征的卷期目录链接提取方法。首先,以网页标签树的布局标签为最小粒度,提出一种原子网页分块算法,将网页分割为若干个相互独立、互不包含的内容块;其次,根据内容块的子树结构,提出一种原子内容块聚类算法,通过合并相似内容块对网页进行语义块划分;最后,提出一种卷期目录链接块的识别算法,通过融合链接文本相似度和基于Bayes的语义分析方法识别出卷期目录链接区域,从而实现链接的提取。实验结果表明,本文提出的方法能够有效提取卷期Et录链接。 展开更多
关键词 网页分块 链接块 卷期目录 链接提取
在线阅读 下载PDF
基于分块的网页信息解析器的研究与设计 被引量:55
9
作者 于满泉 陈铁睿 许洪波 《计算机应用》 CSCD 北大核心 2005年第4期974-976,共3页
详细介绍了网页信息解析的基本技术手段,在综合权衡优缺点的基础上,提出了针对新 闻网站复杂结构页面较为有效的分块算法,并结合实际的项目需求,设计实现了网页信息解析器 TVPS,实验结果表明,该解析器具有良好的性能,满足实际的需求。
关键词 WEB挖掘 HTML标记 视觉特征 网页分块
在线阅读 下载PDF
分块布局下的主题型网页的内容抽取 被引量:3
10
作者 聂卉 张津华 《情报学报》 CSSCI 北大核心 2012年第1期31-39,共9页
本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法。算法首先分析原始网页的DOM结构生成标签树,再根据标签分类和对应节点的信息对标签树自底向上进行划分,并依据划分块的文... 本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法。算法首先分析原始网页的DOM结构生成标签树,再根据标签分类和对应节点的信息对标签树自底向上进行划分,并依据划分块的文字密度,链接密度及图片密度,分类信息块。进一步,提炼网页主题的文本特征向量,采用基于词条空间的文本相似度计算,获取划分块的主题相关度,以主题相关度为量化基准剔除噪声,识别网页主旨内容,重构页面描述。这一算法被应用于面向人才资讯的信息采集项目中,实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。 展开更多
关键词 网页内容抽取 网页分块 网页去噪
在线阅读 下载PDF
基于分块的网页主题文本抽取 被引量:5
11
作者 任玉 樊勇 郑家恒 《广西师范大学学报(自然科学版)》 CAS 北大核心 2009年第1期141-144,共4页
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本... 根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块。实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法。 展开更多
关键词 HTML标签 网页分块 内容特征 信息抽取
在线阅读 下载PDF
结合网页结构与文本特征的正文提取方法 被引量:15
12
作者 熊忠阳 蔺显强 +1 位作者 张玉芳 牙漫 《计算机工程》 CAS CSCD 2013年第12期200-203,210,共5页
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去... 网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 展开更多
关键词 正文提取 网页去噪 网页分块 主题爬行 信息检索 WEB挖掘
在线阅读 下载PDF
基于分块重要度和二维条件随机场的Web信息抽取 被引量:5
13
作者 吴秦 胡丽娟 梁久祯 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第1期79-86,共8页
网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待... 网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果. 展开更多
关键词 WEB对象 信息抽取 网页分块 分块重要度模型 二维条件随机场
在线阅读 下载PDF
基于结构树的网页正文内容抽取方法 被引量:2
14
作者 孙明柱 魏海平 《科学技术与工程》 2011年第28期6990-6993,共4页
网页文本抽取是一种在互联网上运用广泛的数据挖掘技术,主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差... 网页文本抽取是一种在互联网上运用广泛的数据挖掘技术,主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法,具有简单、实用的特点。实验结果表明,该抽取方法准确率达到96%以上,有一定的实用价值。 展开更多
关键词 结构树 信息抽取 网页分块
在线阅读 下载PDF
基于CRFs的新闻网页主题内容自动抽取方法 被引量:1
15
作者 张春元 《广西师范大学学报(自然科学版)》 CAS 北大核心 2011年第1期138-142,共5页
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法。该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将... 针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法。该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相邻块间类别转移特征,通过CRFs模型对数据序列进行类别标注来实现网页主题内容的抽取。实验表明,该方法对新闻网页主题内容的抽取具有较高检准率和较强适应能力,引入块间关联特性可改善新闻网页主题内容的抽取。 展开更多
关键词 WEB信息抽取 条件随机场 网页分块
在线阅读 下载PDF
面向移动设备的网页切割研究与设计
16
作者 肖云鹏 王佐成 李茜 《计算机工程与应用》 CSCD 北大核心 2008年第17期71-73,共3页
移动手持设备因其屏幕小,有限的计算及存储能力而不便浏览普通Web页面;另一方面,对于PDA、手机用户,本着用户个性定制以及降低费用的原则也有必要对现有Web页面进行"裁减"。就以上问题,提出一种面向移动设备网页切割的解决方... 移动手持设备因其屏幕小,有限的计算及存储能力而不便浏览普通Web页面;另一方面,对于PDA、手机用户,本着用户个性定制以及降低费用的原则也有必要对现有Web页面进行"裁减"。就以上问题,提出一种面向移动设备网页切割的解决方案:首先对半结构化的HTML文档进行结构化处理,接着基于DOM规范将HTML转化为DOM树并对其噪音清洗,然后对网页进行基于内容和基于链接的分块并对分块结果按照分层和用户定制的思想进行切割、重构,最后在开源项目HTMLParser基础上开发了原型系统并对系统执行效率和切割效果进行了评估。结果表明该方案切实可行,具有可观的应用价值。 展开更多
关键词 DOM 噪音清洗 网页分块 网页切割 网页重构
在线阅读 下载PDF
基于链接分块的相关链接提取方法 被引量:2
17
作者 王芳 于浩 +1 位作者 谭红叶 赵铁军 《计算机工程与应用》 CSCD 北大核心 2006年第31期110-113,共4页
每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网页按照HTML语言中标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出... 每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网页按照HTML语言中标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出现,相关链接文字与其所在网页标题含相同词等特征,应用规则与统计相结合的方法从所有链接块中提取相关链接块。相关链接提取方法测试结果,精确率在85%以上,召回率在70%左右,表明该方法很有效。 展开更多
关键词 网页分块 链接块 相关链接提取
在线阅读 下载PDF
基于分块和净化的搜索引擎排序算法 被引量:1
18
作者 姜楚江 余轶军 《计算机工程与应用》 CSCD 2012年第1期173-175,179,共4页
展开了对互联网搜索引擎结果集的智能排序研究,提出了一种基于扩展网页质量和VIPS分块算法的智能网页排序算法,并对结果进行净化处理以及查询优化。实验结果表明研究提出的新算法提高了推荐精度。
关键词 搜索引擎 排序算法 网页分块 净化处理
在线阅读 下载PDF
主题爬行中的隧道穿越技术 被引量:11
19
作者 彭涛 孟宇 +2 位作者 左万利 王英 胡亮 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期628-637,共10页
由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web... 由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web页面分割成数量不多的内容块分别处理来避免由于网页整体主题不相关给该块所带来的影响.对于黑色隧道的穿越,将隧道中主题不相关网页根据其父亲页面的主题相关性赋予一个深度值,然后根据其深度值的大小进行取舍,来达到扩展主题爬行区域的目的.实验结果显示,这两种方法都达到了预期效果,所以方法是有效、稳健和实用的. 展开更多
关键词 主题爬行 灰色隧道穿越 黑色隧道穿越 网页分块 TARGET LENGTH
在线阅读 下载PDF
面向主题爬取的多粒度URLs优先级计算方法 被引量:1
20
作者 陈竹敏 马军 +1 位作者 韩晓晖 雷景生 《中文信息学报》 CSCD 北大核心 2009年第3期31-38,共8页
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对... 垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上,提出基于上述方法的主题爬取算法。实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法。 展开更多
关键词 计算机应用 中文信息处理 主题爬取 优先级计算 网页分块 相关度计算
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部