期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于多种策略的页面内容提取算法 被引量:4
1
作者 高琰 谷士文 谭立球 《西南交通大学学报》 EI CSCD 北大核心 2007年第4期473-477,共5页
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构... 针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容. 展开更多
关键词 vips(基于视觉信息的页面分割算法) 内聚度 最大深度 内容信息 结构信息
在线阅读 下载PDF
一种新颖的CRE用户评论信息抽取技术 被引量:2
2
作者 李慧 张舒 +2 位作者 顾天竺 陈晓红 吴颜 《计算机应用》 CSCD 北大核心 2006年第10期2509-2512,共4页
准确挖掘商务网站中的用户评论对于商家进行有效的推荐具有重要意义。提出了一种新颖的用户评论抽取(CRE)算法进行评论信息的抽取。该算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。实验结果证明了该算法具... 准确挖掘商务网站中的用户评论对于商家进行有效的推荐具有重要意义。提出了一种新颖的用户评论抽取(CRE)算法进行评论信息的抽取。该算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。实验结果证明了该算法具有较高的查全率与查准率。 展开更多
关键词 用户评论抽取 信息抽取 基于视觉的页面分块
在线阅读 下载PDF
图像搜索中基于网页分块的图像分类研究 被引量:1
3
作者 章勤 余洋 陶文兵 《计算机工程与科学》 CSCD 2007年第6期42-44,80,共4页
本文提出并实现了一种基于网页分块的图像分类模型,利用图像位于网页中的特点,将图像和网页结构有效地结合起来对网络环境中的图像进行分类。首先利用VIPS页面分块算法对网页进行分块,然后根据分块网页结构的特点将各分块网页中的图像... 本文提出并实现了一种基于网页分块的图像分类模型,利用图像位于网页中的特点,将图像和网页结构有效地结合起来对网络环境中的图像进行分类。首先利用VIPS页面分块算法对网页进行分块,然后根据分块网页结构的特点将各分块网页中的图像分为背景类、广告类和主题类,最后利用这个图像分类结果指导网络环境下的图像搜索。实验结果表明,这种方法能够显著提高图像搜索性能。 展开更多
关键词 网页分块 图像搜索 分类 vips
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部