-
题名基于多种策略的页面内容提取算法
被引量:4
- 1
-
-
作者
高琰
谷士文
谭立球
-
机构
中南大学信息科学与工程学院
-
出处
《西南交通大学学报》
EI
CSCD
北大核心
2007年第4期473-477,共5页
-
文摘
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容.
-
关键词
vips(基于视觉信息的页面分割算法)
内聚度
最大深度
内容信息
结构信息
-
Keywords
vips ( visual based page segment)
degree of coherence
maximum depth
content information
structure information
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名一种新颖的CRE用户评论信息抽取技术
被引量:2
- 2
-
-
作者
李慧
张舒
顾天竺
陈晓红
吴颜
-
机构
淮海工学院计算机科学系
扬州大学信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2006年第10期2509-2512,共4页
-
基金
江苏省自然科学基金项目资助项目(BK2005046)
-
文摘
准确挖掘商务网站中的用户评论对于商家进行有效的推荐具有重要意义。提出了一种新颖的用户评论抽取(CRE)算法进行评论信息的抽取。该算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。实验结果证明了该算法具有较高的查全率与查准率。
-
关键词
用户评论抽取
信息抽取
基于视觉的页面分块
-
Keywords
Customer Review Extraction(CRE)
information extraction
vision-based page segmentation(vips)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名图像搜索中基于网页分块的图像分类研究
被引量:1
- 3
-
-
作者
章勤
余洋
陶文兵
-
机构
华中科技大学计算机科学与技术学院
-
出处
《计算机工程与科学》
CSCD
2007年第6期42-44,80,共4页
-
基金
国家发改委CNGI专项合作项目(CNGI-04-15-7A)
-
文摘
本文提出并实现了一种基于网页分块的图像分类模型,利用图像位于网页中的特点,将图像和网页结构有效地结合起来对网络环境中的图像进行分类。首先利用VIPS页面分块算法对网页进行分块,然后根据分块网页结构的特点将各分块网页中的图像分为背景类、广告类和主题类,最后利用这个图像分类结果指导网络环境下的图像搜索。实验结果表明,这种方法能够显著提高图像搜索性能。
-
关键词
网页分块
图像搜索
分类
vips
-
Keywords
page segmentation
image search
classification
vips
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-