期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
Web页面信息主动检索模型 被引量:1
1
作者 袁鼎荣 钟宁 《智能系统学报》 2010年第2期112-116,共5页
单个页面信息量远远大于特定用户对页面中的信息需求.为快速准确从当前页面中获取特定用户所需求的兴趣信息,提出了页面信息主动检索模型.该检索模型中,根据页面Block特点将当前Web页面转化成信息树,根据用户过去的浏览行为构造用户特征... 单个页面信息量远远大于特定用户对页面中的信息需求.为快速准确从当前页面中获取特定用户所需求的兴趣信息,提出了页面信息主动检索模型.该检索模型中,根据页面Block特点将当前Web页面转化成信息树,根据用户过去的浏览行为构造用户特征树,挖掘用户特征树产生用户需求信息集,然后从当前页面中检索需求的信息,获取用户兴趣信息集.详述了主动检索的基本原理,给出了相应的算法描述,并通过实验证明了该模型具有可行性. 展开更多
关键词 页面Block 页面信息 用户特征树 主动检索
在线阅读 下载PDF
生产管理与Web页面信息管理
2
作者 夏骄雄 许华虎 施振夏 《计算机工程》 CAS CSCD 北大核心 1997年第S1期160-162,共3页
文章从分析当前企业生产管理中较流行的JIT管理原理出发,探讨了“看板”管理如何应用到Web页面信息管理的可能性,以期为Web页面信息管理的有序化和规范化提供新的思路。
关键词 JIT管理原理 Web页面信息管理 “看板”管理
在线阅读 下载PDF
一种区分索引与信息的网页分类数学模型及证明
3
作者 王树西 夏增艳 《计算机科学》 CSCD 北大核心 2014年第B11期307-312,共6页
综述了网页分类的国内外研究现状,分析了网页分类的核心技术,包括思想、算法、公式、评测标准。为了打击非法网络传销,必须对传销网页进行准确识别与分类。根据网页中"最大内容段"的长度,计算出这个网页为"信息网页"... 综述了网页分类的国内外研究现状,分析了网页分类的核心技术,包括思想、算法、公式、评测标准。为了打击非法网络传销,必须对传销网页进行准确识别与分类。根据网页中"最大内容段"的长度,计算出这个网页为"信息网页"的概率,通过严格的数学公式推导得到数学模型。本数学模型已经得到应用,"网络传销国家监控中心"用这个模型有效地对网络传销网页集合进行了分类。 展开更多
关键词 网页分类 索引页面 信息页面 网络传销 网络传销国家监控中心
在线阅读 下载PDF
基于多种策略的页面内容提取算法 被引量:4
4
作者 高琰 谷士文 谭立球 《西南交通大学学报》 EI CSCD 北大核心 2007年第4期473-477,共5页
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构... 针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容. 展开更多
关键词 VIPS(基于视觉信息页面分割算法) 内聚度 最大深度 内容信息 结构信息
在线阅读 下载PDF
页面图文模型与元素特征归纳
5
作者 于龙 王金龙 《计算机工程与科学》 CSCD 北大核心 2013年第4期136-143,共8页
针对以图文内容为核心的页面信息抽取,以形式化的方式提出了对页面进行元素分析的理论模型。通过定义基础元素集与变换规则,页面图文模型简化了页面DOM树结构,并展现出页面内元素的图文特征。在此基础上,通过定义元素分类相似度,从页面... 针对以图文内容为核心的页面信息抽取,以形式化的方式提出了对页面进行元素分析的理论模型。通过定义基础元素集与变换规则,页面图文模型简化了页面DOM树结构,并展现出页面内元素的图文特征。在此基础上,通过定义元素分类相似度,从页面图文模型的元素特征中进行优选,归纳最佳分类特征,提出并实现了获取最佳分类特征集与识别阈值的算法。实验结果表明,页面图文模型简化了页面元素的规模,特征集归纳算法能够在较小的学习成本下获得理想的分类精度。 展开更多
关键词 页面信息抽取 页面元素 图文模型 特征归纳
在线阅读 下载PDF
Relevance-based content extraction of HTML documents
6
作者 吴麒 陈兴蜀 +1 位作者 朱锴 王春晖 《Journal of Central South University》 SCIE EI CAS 2012年第7期1921-1926,共6页
Content extraction of HTML pages is the basis of the web page clustering and information retrieval,so it is necessary to eliminate cluttered information and very important to extract content of pages accurately.A nove... Content extraction of HTML pages is the basis of the web page clustering and information retrieval,so it is necessary to eliminate cluttered information and very important to extract content of pages accurately.A novel and accurate solution for extracting content of HTML pages was proposed.First of all,the HTML page is parsed into DOM object and the IDs of all leaf nodes are generated.Secondly,the score of each leaf node is calculated and the score is adjusted according to the relationship with neighbors.Finally,the information blocks are found according to the definition,and a universal classification algorithm is used to identify the content blocks.The experimental results show that the algorithm can extract content effectively and accurately,and the recall rate and precision are 96.5% and 93.8%,respectively. 展开更多
关键词 content extraction DOM NODE RELEVANCE information block
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部