检索结果-维普期刊中文期刊服务平台

基于信息量衰减幅度的网页正文提取被引量：1: 1; 作者陈阳陈兴蜀吴麒《计算机工程与设计》 CSCD 北大核心 2012年第7期2555-2560,共6页; 网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅... 展开更多; 关键词网页正文提取标签树主题区域子树信息抽取网页噪音; 在线阅读下载PDF 职称材料

基于分块的网页正文信息提取算法研究被引量：32: 2; 作者黄文蓓杨静顾君忠《计算机应用》 CSCD 北大核心 2007年第B06期24-26,30,共4页; 提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度... 展开更多; 关键词 Web网页正文提取内容块标签树噪音; 在线阅读下载PDF 职称材料

逆序解析DOM树及网页正文信息提取被引量：15: 3; 作者张瑞雪宋明秋公衍磊《计算机科学》 CSCD 北大核心 2011年第4期213-215,225,共4页; 一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,... 展开更多; 关键词 DOM树网页正文提取结构相似性逆序解析; 在线阅读下载PDF 职称材料

基于布局相似性的网页正文内容提取研究被引量：10: 4; 作者杨柳青李晓东耿光刚《计算机应用研究》 CSCD 北大核心 2015年第9期2581-2586,共6页; 合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性... 展开更多; 关键词布局相似性网页正文提取信息检索; 在线阅读下载PDF 职称材料

基于Lucene的中文全文检索系统的研究与设计被引量：6: 5; 作者索红光孙鑫《计算机工程与设计》 CSCD 北大核心 2008年第19期5083-5086,共4页; 提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使... 展开更多; 关键词全文检索网页正文提取中文分词模块索引文档预处理文本聚类; 在线阅读下载PDF 职称材料

题名基于信息量衰减幅度的网页正文提取被引量：1: 1; 作者陈阳陈兴蜀吴麒; 机构四川大学计算机学院网络与可信计算研究所中国电子科技集团公司第二十九研究所信息综合控制国家重点实验室; 出处《计算机工程与设计》 CSCD 北大核心 2012年第7期2555-2560,共6页; 基金国家973重点基础研究发展计划基金项目(2007CB311106) 国家信息安全专项(242项目)基金项目((242)2009A82); 文摘网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅度确定主题区域子树,对该子树进行裁剪之后提取出正文信息。在获取主题区域子树后,对整个网页范围内的正文提取将被限制在网页正文所在的区域,这样就大幅度降低了网页噪音的干扰,从而能更加精确地提取出网页正文信息。实验结果表明,该方法的抽取准确率可以达到95%以上,具有较好的应用价值。; 关键词网页正文提取标签树主题区域子树信息抽取网页噪音; Keywords content information extraction tag tree primary area subtree information extraction noise of web page; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于分块的网页正文信息提取算法研究被引量：32: 2; 作者黄文蓓杨静顾君忠; 机构华东师范大学计算机科学技术系; 出处《计算机应用》 CSCD 北大核心 2007年第B06期24-26,30,共4页; 基金上海市科学技术委员会科技攻关项目(055115001); 文摘提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。; 关键词 Web网页正文提取内容块标签树噪音; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名逆序解析DOM树及网页正文信息提取被引量：15: 3; 作者张瑞雪宋明秋公衍磊; 机构大连理工大学系统工程研究所; 出处《计算机科学》 CSCD 北大核心 2011年第4期213-215,225,共4页; 基金国家自然科学基金项目(70671016)资助; 文摘一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。; 关键词 DOM树网页正文提取结构相似性逆序解析; Keywords DOM tree Web content extracting Structural similarity Parsing reversely; 分类号 TP393.092 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于布局相似性的网页正文内容提取研究被引量：10: 4; 作者杨柳青李晓东耿光刚; 机构中国科学院计算机网络信息中心中国互联网络信息中心; 出处《计算机应用研究》 CSCD 北大核心 2015年第9期2581-2586,共6页; 基金国家自然科学基金面上项目(61375039) 国家自然科学基金青年资助项目(61005029) 中国科学院计算机网络信息中心"一三五"规划重点培育方向专项基金资助项目(CNIC_PY_1402); 文摘合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性的网页正文提取方法,即通过比对来自同一网站同一专题的网页DOM树中节点数据信息的相似性来实现正文提取,并对相关问题进行了尝试性的研究和实现。实验证明该方法思路简单、实用性强、普适性好,在满足较高准确率的同时,能为众多互联网内容分析应用提供支撑。; 关键词布局相似性网页正文提取信息检索; Keywords layout similarity Web page content extract information retrieval; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于Lucene的中文全文检索系统的研究与设计被引量：6: 5; 作者索红光孙鑫; 机构中国石油大学(华东)计算机与通信工程学院; 出处《计算机工程与设计》 CSCD 北大核心 2008年第19期5083-5086,共4页; 文摘提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。; 关键词全文检索网页正文提取中文分词模块索引文档预处理文本聚类; Keywords full text search web page text extraction Chinese word segmentation documents for indexing pretreatment document clustering; 分类号 TP393 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于信息量衰减幅度的网页正文提取	陈阳陈兴蜀吴麒	《计算机工程与设计》 CSCD 北大核心	2012	1	在线阅读下载PDF 职称材料
2	基于分块的网页正文信息提取算法研究	黄文蓓杨静顾君忠	《计算机应用》 CSCD 北大核心	2007	32	在线阅读下载PDF 职称材料
3	逆序解析DOM树及网页正文信息提取	张瑞雪宋明秋公衍磊	《计算机科学》 CSCD 北大核心	2011	15	在线阅读下载PDF 职称材料
4	基于布局相似性的网页正文内容提取研究	杨柳青李晓东耿光刚	《计算机应用研究》 CSCD 北大核心	2015	10	在线阅读下载PDF 职称材料
5	基于Lucene的中文全文检索系统的研究与设计	索红光孙鑫	《计算机工程与设计》 CSCD 北大核心	2008	6	在线阅读下载PDF 职称材料