期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于HTML Parser的网页信息提取技术研究 被引量:3
1
作者 珠杰 罗潘 《西藏大学学报(社会科学版)》 CSSCI 2010年第3期41-44,共4页
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和... 在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。 展开更多
关键词 搜索引擎 网页信息提取 html parser
在线阅读 下载PDF
一种提高中文搜索引擎检索质量的HTML解析方法 被引量:20
2
作者 宋睿华 马少平 +1 位作者 陈刚 李景阳 《中文信息学报》 CSCD 北大核心 2003年第4期19-26,共8页
中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大... 中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。 展开更多
关键词 中文搜索引擎 检索质量 html解析方法 网页噪声 分块模型 网页去噪 中文信息处理
在线阅读 下载PDF
Web文档清洗系统中HTML解析器的开发 被引量:7
3
作者 王强 王继成 +1 位作者 武港山 张福炎 《计算机应用研究》 CSCD 北大核心 2002年第2期54-57,共4页
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无... 对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典。 展开更多
关键词 html解析器 词法器 递归下降 文档清洗系统 WEB INTERNET
在线阅读 下载PDF
嵌入式HTML文档解析器的设计与实现 被引量:4
4
作者 李庆诚 彭洁 +1 位作者 宫晓利 刘嘉欣 《计算机工程》 CAS CSCD 北大核心 2009年第9期258-260,共3页
针对HTML文档在手持移动阅读设备上的阅读有效性问题,设计实现一种面向嵌入式应用的、平台无关的HTML文档解析器,对其关键技术进行阐述和分析。提出一种屏幕适配探测机制,实现对当前屏幕阅读无效内容的过滤。实验结果表明,该解析器降低... 针对HTML文档在手持移动阅读设备上的阅读有效性问题,设计实现一种面向嵌入式应用的、平台无关的HTML文档解析器,对其关键技术进行阐述和分析。提出一种屏幕适配探测机制,实现对当前屏幕阅读无效内容的过滤。实验结果表明,该解析器降低了对嵌入式系统处理能力与内存配置的要求,能满足手持阅读设备的需要。 展开更多
关键词 嵌入式 html文档 解析器 屏幕适配探测 手持阅读设备
在线阅读 下载PDF
HTML文件解析器设计:原理、算法与应用 被引量:8
5
作者 许骏 柳泉波 《小型微型计算机系统》 CSCD 北大核心 2001年第11期1378-1381,共4页
网页设计制作已成为当前计算机基础教育的重要内容 ,但与此相关的自动阅卷系统研究尚未见报导 .本文介绍了作者在这方面所做的工作 ,内容包括 HTML文件解析器的设计原理、主要算法和典型应用等 .HTML文件解析器作为网上远程考试与评价... 网页设计制作已成为当前计算机基础教育的重要内容 ,但与此相关的自动阅卷系统研究尚未见报导 .本文介绍了作者在这方面所做的工作 ,内容包括 HTML文件解析器的设计原理、主要算法和典型应用等 .HTML文件解析器作为网上远程考试与评价系统的组成部分之一 。 展开更多
关键词 html 文件解析器 算法 网页设计 远程教育
在线阅读 下载PDF
基于JFC/Swing文本组件开发HTML语法分析器 被引量:1
6
作者 王美琴 《计算机应用研究》 CSCD 北大核心 2001年第5期77-78,共2页
分析了Java Swing的特点和组成,提出了用Swing文本组件包功能开发HTML语法分析器的构想,并详细讨论了它的实现步骤,最后给出程序代码。
关键词 计算机网络 文本组件 html 语法分析器 JFC/Swing
在线阅读 下载PDF
基于HTML解析器的Web信息提取技术 被引量:1
7
作者 王琳琳 《郑州轻工业学院学报(自然科学版)》 CAS 2008年第6期100-102,106,共4页
提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.
关键词 WEB信息提取 正则表达式 html解析器 主题信息
在线阅读 下载PDF
网络化制造资源垂直搜索引擎的研究与应用 被引量:6
8
作者 张建 程锦 《计算机应用》 CSCD 北大核心 2007年第5期1116-1118,共3页
着重研究了网络化制造资源垂直搜索系统的主题爬虫和中文分词技术。通过在主题爬虫中增加评价网页模块,优先爬行与主题相似度高的网页中的链接,提高了爬虫的工作效率。在对中文分词词典进行分层存储的基础上,通过一种改进的简洁的中文... 着重研究了网络化制造资源垂直搜索系统的主题爬虫和中文分词技术。通过在主题爬虫中增加评价网页模块,优先爬行与主题相似度高的网页中的链接,提高了爬虫的工作效率。在对中文分词词典进行分层存储的基础上,通过一种改进的简洁的中文分词词典匹配算法,有效地改善了分词的速度与精度,并缩减了索引库,增强了用户的响应。 展开更多
关键词 网络化制造 制造资源 垂直搜索引擎 页面解析
在线阅读 下载PDF
基于LINUX的嵌入式浏览器的特点和实现 被引量:5
9
作者 孙先虎 张曦煌 《计算机应用与软件》 CSCD 北大核心 2004年第7期112-113,共2页
提出了一种基于LINUX的嵌入式浏览器 ,介绍了实现方法和主要功能特点。该浏览器基于现有的嵌入式GUI ,利用系统的HTTP函数库实现网络访问 ,根据文档类型定义和层叠式样式表规范 ,解析HTML文件和排版显示。此系统在MiniGUI下已成功实现。
关键词 嵌入式浏览器 LINUX 函数库 超文本传输协议 网络访问 计算机网络
在线阅读 下载PDF
Web逆向工程中交互设计模式的抽取方法改进 被引量:2
10
作者 刘继红 吴军华 《计算机工程与设计》 CSCD 北大核心 2010年第5期932-935,共4页
为了提高Web交互设计模式抽取的准确性,增加现有方法对中文站点的分析能力,提出了一种基于HTML词法分析的改进方法。利用设计的HTML词法分析器将Web页面表示成语法树,抽取Web交互设计模式的特征,并对特征的词条内容进行语义扩展,细化了... 为了提高Web交互设计模式抽取的准确性,增加现有方法对中文站点的分析能力,提出了一种基于HTML词法分析的改进方法。利用设计的HTML词法分析器将Web页面表示成语法树,抽取Web交互设计模式的特征,并对特征的词条内容进行语义扩展,细化了特征抽取的粒度。实验结果表明,改进的方法在召回率和准确率等方面明显优于现有的方法,并在中文站点交互模式抽取方面取得了很好的效果。 展开更多
关键词 Web逆向工程 Web理解 交互设计模式 html分析器 特征抽取
在线阅读 下载PDF
一种抽取新闻网页结构化数据的方法 被引量:1
11
作者 陈爽 李先国 +1 位作者 陈福 李素 《燕山大学学报》 CAS 2007年第6期485-488,共4页
根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反... 根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向过滤降噪抽取新闻网页得到结构化数据的方法,并使用这种方法进行了大范围的效果验证。验证结果表明:这种方法信息抽取准确率高,对中英文新闻网页都有良好的适用性。 展开更多
关键词 信息抽取 html解析 DOM 标签补偿 噪声标记
在线阅读 下载PDF
在基于J2EE架构的网站中集成HTTP代理的设计与实现 被引量:4
12
作者 史承毅 《计算机应用》 CSCD 北大核心 2011年第A01期27-29,共3页
提出了一种在服务器上存在基于J2EE网站的情况下,将HTTP代理服务集成于网站的方案。相对于传统的HTTP代理服务,用该设计方法实现的HTTP代理,无需在浏览器客户端进行设置且不另外多开端口,提高了用户体验,同时降低了服务器安全风险。
关键词 HTTP代理 集成 html解析 J2EE 网络管理
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部