期刊文献+
共找到155篇文章
< 1 2 8 >
每页显示 20 50 100
基于HTML Parser的网页信息提取技术研究 被引量:3
1
作者 珠杰 罗潘 《西藏大学学报(社会科学版)》 CSSCI 2010年第3期41-44,共4页
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和... 在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。 展开更多
关键词 搜索引擎 网页信息提取 HTML parser
在线阅读 下载PDF
高性能的XML解析器OnceXMLParser 被引量:4
2
作者 金蓓弘 曹冬磊 +2 位作者 任鑫 余双 戴蓓洁 《软件学报》 EI CSCD 北大核心 2008年第10期2728-2738,共11页
XML(extensible markup language)解析器是分析、处理XML文档的基础软件.研究高性能验证型XML解析器的实现.开发了支持3种解析模型的XML解析器OnceXMLParser,该解析器通过了严格的XML兼容性测试和API兼容性测试.OnceXMLParser具有轻量... XML(extensible markup language)解析器是分析、处理XML文档的基础软件.研究高性能验证型XML解析器的实现.开发了支持3种解析模型的XML解析器OnceXMLParser,该解析器通过了严格的XML兼容性测试和API兼容性测试.OnceXMLParser具有轻量级体系结构并进行了多方面的性能优化,包括高效的词法分析、基于统计分析的自动机实现、合理的资源分配策略以及语言层次上的优化.性能测试结果表明,OnceXMLParser具有出色的解析性能. 展开更多
关键词 XML(extensible MARKUP language) 解析器 性能优化
在线阅读 下载PDF
OnceSAXParser:一种高效轻量的XML解析器 被引量:7
3
作者 曹冬磊 田四化 金蓓弘 《计算机工程》 EI CAS CSCD 北大核心 2006年第19期49-50,53,共3页
通过优化XML词法和语法处理以及构造轻量级体系结构,实现了支持SAX的高效XML解析器――OnceSAXParser。文中还将OnceSAXParser与目前最流行的XML解析器Xerces进行了对比分析和性能测试,结果显示OnceSAXParser的性能比Xerces平均提高了27... 通过优化XML词法和语法处理以及构造轻量级体系结构,实现了支持SAX的高效XML解析器――OnceSAXParser。文中还将OnceSAXParser与目前最流行的XML解析器Xerces进行了对比分析和性能测试,结果显示OnceSAXParser的性能比Xerces平均提高了27%以上。 展开更多
关键词 XML解析器 SAX 性能优化
在线阅读 下载PDF
基于面向对象概念的PARSER
4
作者 杨闯 费翔林 《小型微型计算机系统》 CSCD 北大核心 1996年第10期16-23,共8页
本文给出了一个骨架:如何用类以及类分层来建造一个递归下降扫描程序。使用类来组织Parser的实现有很多优点,促使程序易于理解和修改,能方便地实现从BNF生成规则到Parser生成的自动处理。
关键词 扫描程序 面向对象 parser 程序设计
在线阅读 下载PDF
工业机器人语言的词法语法分析器研究 被引量:9
5
作者 郑炳坤 叶峰 +1 位作者 赵崇裕 赖乙宗 《机械设计与制造》 北大核心 2014年第1期209-212,共4页
解释器与编译器是把工业机器人语言程序翻译成目标代码的两种主要语言处理器实现技术,但二者的翻译过程都离不开词法语法分析环节。词法分析器主要用于识别语言系统的标识符及关键字等标记,而语法分析器则对这些标记所组成的句子进行语... 解释器与编译器是把工业机器人语言程序翻译成目标代码的两种主要语言处理器实现技术,但二者的翻译过程都离不开词法语法分析环节。词法分析器主要用于识别语言系统的标识符及关键字等标记,而语法分析器则对这些标记所组成的句子进行语法检查等。高效准确的词法语法分析是实现工业机器人语言程序向可执行目标代码翻译的关键之一。提出以C语言为蓝本的动作级工业机器人语言的体系结构及指令集;采用Parser Generator工具来开发词法语法分析器,运用正则表达式和LR文法来描述扩展工业机器人语言的词法语法规则,并指出了非法格式的错误报告实现。对所开发的可视化分析器进行的实例测试表明,分析结果正确可靠。 展开更多
关键词 词法语法分析 工业机器人语言 parser GENERATOR 正则表达式 LR文法
在线阅读 下载PDF
基于文档集的生物信息挖掘模型研究 被引量:2
6
作者 孙红敏 姜楠楠 李想 《计算机工程与应用》 CSCD 北大核心 2016年第24期102-106,188,共6页
针对生物医学文献的数量急剧增长,人工从文献中获取所需要的信息已不能适应生物医学文献数量迅速生长的需要。利用Stanford Parser等开源工具,采用自然语言处理技术、统计学等多种方法,提出了一种新型的生物信息挖掘模型,并对其关键技... 针对生物医学文献的数量急剧增长,人工从文献中获取所需要的信息已不能适应生物医学文献数量迅速生长的需要。利用Stanford Parser等开源工具,采用自然语言处理技术、统计学等多种方法,提出了一种新型的生物信息挖掘模型,并对其关键技术进行分析。该模型在对全文文本SBQTL(Soybean Quantitative Trait Loci)测试中父母本信息提取的准确率和召回率分别为93.0%和78.4%;在对Pub Med测试中,准确率和召回率分别为94.3%和80.0%。解决了生物医学研究者从海量文献中更有效、快速地找到所需信息的问题,以便生物学家发现隐藏的生物医学知识并验证得到新的科学发现,从而使人们对生物医学现象的认识得到了提高。 展开更多
关键词 文本挖掘 STANFORD parser 文本预处理 依存关系 信息抽取
在线阅读 下载PDF
XML在工作流理论中的应用 被引量:2
7
作者 张莹 王昭顺 黄河 《计算机工程与设计》 CSCD 北大核心 2006年第18期3501-3503,共3页
通过对XML的基本概念和工作流理论的研究和学习,介绍了XML的基本概念及其在工作流理论中应用,并在此基础上结合了将XML应用在有限状态机中,设计实现了一个XML在工作流理论中的典型应用:自动语音应答(interactivevoiceresponse,IVR)系统... 通过对XML的基本概念和工作流理论的研究和学习,介绍了XML的基本概念及其在工作流理论中应用,并在此基础上结合了将XML应用在有限状态机中,设计实现了一个XML在工作流理论中的典型应用:自动语音应答(interactivevoiceresponse,IVR)系统,主要包括IVRBuilder、IVRParser两部分,论证了将XML应用于工作流理论中的可行性和可扩展性,并使工作流的执行效率有很大提高。 展开更多
关键词 工作流 有限状态机 可扩展标记语言 IVR BUILDER IVR parser
在线阅读 下载PDF
基于GML的WebGIS应用研究 被引量:43
8
作者 罗英伟 汪小林 +1 位作者 马坚 许卓群 《计算机工程》 CAS CSCD 北大核心 2002年第7期15-16,共2页
GML(Geography Markup )已逐渐成为大家所接受并容易理解的一种空间信息的交换格式,基于的大众化应LanguageGMLWebGIS用将具有广泛的实用价值和市场前景,这包括基于的空间数据交易以及以数据为基础的大众化应用。基于技GMLGMLWebGISXML ... GML(Geography Markup )已逐渐成为大家所接受并容易理解的一种空间信息的交换格式,基于的大众化应LanguageGMLWebGIS用将具有广泛的实用价值和市场前景,这包括基于的空间数据交易以及以数据为基础的大众化应用。基于技GMLGMLWebGISXML Parser术,探讨了一个实现基于的大众化应用系统的建设方法,为大众化应用提供了有益的参考。 展开更多
关键词 GML WEBGIS 地理信息系统 空间数据 XML
在线阅读 下载PDF
Wireshark环境下的网络协议解析与验证方法 被引量:58
9
作者 罗青林 徐克付 +1 位作者 臧文羽 刘金刚 《计算机工程与设计》 CSCD 北大核心 2011年第3期770-773,共4页
网络协议解析通过程序分析网络数据包的协议头及其负载,是一系列网络功能的基础。分析了Wireshark的功能、作用、体系结构以及开发环境,给出了Wireshark在Windows系统下对网络协议解析的两种方法,总结了两种方法的特性。实验结果表明,... 网络协议解析通过程序分析网络数据包的协议头及其负载,是一系列网络功能的基础。分析了Wireshark的功能、作用、体系结构以及开发环境,给出了Wireshark在Windows系统下对网络协议解析的两种方法,总结了两种方法的特性。实验结果表明,在两种方式下添加的协议解析器都能正确解析网络数据包相应协议并分析数据包的负载内容,对网络协议的解析与验证及网络数据包的内容分析具有借鉴意义。 展开更多
关键词 WIRESHARK 网络协议 协议树 协议提交 协议解析
在线阅读 下载PDF
Web页面清洗技术的研究与实现 被引量:20
10
作者 周源远 王继成 +1 位作者 郑刚 张福炎 《计算机工程》 CAS CSCD 北大核心 2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的... 文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。 展开更多
关键词 WEB页面 清洗技术 文本块 链接块 DOM 解析器 Internet 信息检索
在线阅读 下载PDF
一种网上数据交换的新技术-XML的分析和实现 被引量:19
11
作者 谢用辉 张宝行 +1 位作者 柳勇 王海霞 《计算机工程与应用》 CSCD 北大核心 2002年第5期153-155,171,共4页
随着网络技术的发展,应用的体系结构从二层体系结构发展到三层体系结构,而且应用间通过网络交换数据日益频繁。该文提出了利用XML技术实现三层应用体系结构的中间层的网上数据交换模型,详细分析了实现过程中的关键问题。然后给出了使用... 随着网络技术的发展,应用的体系结构从二层体系结构发展到三层体系结构,而且应用间通过网络交换数据日益频繁。该文提出了利用XML技术实现三层应用体系结构的中间层的网上数据交换模型,详细分析了实现过程中的关键问题。然后给出了使用它改造劳动力信息系统的实例。最后对采用该模型的优缺点作了进一步分析。它实现简单,可扩展性好,并且易于集成各种遗留系统。 展开更多
关键词 INTERNET 网上数据交换 新技术 XML 客户/服务器
在线阅读 下载PDF
基于语义依存线索的事件关系识别方法研究 被引量:15
12
作者 马彬 洪宇 +2 位作者 杨雪蓉 姚建民 朱巧明 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期109-116,共8页
以事件为基本语义单元,基于事件的篇章结构信息及语义特征,通过分析事件的语义依存关系及其在演化过程中的语义依存规律,提出基于语义依存线索的事件关系识别方法,实现事件语义关系的浅层检测:判定事件之间是否存在语义关系。实验结果显... 以事件为基本语义单元,基于事件的篇章结构信息及语义特征,通过分析事件的语义依存关系及其在演化过程中的语义依存规律,提出基于语义依存线索的事件关系识别方法,实现事件语义关系的浅层检测:判定事件之间是否存在语义关系。实验结果显示,相比于传统的基于语义相似度的识别方法,新提出的基于事件语义依存线索的事件关系识别方法获得了5%的性能提升。 展开更多
关键词 依存线索 依存分析 虚拟依存事件 事件关系
在线阅读 下载PDF
Web文档清洗系统中HTML解析器的开发 被引量:7
13
作者 王强 王继成 +1 位作者 武港山 张福炎 《计算机应用研究》 CSCD 北大核心 2002年第2期54-57,共4页
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无... 对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典。 展开更多
关键词 HTML解析器 词法器 递归下降 文档清洗系统 WEB INTERNET
在线阅读 下载PDF
一种基于特征矩阵的软件脆弱性代码克隆检测方法 被引量:13
14
作者 甘水滔 秦晓军 +1 位作者 陈左宁 王林章 《软件学报》 EI CSCD 北大核心 2015年第2期348-363,共16页
提出了一种基于特征矩阵的软件代码克隆检测方法.在此基础上,实现了针对多类脆弱性的检测模型.基于对脆弱代码的语法和语义特征分析,从语法分析树抽取特定的关键节点类型描述不同的脆弱性类型,将4种基本克隆类型细化拓展到更多类,通过... 提出了一种基于特征矩阵的软件代码克隆检测方法.在此基础上,实现了针对多类脆弱性的检测模型.基于对脆弱代码的语法和语义特征分析,从语法分析树抽取特定的关键节点类型描述不同的脆弱性类型,将4种基本克隆类型细化拓展到更多类,通过遍历代码片段对应的语法分析树中关键节点的数量,构造对应的特征矩阵.从公开漏洞数据库中抽取部分实例作为基本知识库,通过对代码进行基于多种克隆类型的聚类计算,达到了从被测软件代码中检测脆弱代码的目的.与基于单一特征向量的检测方法相比,对脆弱性特征的描述更加精确,更具有针对性,并且弥补了形式化检测方法在脆弱性类型覆盖能力上的不足.在对android-kernel代码的测试中发现了9个脆弱性.对不同规模软件代码的测试结果表明,该方法的时间开销和被测代码规模成线性关系. 展开更多
关键词 脆弱性检测 代码克隆 语法分析树 特征矩阵
在线阅读 下载PDF
XML的数据库存储技术研究 被引量:31
15
作者 李由 黄凯歌 汤大权 《计算机应用研究》 CSCD 北大核心 2002年第4期60-62,共3页
针对XML的特点 ,探讨了XML的存取方法和研究现状 ,重点研究了XML在关系数据库中的存储方法 。
关键词 XML 数据库 存储技术 文档
在线阅读 下载PDF
一种嵌入式浏览器的核心技术及特色 被引量:16
16
作者 周正勇 阳富民 胡贯荣 《计算机工程与设计》 CSCD 2003年第3期21-23,共3页
随着嵌入式系统广泛应用于消费电子和通信领域,嵌入式浏览器成为嵌入式网络应用的热点。介绍了设计并实现的嵌入式浏览器的主要特点,描述了浏览器核心模块主要功能的实现技术。
关键词 嵌入式浏览器 软件代码 解析模块 网页
在线阅读 下载PDF
基于XML的EtherCAT工业以太网协议解析技术 被引量:22
17
作者 刘喆 郇极 刘艳强 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2011年第9期1086-1090,共5页
重点研究了基于可扩展标记语言(XMLe,Xtensible Markup Language)的Eth-erCAT工业以太网协议解析器技术和实现方法.介绍了EtherCAT协议报文格式和特点,分析了以太网数据侦听器和协议解析器的结构,针对通用以太网解析器在工业以太网领域... 重点研究了基于可扩展标记语言(XMLe,Xtensible Markup Language)的Eth-erCAT工业以太网协议解析器技术和实现方法.介绍了EtherCAT协议报文格式和特点,分析了以太网数据侦听器和协议解析器的结构,针对通用以太网解析器在工业以太网领域应用的局限性,提出使用XML语言描述协议报文的方法,在此基础上开发出一种开放式、可重构的EtherCAT协议解析器.实验结果表明基于XML的协议报文描述方法及解析器能够有效地描述和解析EtherCAT协议报文,使用者可以根据解析对象格式使用XML语言自定义、修改和扩展协议解析规则,获得清晰、直观的解析结果. 展开更多
关键词 可扩展标记语言 工业以太网 ETHERCAT 协议解析器
在线阅读 下载PDF
基于句法分析的跨语言情感分析 被引量:7
18
作者 陈强 何炎祥 +3 位作者 刘续乐 孙松涛 彭敏 李飞 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期55-60,共6页
利用句法分析模型,将语句分成若干组合词,根据组合词的主谓成分中情感词对于句子情感贡献的不同,分别赋予不同的权重。统计分析该语句的情感分布特征,利用得到的特征参数训练分类器,再将训练好的分类器用于测试语料的情感分类。实验结... 利用句法分析模型,将语句分成若干组合词,根据组合词的主谓成分中情感词对于句子情感贡献的不同,分别赋予不同的权重。统计分析该语句的情感分布特征,利用得到的特征参数训练分类器,再将训练好的分类器用于测试语料的情感分类。实验结果表明,与已有的判别方法相比,该方法的情感分类判别准确率较理想。此方法也可用于语句的比较级判别和否定句的极性判断等。 展开更多
关键词 跨语言 情感分类 句法分析 贝叶斯分类
在线阅读 下载PDF
一种提高中文搜索引擎检索质量的HTML解析方法 被引量:20
19
作者 宋睿华 马少平 +1 位作者 陈刚 李景阳 《中文信息学报》 CSCD 北大核心 2003年第4期19-26,共8页
中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大... 中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。 展开更多
关键词 中文搜索引擎 检索质量 HTML解析方法 网页噪声 分块模型 网页去噪 中文信息处理
在线阅读 下载PDF
嵌入式浏览器的设计与实现 被引量:12
20
作者 阳富民 李俊 +1 位作者 周正勇 胡贯荣 《计算机工程与科学》 CSCD 2003年第4期39-41,共3页
本文介绍了我们自行设计并实现的嵌入式浏览器JlBrowser的总体结构,详细描述了Jl Browser浏览器核心模块主要功能的实现技术,阐述了JlBrowser的特点。
关键词 嵌入式浏览器 设计 网页 解析模块 计算机网络
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部