期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于正则表达式的专利信息提取方法研究 被引量:15
1
作者 邱清盈 郑国民 +1 位作者 冯培恩 武建伟 《中国机械工程》 EI CAS CSCD 北大核心 2007年第19期2326-2329,共4页
针对图像格式专利文献难以进行全文检索和深入分析利用的问题,根据专利文献的结构特点,通过集成光学字符识别工具和建立具有容错性的专利信息提取正则表达式,提出了专利文献的数字化和信息提取方法。开发了相应的软件系统,实现了专利信... 针对图像格式专利文献难以进行全文检索和深入分析利用的问题,根据专利文献的结构特点,通过集成光学字符识别工具和建立具有容错性的专利信息提取正则表达式,提出了专利文献的数字化和信息提取方法。开发了相应的软件系统,实现了专利信息的批量提取,为后续高效率地对专利文献进行自动分析和知识挖掘提供了数据基础。 展开更多
关键词 专利分析 信息提取 正则表达式 设计知识
在线阅读 下载PDF
ReDE:一个基于正则表达式的生物数据抽取方法 被引量:8
2
作者 邓绪斌 朱扬勇 《计算机研究与发展》 EI CSCD 北大核心 2005年第12期2184-2191,共8页
从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据,充分利用这种依赖关系可降低维护工作量·基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系... 从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据,充分利用这种依赖关系可降低维护工作量·基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系数据库模式生成算法和通用抽取与组装算法,其特点是:RE是惟一的元数据,易于管理和维护·该方法奠定了生物数据库辅助设计工具和高自动化抽取工具的基础,已用于构建国内第1个整合的生物信息在线数据仓库· 展开更多
关键词 生物数据源 数据抽取 元数据 正则表达式 抽取算法
在线阅读 下载PDF
基于单元识别的网页信息抽取方法 被引量:1
3
作者 柳永念 钟诚 焦小焦 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第5期787-791,共5页
建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法。分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率。
关键词 单元识别 信息抽取 父亲结构树 HTMLPARSER 正则表达式
在线阅读 下载PDF
基于C#正则表达式的农业文献管理系统的研究与应用 被引量:1
4
作者 杨波 张立娜 《安徽农业科学》 CAS 2012年第5期2988-2990,共3页
利用PDFBOX和正则表达式批量提取已下载到本地的PDF格式农业文献的元数据,建立农业文献信息关系型数据库,根据需要建立农业文献管理系统,提高农业文献利用效率和科研效率。在C#环境下,对PDFBOX进行封装,利用数据流的写入功能将PDF格式... 利用PDFBOX和正则表达式批量提取已下载到本地的PDF格式农业文献的元数据,建立农业文献信息关系型数据库,根据需要建立农业文献管理系统,提高农业文献利用效率和科研效率。在C#环境下,对PDFBOX进行封装,利用数据流的写入功能将PDF格式的农业文献的二进制内容以简体中文输出,再利用正则表达式设计规则模型批量提取相关元数据。 展开更多
关键词 PDF PDFBOX 正则表达式 元数据 提取
在线阅读 下载PDF
基于HTML解析器的Web信息提取技术 被引量:1
5
作者 王琳琳 《郑州轻工业学院学报(自然科学版)》 CAS 2008年第6期100-102,106,共4页
提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.
关键词 WEB信息提取 正则表达式 HTML解析器 主题信息
在线阅读 下载PDF
基于多种规则的课程元数据自动抽取 被引量:7
6
作者 杨宇 张铭 周宝曜 《计算机科学》 CSCD 北大核心 2008年第3期94-96,共3页
在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台。作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力。本文设计并实现了一种按照指定规则... 在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台。作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力。本文设计并实现了一种按照指定规则自动抽取的元数据方法。该方法能够按照多优先级规则匹配网页元数据,并按照两步抽取的方法进行精细化处理。针对不同的问题域使用不同规则抽取,不需对程序进行特定修改。实验证明,这种方法能够很好地处理半结构化网页,F测度达到85%以上,具有较好的实用价值。 展开更多
关键词 元数据抽取 正则表达式 信息精化
在线阅读 下载PDF
基于GRETA正则表达式的机器人解释器的研究 被引量:7
7
作者 何嘉健 李伟光 《组合机床与自动化加工技术》 北大核心 2012年第1期17-19,24,共4页
为了解决传统解释器编译过程复杂,效率低的问题,提出了一种基于GRETA正则表达式的工业机器人解释器的实现方法。利用GRETA正则表达式建立字符匹配表和语法规则后,该解释器即可方便地对指令代码进行解释处理,包括:词法分析、语法分析、... 为了解决传统解释器编译过程复杂,效率低的问题,提出了一种基于GRETA正则表达式的工业机器人解释器的实现方法。利用GRETA正则表达式建立字符匹配表和语法规则后,该解释器即可方便地对指令代码进行解释处理,包括:词法分析、语法分析、语义分析和信息提取。实验表明,该解释器可实现对机器人指令集的正确解释和信息提取,并为机器人控制的开放性和高效性奠定基础。 展开更多
关键词 解释器 GRETA正则表达式 词法分析 语法分析 语义分析 信息提取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部