期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于自动机理论的PDF文本内容抽取
被引量:
8
1
作者
王晓娟
谭建龙
+1 位作者
刘燕兵
刘金刚
《计算机应用》
CSCD
北大核心
2012年第9期2491-2495,共5页
现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理。为此,提出了基于自动机理论的PDF文本内容抽取方法。该方法通过建立具...
现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理。为此,提出了基于自动机理论的PDF文本内容抽取方法。该方法通过建立具有层次的关键字自动机,可以快速地抽取完整PDF文档和不完整PDF文档中的文本内容。在中文和英文PDF文档数据集下的实验结果表明,基于自动机理论的PDF文本内容抽取方法耗时仅为PDFBox方法的17%~37%。
展开更多
关键词
文本内容抽取
自动机
确定的有穷自动机
不完整文档
在线阅读
下载PDF
职称材料
题名
基于自动机理论的PDF文本内容抽取
被引量:
8
1
作者
王晓娟
谭建龙
刘燕兵
刘金刚
机构
首都师范大学计算机科学联合研究院
中国科学院计算技术研究所
中国科学院研究生院
出处
《计算机应用》
CSCD
北大核心
2012年第9期2491-2495,共5页
基金
国家自然科学基金资助项目(61070026)
国家863计划项目(2011AA010705)
文摘
现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理。为此,提出了基于自动机理论的PDF文本内容抽取方法。该方法通过建立具有层次的关键字自动机,可以快速地抽取完整PDF文档和不完整PDF文档中的文本内容。在中文和英文PDF文档数据集下的实验结果表明,基于自动机理论的PDF文本内容抽取方法耗时仅为PDFBox方法的17%~37%。
关键词
文本内容抽取
自动机
确定的有穷自动机
不完整文档
Keywords
text content extraction
automaton
Deterministic Finite Automation (DFA)
incomplete document
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于自动机理论的PDF文本内容抽取
王晓娟
谭建龙
刘燕兵
刘金刚
《计算机应用》
CSCD
北大核心
2012
8
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部