-
题名基于文本信息的PDF文档管理系统设计与实现
被引量:7
- 1
-
-
作者
王春伟
侯方
申升
南赛
李英伟
-
机构
燕山大学信息科学与工程学院
大庆油田信息技术公司北京分公司
-
出处
《燕山大学学报》
CAS
北大核心
2020年第6期603-608,共6页
-
基金
国家自然科学基金资助项目(61827811)。
-
文摘
随着信息化应用程度不断提高,企业中越来越多的文本信息被存储在PDF文档中,PDF文档的数量也随之变大,为了帮助用户尽快找到需求的文本信息,并建立企业知识共享平台,本文设计了一种基于文本信息的PDF文档管理系统。首先,针对PDF文档文本信息利用率不足的问题,研究了基于Stream流的PDF文档解析方案,该方案可以用于PDF文档检索模块来进行PDF文本内容解析;其次,针对TF-IDF算法的天然缺陷,从词频、文本长度和关键词位置进行改进,进而计算得到关键词的权重值,再通过空间向量模型计算PDF文档的相似度,按照文档的权重值进行排序;最后,进行系统与功能的验证,证明了本文PDF文档管理系统内容查询具有更高准确性,为企业级智能文档管理平台提供有效和实用的方案。
-
关键词
文本信息
文件解析
文档检索
权重值
-
Keywords
text information
file parsing
document retrieval
weight value
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-