期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于文本信息的PDF文档管理系统设计与实现 被引量:7
1
作者 王春伟 侯方 +2 位作者 申升 南赛 李英伟 《燕山大学学报》 CAS 北大核心 2020年第6期603-608,共6页
随着信息化应用程度不断提高,企业中越来越多的文本信息被存储在PDF文档中,PDF文档的数量也随之变大,为了帮助用户尽快找到需求的文本信息,并建立企业知识共享平台,本文设计了一种基于文本信息的PDF文档管理系统。首先,针对PDF文档文本... 随着信息化应用程度不断提高,企业中越来越多的文本信息被存储在PDF文档中,PDF文档的数量也随之变大,为了帮助用户尽快找到需求的文本信息,并建立企业知识共享平台,本文设计了一种基于文本信息的PDF文档管理系统。首先,针对PDF文档文本信息利用率不足的问题,研究了基于Stream流的PDF文档解析方案,该方案可以用于PDF文档检索模块来进行PDF文本内容解析;其次,针对TF-IDF算法的天然缺陷,从词频、文本长度和关键词位置进行改进,进而计算得到关键词的权重值,再通过空间向量模型计算PDF文档的相似度,按照文档的权重值进行排序;最后,进行系统与功能的验证,证明了本文PDF文档管理系统内容查询具有更高准确性,为企业级智能文档管理平台提供有效和实用的方案。 展开更多
关键词 文本信息 文件解析 文档检索 权重值
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部