期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
MS-DOC文件文本提取研究 被引量:1
1
作者 黄步根 伏娟 《计算机工程与科学》 CSCD 北大核心 2014年第8期1505-1511,共7页
关键词搜索广泛应用于情报分析、搜索引擎和计算机取证,对MS-DOC文件进行关键词搜索可能漏判,明明存在的关键词却找不到。微软复合文档结构由一系列流组成,流以扇区为单位存储,通过目录结构和扇区分配表对流及其存储空间进行管理。MS-DO... 关键词搜索广泛应用于情报分析、搜索引擎和计算机取证,对MS-DOC文件进行关键词搜索可能漏判,明明存在的关键词却找不到。微软复合文档结构由一系列流组成,流以扇区为单位存储,通过目录结构和扇区分配表对流及其存储空间进行管理。MS-DOC文件中的文本存储在WordDocument流中,文本存储不一定连续,通过Table流记录分块情况。关键词可能跨越不相邻扇区,即使在相邻扇区,一个关键词可能一部分是压缩存储,另一部分是非压缩存储,这些都是关键词搜索漏判的原因。根据Table流中的分块信息提取WordDocument流中的文本,并统一编码格式,进而进行关键词搜索,就可以避免漏判。 展开更多
关键词 复合文档 文本提取 关键词 搜索 计算机取证
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部