-
题名MS-DOC文件文本提取研究
被引量:1
- 1
-
-
作者
黄步根
伏娟
-
机构
江苏警官学院计算机信息与网络安全系
淮安市公安局
-
出处
《计算机工程与科学》
CSCD
北大核心
2014年第8期1505-1511,共7页
-
基金
国家社会科学基金资助项目(13BTQ046)
公安技术
江苏省高等学校"十二五"重点学科建设专项资金资助
-
文摘
关键词搜索广泛应用于情报分析、搜索引擎和计算机取证,对MS-DOC文件进行关键词搜索可能漏判,明明存在的关键词却找不到。微软复合文档结构由一系列流组成,流以扇区为单位存储,通过目录结构和扇区分配表对流及其存储空间进行管理。MS-DOC文件中的文本存储在WordDocument流中,文本存储不一定连续,通过Table流记录分块情况。关键词可能跨越不相邻扇区,即使在相邻扇区,一个关键词可能一部分是压缩存储,另一部分是非压缩存储,这些都是关键词搜索漏判的原因。根据Table流中的分块信息提取WordDocument流中的文本,并统一编码格式,进而进行关键词搜索,就可以避免漏判。
-
关键词
复合文档
文本提取
关键词
搜索
计算机取证
-
Keywords
compound document
text extraction
keyword
search
computer forensics
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-