-
题名基于双向LSTM网络的流式文档结构识别
被引量:10
- 1
-
-
作者
张真
李宁
田英爱
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京信息科技大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2020年第1期60-66,73,共8页
-
基金
国家重点研发计划“私有云环境下服务化智能办公系统平台”(2018YFB1004100)
国家自然科学基金“流式文档排版格式的智能化分析与优化方法”(61672105)
-
文摘
流式文档结构识别对于排版格式自动优化和信息提取等具有重要作用。基于规则的结构识别方法泛化能力较差,而基于机器学习的方法未考虑文档单元之间的长距离依赖关系,识别准确率较低。针对该问题,提出一种基于双向长短期时间记忆(LSTM)网络的流式文档结构识别方法。从文档单元的格式、内容与语义3个方面筛选关键特征,并将文档结构识别看作序列标注问题,使用双向LSTM神经网络构建识别模型,以实现对18种逻辑标签的识别。实验结果表明,该方法能够对文档结构进行有效识别,其识别效果优于方正飞翔软件。
-
关键词
文档结构识别
流式文档
特征提取
序列标注
长短期时间记忆网络
-
Keywords
document structure recognition
stream document
feature extraction
sequence labeling
Long Short-Term Memory(LSTM)network
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向机器学习的流式文档逻辑结构标注方法研究
被引量:4
- 2
-
-
作者
刘倩
李宁
田英爱
-
机构
北京信息科技大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2019年第9期50-59,78,共11页
-
基金
国家自然科学基金(61672105)
国家重点研发计划(2018YFB1004100)
-
文摘
针对采用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题,该文在研究文档的逻辑结构和编辑语义特征的基础上,确立流式文档逻辑结构标注体系,并提出一种三段式的半自动文档逻辑结构标注方法:第一阶段通过机助人工实现文档元数据的分离式标注,第二阶段自动重建逻辑结构,第三阶段自动填充特征向量。实验结果表明,该文提出的文档逻辑结构标注方法能够节省人工成本、提高机器学习算法对文档结构识别的准确率与召回率,F值达到97.5%。
-
关键词
结构标注
文档结构识别
机器学习
-
Keywords
structure annotation
document structure recognition
machine learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-