期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于双向LSTM网络的流式文档结构识别 被引量:10
1
作者 张真 李宁 田英爱 《计算机工程》 CAS CSCD 北大核心 2020年第1期60-66,73,共8页
流式文档结构识别对于排版格式自动优化和信息提取等具有重要作用。基于规则的结构识别方法泛化能力较差,而基于机器学习的方法未考虑文档单元之间的长距离依赖关系,识别准确率较低。针对该问题,提出一种基于双向长短期时间记忆(LSTM)... 流式文档结构识别对于排版格式自动优化和信息提取等具有重要作用。基于规则的结构识别方法泛化能力较差,而基于机器学习的方法未考虑文档单元之间的长距离依赖关系,识别准确率较低。针对该问题,提出一种基于双向长短期时间记忆(LSTM)网络的流式文档结构识别方法。从文档单元的格式、内容与语义3个方面筛选关键特征,并将文档结构识别看作序列标注问题,使用双向LSTM神经网络构建识别模型,以实现对18种逻辑标签的识别。实验结果表明,该方法能够对文档结构进行有效识别,其识别效果优于方正飞翔软件。 展开更多
关键词 文档结构识别 流式文档 特征提取 序列标注 长短期时间记忆网络
在线阅读 下载PDF
面向机器学习的流式文档逻辑结构标注方法研究 被引量:4
2
作者 刘倩 李宁 田英爱 《中文信息学报》 CSCD 北大核心 2019年第9期50-59,78,共11页
针对采用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题,该文在研究文档的逻辑结构和编辑语义特征的基础上,确立流式文档逻辑结构标注体系,并提出一种三段式的半自动文档逻辑结构标注方法:第一阶段通过机助人工实现文... 针对采用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题,该文在研究文档的逻辑结构和编辑语义特征的基础上,确立流式文档逻辑结构标注体系,并提出一种三段式的半自动文档逻辑结构标注方法:第一阶段通过机助人工实现文档元数据的分离式标注,第二阶段自动重建逻辑结构,第三阶段自动填充特征向量。实验结果表明,该文提出的文档逻辑结构标注方法能够节省人工成本、提高机器学习算法对文档结构识别的准确率与召回率,F值达到97.5%。 展开更多
关键词 结构标注 文档结构识别 机器学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部