-
题名基于文档结构与深度学习的金融公告信息抽取
被引量:10
- 1
-
-
作者
黄胜
王博博
朱菁
-
机构
重庆邮电大学通信与信息工程学院
重庆邮电大学光通信与网络重点实验室
深圳证券信息有限公司数据中心
-
出处
《计算机工程与设计》
北大核心
2020年第1期115-121,共7页
-
基金
国家自然科学基金项目(61371096)
-
文摘
针对金融类公告中的结构化数据难以被高效快速提取的问题,提出一种基于文档结构与Bi-LSTM-CRF网络模型的信息抽取方法。自定义一种文档结构树生成算法,利用规则从文档结构树中抽取所需节点信息;构建基于信息句触发词的局部句子规则,抽取包含结构化字段信息的信息句;将字段的结构化信息抽取看作序列标注问题,分词时加入领域知识词典,构建基于Bi-LSTM-CRF的神经网络模型进行字段信息识别。实验结果表明,该信息抽取方法可以满足多类型公告的结构化信息提取,最终的信息句与字段信息抽取的平均F1值均可达到91%以上,验证了该方法在产品业务中的可行性和实用性。
-
关键词
公告
信息抽取
神经网络
文档结构树
序列标注
-
Keywords
announcement
information extraction
neural network
document structure tree
sequence labeling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向并购重组类公告的信息抽取
被引量:2
- 2
-
-
作者
黄胜
李胜
朱菁
-
机构
重庆邮电大学通信与信息工程学院
重庆邮电大学光通信与网络重点实验室
深圳证券信息有限公司数据中心
-
出处
《计算机工程与设计》
北大核心
2020年第5期1420-1426,共7页
-
基金
国家自然科学基金项目(61371096)。
-
文摘
并购重组类公告是上市公司进行信息披露的重要组成,属于具有一定格式规范的自由长文本。针对公告文本特点,借鉴降维思想,提出规则法和序列标注法相结合的联合信息抽取方案。采用规则法,抽取关键句子集合,将“篇章级”抽取缩小为“句子级”抽取;采用序列标注法,构建基于双向门控循环(BiGRU)网络和注意力机制(Attention)的序列标注模型,实现“句子级”到“字段级”的抽取。实验结果表明,该方案在并购重组类公告信息抽取任务中,取得了平均F1值0.92的较好结果,验证其具有一定的可行性和实用性。
-
关键词
信息抽取
自由长文本
规则法
序列标注法
双向门控循环网络
注意力机制
-
Keywords
information extraction
free-long text
rule
sequence labeling
bidirectional gated recurrent unity(BiGRU)
attention mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-