-
题名基于词汇-语义模式的金融事件信息抽取方法
被引量:17
- 1
-
-
作者
罗明
黄海量
-
机构
上海财经大学信息管理与工程学院
上海财经大学上海市金融信息技术研究重点实验室
-
出处
《计算机应用》
CSCD
北大核心
2018年第1期84-90,共7页
-
基金
上海市科技人才计划项目(14XD1421000)
上海市科技创新行动计划项目(16511102900)~~
-
文摘
信息抽取是自然语言处理工作中的重要任务之一。针对由于自然语言的多样性、歧义性和结构性而导致的信息抽取困难的问题,提出了一种面向金融事件信息抽取的层次化词汇-语义模式方法。首先,定义了一个金融事件表示模型;然后应用基于深度学习的词向量方法来实现自动生成同义概念词典;最后采用基于有限状态机驱动的层次化词汇-语义规则模式实现了对各类金融事件信息自动抽取的目标。实验结果表明,所提方法可以从金融新闻文本中准确地抽取出各类金融事件信息,并且对26类金融事件的微平均识别准确率达到93.9%,微平均召回率达到86.9%,微平均F1值达到90.3%。
-
关键词
词汇-语义模式
信息抽取
金融事件
词向量
词列表
概念词典
-
Keywords
Lexical-Semantic Pattern (LSP)
information extraction
financial event
word vector
word list
conceptgazetteer
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种基于语义标注特征的金融文本分类方法
被引量:9
- 2
-
-
作者
罗明
黄海量
-
机构
上海财经大学信息管理与工程学院
上海财经大学上海市金融信息技术研究重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第8期2281-2284,2288,共5页
-
基金
上海市科技人才计划项目(14XD1421000)
上海市科技创新行动计划项目(16511102900)
上海财经大学2014年研究生创新基金资助项目(CXJJ-2014-438)
-
文摘
针对基于词袋的机器学习文本分类方法所存在的高维度、高稀疏性、不能识别同义词、语义信息缺失等问题,和基于规则模式的文本分类所存在的虽然准确率较高但鲁棒性较差的问题,提出了一种采用词汇—语义规则模式从金融新闻文本中提取事件语义标注信息,并将其作为分类特征用于机器学习文本分类中的新方法。实验证明采用该方法相比基于词袋的文本分类方法在采用相同的特征选择算法和分类算法的基础上,F1值提高8.6%,查准率提高7.7%,查全率提高8.8%。本方法融合了知识驱动和数据驱动在文本分类中的优点,同时避免了它们所存在的主要缺点,具有显著的实用性和研究参考价值。
-
关键词
文本分类
金融文本
语义标注
词汇-语义模式
有限状态机
-
Keywords
text classification
financial text
semantic annotation
lexical-semantic pattern
finite state machine
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-