-
题名基于SVM和扩展条件随机场的Web实体活动抽取
被引量:16
- 1
-
-
作者
张传岩
洪晓光
彭朝晖
李庆忠
-
机构
山东大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2012年第10期2612-2627,共16页
-
基金
国家自然科学基金(61003051)
国家科技支撑计划(2009BAH44B02)
+1 种基金
山东省自然科学基金(2009ZRB019RW)
山东省科技攻关计划(2010GGX10108)
-
文摘
在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取.
-
关键词
信息抽取
格语法
实体活动
支持向量机
扩展条件随机场
-
Keywords
information extraction
case grammar
entity activity
support vector machine
extended condition random fields
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于ON-LSTM的业务过程模型深度自动生成
被引量:1
- 2
-
-
作者
朱锐
吕昌龙
李彤
何亚辉
刘航
张存明
陈晔婷
-
机构
云南大学软件学院
云南省软件工程重点实验室
云南农业大学大数据学院
云南师范大学经济与管理学院
-
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2022年第10期3225-3237,共13页
-
基金
国家自然科学基金资助项目(62002310)
云南省重大科技专项计划资助项目(202002AD080002)
+2 种基金
云南省自然科学基金基础研究面上资助项目(202101AT070004)
云南省软件工程重点实验室开放基金资助项目(2020SE404)
云南哲学社会科学青年资助项目(QN2020024)。
-
文摘
为打破现有过程挖掘算法在日志缺失时无法使用带来的局限性,基于现有的深度学习、自然语言处理技术基础,提出一种新颖的从过程文本描述中深度自动生成业务过程模型的方法。对现有命名实体方法进行改进,通过BERT,BiLSTM,CRF构建活动实体识别模型,提出面向业务过程的活动实体识别方法;将语言模型从句子级别扩展到文档级别,提出一种通过递归体系结构有序神经网络(ON-LSTM)无监督地发现过程描述文档中所蕴含的活动实体间潜在的层次结构;通过活动实体的层次深度原则,将层次结构树转化为业务过程模型。通过对人工采集与标注的150个真实的SAP产品用户指南文本作为训练数据进行实验,并在ON-LSTM基础上采用K折交叉验证思想对数据进行多次分组实验,验证了所提方法的有效性。
-
关键词
深度学习
业务过程发现
活动实体
层次结构
有序神经长短期记忆网络
-
Keywords
deep learning
business process discovery
active entity
hierarchical structure
ordered neurons long short term memory
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-