-
题名基于频繁子树模式的评价对象抽取
被引量:1
- 1
-
-
作者
田卫东
苗惠君
-
机构
合肥工业大学计算机与信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第4期222-227,共6页
-
基金
国家"863"计划项目(2012AA011005)
国家自然科学基金(61273292)
情感计算与先进智能机器安徽省重点实验室开放课题(ACAIM2015xxx)
-
文摘
现有的评价对象抽取方法多基于启发式规则或者基于词性、词形等特征的机器学习方法,未能较好地利用依存分析所揭示出的深层句法关联关系。为此,基于从依存关系树库所挖掘的频繁树模式,提出一种针对中文评论性短文本的评价对象抽取方法。该方法基于依存关系频繁子树模式进行短文本的初始标注,采用错误驱动框架的方法提炼出能反映评价对象特征的频繁子树模式有序模式规则集,并利用该规则集进行评价对象的抽取。实验结果表明,该方法具有较好的稳定性与准确性,在召回率和F1值等评价指标上优于基于支持向量机的方法。
-
关键词
依存句法
短文本
频繁子树模式
错误驱动
支持向量机
-
Keywords
dependency syntax
short text
frequent sub-tree pattern
error driven
Support Vector Machine (SVM)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于频繁依存子树模式的中心词提取方法研究
被引量:1
- 2
-
-
作者
田卫东
虞勇勇
-
机构
合肥工业大学计算机与信息学院
-
出处
《中文信息学报》
CSCD
北大核心
2016年第3期133-142,共10页
-
基金
国家863高技术研究发展计划资助项目(2012AA011005)
国家自然科学基金(61273292)
-
文摘
条件随机场模型通过抓取问句中心词各方面统计特征来进行中心词标注,但未能充分利用中心词特征间存在的深层统计关系。该文利用中文问句的依存关系树结构,通过挖掘问句依存关系树所蕴藏的中心词各维度特征之间的统计概率关系,为正确提取中心词提供依据,通过挖掘频繁依存子树模式以生成相应统计规则模式,使用条件随机场模型进行中心词初始标注,使用频繁依存子树模式统计规则进行中心词标注校正等。该文方法属于典型的客观方法,建立在严格的统计语料基础上,标注的稳定性、适应性和鲁棒性较好。实验结果表明,该文方法将条件随机场模型的中心词标注准确率提高约3%。
-
关键词
中心词
依存关系树
条件随机场
频繁子树模式
-
Keywords
focus
dependency tree
CRF
frequent subtree pattern
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于频繁子树模式的半结构化数据集聚类
被引量:6
- 3
-
-
作者
李巍
廖雪花
杨军
-
机构
四川师范大学计算机科学学院
-
出处
《计算机工程与设计》
北大核心
2022年第10期2783-2789,共7页
-
基金
国家社会科学基金项目(20BMZ092)
四川省教育厅科技计划基金项目(16ZB0070)。
-
文摘
为提高大数据时代半结构化数据集聚类分析效率,提出一种以数据集频繁子树模式为特征的半结构化数据集聚类方法。提出一种频繁子树模式挖掘方法FSTPMiner,使用“编码树”数据结构对半结构化数据进行编码,通过编码树将树结构频繁模式挖掘过程转化为线性表结构频繁模式挖掘,提高挖掘效率。使用频繁子树模式作为特征并构建特征向量空间,基于经典凝聚型层次聚类方法对半结构化文档数据集进行聚类。经过对照实验,与Costa算法、ICQB算法和Damalagas算法相比,在保证聚类结果正确率前提下,对半结构化数据集聚类效率方面具有优势。
-
关键词
大数据
半结构化数据
频繁子树模式
聚类
编码树
-
Keywords
big data
semi-structured data
frcquent subtrce pattcrn
cluster
coding tree
-
分类号
TP182
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于频繁结构的Deep Web查询接口集成
- 4
-
-
作者
赵晓蓉
周锦程
王丹
-
机构
黔南民族师范学院计算机科学系
贵州大学计算机科学与技术学院
黔南民族师范学院数学系
-
出处
《科学技术与工程》
北大核心
2014年第18期81-88,93,共9页
-
基金
贵州省联合基金项目(黔科合J字LKQS[2013]29号
黔科合J字LKQS[2013]13号)资助
-
文摘
随着网络规模的日益扩大,海量的信息被"深藏"于各类在线数据库中,用户只能通过查询接口才能获取其中的数据,这部分内容称之为Deep Web;因此对同一领域的Deep Web数据进行集成是非常必要的。查询接口的集成是其中一个非常关键的子问题。查询接口的集成分为模式匹配和模式集成两个步骤;重点研究集成查询接口中属性布局的确定。Deep Web中查询接口数量巨大,以及动态性与异构性的特点给该问题带来了巨大的挑战。将查询接口的结构建模成一棵树,然后通过挖掘频繁的模式子树来构建集成的查询接口树,使其最大化地满足属性间的结构约束和顺序约束。该算法具有较低的时间复杂度,并具有很好的扩展性,对八个领域的查询接口进行集成的实验结果证明了算法的有效性。
-
关键词
频繁结构
查询接口
属性布局
模式子树
查询接口树
-
Keywords
frequent structure query interface attribute layout pattern sub tree queryinterface tree
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-