期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
术语定义抽取的特征选择框架 被引量:1
1
作者 潘湑 顾宏斌 赵芷晴 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2012年第3期399-404,共6页
为了进一步提升航空领域术语定义抽取的精度和效率,提出了一种不依赖已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概念间特征分布的差异对划分类别的贡献。在分析... 为了进一步提升航空领域术语定义抽取的精度和效率,提出了一种不依赖已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概念间特征分布的差异对划分类别的贡献。在分析该框架和传统过滤器特征选择方法对特征分布的影响的基础上,在航空领域术语定义语料库中对实验结果进行了对比。结果表明,本文提出的方法在使用平衡随机森林方法时,取得的最好成绩为F1-measure=0.652,F2-measure=0.761,所需特征比例从30%~40%降低到20%~30%;在使用直接分类方法时,F1-measure成绩提高了2.57倍,F2-measure成绩提高了3.11倍,均优于过滤器方法和Fisher Score方法。 展开更多
关键词 特征选择 不平衡语料 定义抽取 文本分类 小析取项
在线阅读 下载PDF
基于Spark和DN-gram模型的定义抽取研究 被引量:2
2
作者 于洁 《北京信息科技大学学报(自然科学版)》 2017年第4期64-68,74,共6页
从互联网海量文本中抽取出词语的定义对知识库的自动构建具有重要意义。针对定义抽取研究中N-gram语言模型携带的语义信息有限、容易产生大量稀疏数据的问题,提出了一种DN-gram语言模型。在N-gram基础上融入上下文词语间的语法依赖关系... 从互联网海量文本中抽取出词语的定义对知识库的自动构建具有重要意义。针对定义抽取研究中N-gram语言模型携带的语义信息有限、容易产生大量稀疏数据的问题,提出了一种DN-gram语言模型。在N-gram基础上融入上下文词语间的语法依赖关系,能表达更为丰富的语言学特征;采用词形和词性的组合代替只用词形的特征选取方法来降低稀疏数据的影响;引入TF-IDF定义隶属度进行特征降维;在Spark大数据平台下采用并行定义抽取管道将互联网文本转换成特征向量,使用随机森林分类器进行学习和训练,在实验中取得了较好效果。 展开更多
关键词 知识发现 文本分类 定义抽取 SPARK DN-gram
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部