期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
术语定义抽取的特征选择框架
被引量:
1
1
作者
潘湑
顾宏斌
赵芷晴
《南京航空航天大学学报》
EI
CAS
CSCD
北大核心
2012年第3期399-404,共6页
为了进一步提升航空领域术语定义抽取的精度和效率,提出了一种不依赖已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概念间特征分布的差异对划分类别的贡献。在分析...
为了进一步提升航空领域术语定义抽取的精度和效率,提出了一种不依赖已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概念间特征分布的差异对划分类别的贡献。在分析该框架和传统过滤器特征选择方法对特征分布的影响的基础上,在航空领域术语定义语料库中对实验结果进行了对比。结果表明,本文提出的方法在使用平衡随机森林方法时,取得的最好成绩为F1-measure=0.652,F2-measure=0.761,所需特征比例从30%~40%降低到20%~30%;在使用直接分类方法时,F1-measure成绩提高了2.57倍,F2-measure成绩提高了3.11倍,均优于过滤器方法和Fisher Score方法。
展开更多
关键词
特征选择
不平衡语料
定义抽取
文本分类
小析取项
在线阅读
下载PDF
职称材料
基于Spark和DN-gram模型的定义抽取研究
被引量:
2
2
作者
于洁
《北京信息科技大学学报(自然科学版)》
2017年第4期64-68,74,共6页
从互联网海量文本中抽取出词语的定义对知识库的自动构建具有重要意义。针对定义抽取研究中N-gram语言模型携带的语义信息有限、容易产生大量稀疏数据的问题,提出了一种DN-gram语言模型。在N-gram基础上融入上下文词语间的语法依赖关系...
从互联网海量文本中抽取出词语的定义对知识库的自动构建具有重要意义。针对定义抽取研究中N-gram语言模型携带的语义信息有限、容易产生大量稀疏数据的问题,提出了一种DN-gram语言模型。在N-gram基础上融入上下文词语间的语法依赖关系,能表达更为丰富的语言学特征;采用词形和词性的组合代替只用词形的特征选取方法来降低稀疏数据的影响;引入TF-IDF定义隶属度进行特征降维;在Spark大数据平台下采用并行定义抽取管道将互联网文本转换成特征向量,使用随机森林分类器进行学习和训练,在实验中取得了较好效果。
展开更多
关键词
知识发现
文本分类
定义抽取
SPARK
DN-gram
在线阅读
下载PDF
职称材料
题名
术语定义抽取的特征选择框架
被引量:
1
1
作者
潘湑
顾宏斌
赵芷晴
机构
南京航空航天大学民航学院
出处
《南京航空航天大学学报》
EI
CAS
CSCD
北大核心
2012年第3期399-404,共6页
基金
中国民航局民航应用研究基金(MHRD0723)资助项目
文摘
为了进一步提升航空领域术语定义抽取的精度和效率,提出了一种不依赖已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概念间特征分布的差异对划分类别的贡献。在分析该框架和传统过滤器特征选择方法对特征分布的影响的基础上,在航空领域术语定义语料库中对实验结果进行了对比。结果表明,本文提出的方法在使用平衡随机森林方法时,取得的最好成绩为F1-measure=0.652,F2-measure=0.761,所需特征比例从30%~40%降低到20%~30%;在使用直接分类方法时,F1-measure成绩提高了2.57倍,F2-measure成绩提高了3.11倍,均优于过滤器方法和Fisher Score方法。
关键词
特征选择
不平衡语料
定义抽取
文本分类
小析取项
Keywords
feature selection
unbalanced corpus
definition extraction
text categorization
small disjunct
分类号
TB941 [机械工程—测试计量技术及仪器]
在线阅读
下载PDF
职称材料
题名
基于Spark和DN-gram模型的定义抽取研究
被引量:
2
2
作者
于洁
机构
福建信息职业技术学院计算机工程系
出处
《北京信息科技大学学报(自然科学版)》
2017年第4期64-68,74,共6页
基金
福建省教育厅科技项目(JA11304)
文摘
从互联网海量文本中抽取出词语的定义对知识库的自动构建具有重要意义。针对定义抽取研究中N-gram语言模型携带的语义信息有限、容易产生大量稀疏数据的问题,提出了一种DN-gram语言模型。在N-gram基础上融入上下文词语间的语法依赖关系,能表达更为丰富的语言学特征;采用词形和词性的组合代替只用词形的特征选取方法来降低稀疏数据的影响;引入TF-IDF定义隶属度进行特征降维;在Spark大数据平台下采用并行定义抽取管道将互联网文本转换成特征向量,使用随机森林分类器进行学习和训练,在实验中取得了较好效果。
关键词
知识发现
文本分类
定义抽取
SPARK
DN-gram
Keywords
knowledge discovery
text classification
definition extraction
Spark
DN-gram
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
术语定义抽取的特征选择框架
潘湑
顾宏斌
赵芷晴
《南京航空航天大学学报》
EI
CAS
CSCD
北大核心
2012
1
在线阅读
下载PDF
职称材料
2
基于Spark和DN-gram模型的定义抽取研究
于洁
《北京信息科技大学学报(自然科学版)》
2017
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部