-
题名基于排序集成的自动术语识别方法
被引量:4
- 1
-
-
作者
粟超
-
机构
复旦大学计算机科学技术学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2012年第1期196-198,223,共4页
-
文摘
自动术语识别是信息抽取和文本挖掘等领域的关键步骤之一。基础自动术语识别算法采用某些方面的特征信息,有明显的局限性,引入局部Kemeny最优的方法来处理自动术语识别问题,并提出新的集成方法。实验结果表明该方法显著改善了自动术语识别的精准度。
-
关键词
排序集成
自动术语识别
文本挖掘
信息抽取
-
Keywords
Rank aggregation Automatic term recognition Text mining Information extraction
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名一种基于加权投票的术语自动识别方法
被引量:16
- 2
-
-
作者
游宏梁
张巍
沈钧毅
刘挺
-
机构
西安交通大学电子与信息工程学院
北京文献服务处
哈尔滨工业大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2011年第3期9-16,共8页
-
基金
国家自然科学基金资助项目(60673087)
-
文摘
术语自动识别目的是获取领域术语表中未登录的规范化词汇,是信息抽取、文本挖掘等领域中的重要任务。近年来,利用统计方法抽取术语取得了一定进展,出现了C-Value、NC-Value、TermExtractor等有效方法。但是,对各种统计指标进行加权投票的方法研究较少。该文首先从大量已知术语中收集术语的词性模板,并借之抽取候选术语,接着利用了统计指标加权投票对这些候选术语进行排序。在IEEE 2006-2007电子工程领域文献上的实验结果表明,加权投票方法比任一单独指标的识别效果更好。
-
关键词
自动术语识别
投票算法
信息抽取
文本挖掘
-
Keywords
automatic term recognition
voting algorithm
information extraction
text mining
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文专利文献术语自动识别研究
被引量:8
- 3
-
-
作者
杨双龙
吕学强
李卓
徐丽萍
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京城市系统工程研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2016年第3期111-117,124,共8页
-
基金
国家自然科学基金(61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)
北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519)
-
文摘
中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的TermRank算法。该方法首先从大量的中文专利文献标题中自动生成词性规则;然后利用生成的词性规则对中文专利文献正文部分进行规则匹配获得候选术语表;再利用提出的TermRank排序算法对候选术语表排序,最终得到术语列表。通过在9 725篇中文专利文献数据上实验,证实了该方法的有效性。
-
关键词
术语自动识别
专利文献
信息抽取
文本挖掘
-
Keywords
automatic term recognition
patent literature
information extraction
text mining
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语料库的军事术语抽取方法初探
被引量:8
- 4
-
-
作者
许汉成
-
机构
国防科技大学国际关系学院
-
出处
《外语研究》
CSSCI
北大核心
2017年第5期43-46,60,共5页
-
基金
国家社科基金项目"基于语料库的军事英语综合研究"(编号:11BYY12)的阶段性成果
-
文摘
互联网大规模文本数据的出现,对于语言学研究既是机遇,更是挑战。计算语言学提出了大量基于语料库和统计的文本数据处理方法,具有重要应用价值,而语言学家对其了解不多。我们认为,这类系统从人文和科学主义两个方向着手,更有利于研发应用价值高的产品。俄语等语种的资源匮乏,基础薄弱,其处理需要软件工程和语言学两种知识体系,只有学者自己走跨学科的道路,或者构建团队,才能有效地解决问题。
-
关键词
语料库
术语
军事术语
自动术语抽取
自动术语识别
-
分类号
H030
[语言文字—语言学]
-