期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
自动术语抽取研究综述 被引量:26
1
作者 张雪 孙宏宇 +2 位作者 辛东兴 李翠平 陈红 《软件学报》 EI CSCD 北大核心 2020年第7期2062-2094,共33页
自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较... 自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较为丰富的研究成果.以术语排序算法为主线,对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述:首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕"浅层语言分析"中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类,系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析,并对自动术语抽取未来可能的研究趋势进行了探讨与展望. 展开更多
关键词 自动术语抽取 术语识别 文本处理 机器学习
在线阅读 下载PDF
生成式情报学术语自动抽取与多维关联知识挖掘研究 被引量:6
2
作者 胡昊天 邓三鸿 +4 位作者 孔玲 闫晓慧 杨文霞 王东波 沈思 《情报学报》 CSSCI CSCD 北大核心 2024年第5期588-600,共13页
情报学术语承载了情报学科基础知识与核心概念。从概念维度梳理与分析情报学术语对推动学科发展、助力下游知识挖掘任务具有重要意义。面对数量快速增长的科技文献,自动术语抽取替代了人工筛选,但现有方法严重依赖大规模标注数据集,难... 情报学术语承载了情报学科基础知识与核心概念。从概念维度梳理与分析情报学术语对推动学科发展、助力下游知识挖掘任务具有重要意义。面对数量快速增长的科技文献,自动术语抽取替代了人工筛选,但现有方法严重依赖大规模标注数据集,难以迁移至低资源场景。本文设计了一种生成式情报学术语抽取方法(generative term extraction for information science,GTX-IS),将传统基于序列标注的抽取式任务转化为序列到序列的生成式任务。结合小样本学习策略与有监督微调,提升面向特定任务的文本生成能力,能够在低资源有标签数据集场景下较为精准地抽取情报学术语。对于抽取结果,本文进一步开展了情报学领域术语发现及多维知识挖掘。综合运用全文科学计量与信息计量方法,从术语自身、术语间关联、时间信息等维度,对术语的出现频次、生命周期、共现信息等进行统计分析与知识挖掘。采用社会网络分析方法,结合时间维度特征,从术语角度出发,完善期刊的动态简介,探究情报学研究热点、演变历程和未来发展趋势。本文方法在术语抽取实验中的表现超越了全部13种主流生成式和抽取式模型,展现出较强的小样本学习能力,为领域信息抽取提供了新的思路。 展开更多
关键词 情报学术语 术语自动抽取 文本生成 科学计量 热点分析
在线阅读 下载PDF
基于质子串分解的中文术语自动抽取 被引量:21
3
作者 何婷婷 张勇 《计算机工程》 EI CAS CSCD 北大核心 2006年第23期188-190,共3页
针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该... 针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。 展开更多
关键词 质子串分解 术语自动抽取 C—value 互信息
在线阅读 下载PDF
基于关联规则的术语自动抽取研究 被引量:1
4
作者 王昊贤 李广建 《图书与情报》 CSSCI 北大核心 2014年第5期20-25,共6页
文章在文献调研的基础上,通过理论与实验结合的方法讨论了基于关联规则的术语抽取方法的合理性和可用性。从理论上看,关联规则的基本原理决定了它在充分解决"序"的条件下,可以解决术语的识别和抽取问题;从实践上看,关联规则... 文章在文献调研的基础上,通过理论与实验结合的方法讨论了基于关联规则的术语抽取方法的合理性和可用性。从理论上看,关联规则的基本原理决定了它在充分解决"序"的条件下,可以解决术语的识别和抽取问题;从实践上看,关联规则的方法的确可以正确抽取出术语,而且,通过与现有算法的比较,可以发现,关联规则在算法实现难度和算法占用资源方面具有较明显的优势。 展开更多
关键词 大数据 术语自动抽取 关联规则
在线阅读 下载PDF
基于语料库的军事术语抽取方法初探 被引量:8
5
作者 许汉成 《外语研究》 CSSCI 北大核心 2017年第5期43-46,60,共5页
互联网大规模文本数据的出现,对于语言学研究既是机遇,更是挑战。计算语言学提出了大量基于语料库和统计的文本数据处理方法,具有重要应用价值,而语言学家对其了解不多。我们认为,这类系统从人文和科学主义两个方向着手,更有利于研发应... 互联网大规模文本数据的出现,对于语言学研究既是机遇,更是挑战。计算语言学提出了大量基于语料库和统计的文本数据处理方法,具有重要应用价值,而语言学家对其了解不多。我们认为,这类系统从人文和科学主义两个方向着手,更有利于研发应用价值高的产品。俄语等语种的资源匮乏,基础薄弱,其处理需要软件工程和语言学两种知识体系,只有学者自己走跨学科的道路,或者构建团队,才能有效地解决问题。 展开更多
关键词 语料库 术语 军事术语 自动术语抽取 自动术语识别
在线阅读 下载PDF
基于网络资源与用户行为信息的领域术语提取 被引量:8
6
作者 闫兴龙 刘奕群 +3 位作者 方奇 张敏 马少平 茹立云 《软件学报》 EI CSCD 北大核心 2013年第9期2089-2100,共12页
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实... 领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果. 展开更多
关键词 领域术语自动抽取 新词发现 WEB数据挖掘 用户行为分析
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部