期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
生成式情报学术语自动抽取与多维关联知识挖掘研究 被引量:6
1
作者 胡昊天 邓三鸿 +4 位作者 孔玲 闫晓慧 杨文霞 王东波 沈思 《情报学报》 CSSCI CSCD 北大核心 2024年第5期588-600,共13页
情报学术语承载了情报学科基础知识与核心概念。从概念维度梳理与分析情报学术语对推动学科发展、助力下游知识挖掘任务具有重要意义。面对数量快速增长的科技文献,自动术语抽取替代了人工筛选,但现有方法严重依赖大规模标注数据集,难... 情报学术语承载了情报学科基础知识与核心概念。从概念维度梳理与分析情报学术语对推动学科发展、助力下游知识挖掘任务具有重要意义。面对数量快速增长的科技文献,自动术语抽取替代了人工筛选,但现有方法严重依赖大规模标注数据集,难以迁移至低资源场景。本文设计了一种生成式情报学术语抽取方法(generative term extraction for information science,GTX-IS),将传统基于序列标注的抽取式任务转化为序列到序列的生成式任务。结合小样本学习策略与有监督微调,提升面向特定任务的文本生成能力,能够在低资源有标签数据集场景下较为精准地抽取情报学术语。对于抽取结果,本文进一步开展了情报学领域术语发现及多维知识挖掘。综合运用全文科学计量与信息计量方法,从术语自身、术语间关联、时间信息等维度,对术语的出现频次、生命周期、共现信息等进行统计分析与知识挖掘。采用社会网络分析方法,结合时间维度特征,从术语角度出发,完善期刊的动态简介,探究情报学研究热点、演变历程和未来发展趋势。本文方法在术语抽取实验中的表现超越了全部13种主流生成式和抽取式模型,展现出较强的小样本学习能力,为领域信息抽取提供了新的思路。 展开更多
关键词 情报学术语 术语自动抽取 文本生成 科学计量 热点分析
在线阅读 下载PDF
基于网络资源与用户行为信息的领域术语提取 被引量:8
2
作者 闫兴龙 刘奕群 +3 位作者 方奇 张敏 马少平 茹立云 《软件学报》 EI CSCD 北大核心 2013年第9期2089-2100,共12页
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实... 领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果. 展开更多
关键词 领域术语自动抽取 新词发现 WEB数据挖掘 用户行为分析
在线阅读 下载PDF
一种基于加权投票的术语自动识别方法 被引量:16
3
作者 游宏梁 张巍 +1 位作者 沈钧毅 刘挺 《中文信息学报》 CSCD 北大核心 2011年第3期9-16,共8页
术语自动识别目的是获取领域术语表中未登录的规范化词汇,是信息抽取、文本挖掘等领域中的重要任务。近年来,利用统计方法抽取术语取得了一定进展,出现了C-Value、NC-Value、TermExtractor等有效方法。但是,对各种统计指标进行加权投票... 术语自动识别目的是获取领域术语表中未登录的规范化词汇,是信息抽取、文本挖掘等领域中的重要任务。近年来,利用统计方法抽取术语取得了一定进展,出现了C-Value、NC-Value、TermExtractor等有效方法。但是,对各种统计指标进行加权投票的方法研究较少。该文首先从大量已知术语中收集术语的词性模板,并借之抽取候选术语,接着利用了统计指标加权投票对这些候选术语进行排序。在IEEE 2006-2007电子工程领域文献上的实验结果表明,加权投票方法比任一单独指标的识别效果更好。 展开更多
关键词 自动术语识别 投票算法 信息抽取 文本挖掘
在线阅读 下载PDF
一种基于词共现图的受限领域自动问答系统 被引量:16
4
作者 钱强 庞林斌 高尚 《计算机应用研究》 CSCD 北大核心 2013年第3期841-843,共3页
提出了一种基于高频词和共现词的文本主题词抽取方法。该方法充分考虑到文档的统计信息和语义信息,通过对提问问题和答案库中答案的相似度计算排序,输出候选答案。提出一种具体的应用模型,分别从问题的分析、信息检索和答案抽取三个模... 提出了一种基于高频词和共现词的文本主题词抽取方法。该方法充分考虑到文档的统计信息和语义信息,通过对提问问题和答案库中答案的相似度计算排序,输出候选答案。提出一种具体的应用模型,分别从问题的分析、信息检索和答案抽取三个模块进行系统的设计,具有一定的应用价值。 展开更多
关键词 自动问答 主题词抽取 词共现图
在线阅读 下载PDF
中文专利文献术语自动识别研究 被引量:8
5
作者 杨双龙 吕学强 +1 位作者 李卓 徐丽萍 《中文信息学报》 CSCD 北大核心 2016年第3期111-117,124,共8页
中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的TermRank算法。该方法首先从大量的中文专利文献标题中... 中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的TermRank算法。该方法首先从大量的中文专利文献标题中自动生成词性规则;然后利用生成的词性规则对中文专利文献正文部分进行规则匹配获得候选术语表;再利用提出的TermRank排序算法对候选术语表排序,最终得到术语列表。通过在9 725篇中文专利文献数据上实验,证实了该方法的有效性。 展开更多
关键词 术语自动识别 专利文献 信息抽取 文本挖掘
在线阅读 下载PDF
基于质子串分解的中文术语自动抽取 被引量:21
6
作者 何婷婷 张勇 《计算机工程》 EI CAS CSCD 北大核心 2006年第23期188-190,共3页
针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该... 针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。 展开更多
关键词 质子串分解 术语自动抽取 C—value 互信息
在线阅读 下载PDF
汉外术语及语义层次关系自动抽取技术研究 被引量:1
7
作者 曾文 桂婕 《情报学报》 CSSCI 北大核心 2012年第12期1276-1282,共7页
信息需求的飞速增长要求图书馆情报领域的服务机构,如数字图书馆应具备有效提供多语言文献信息检索查询能力的功能,基于我国用户对多语言文献信息的潜在和未来需求,本文提出了汉语与外语术语及语义层次关系的自动抽取研究这一重要问... 信息需求的飞速增长要求图书馆情报领域的服务机构,如数字图书馆应具备有效提供多语言文献信息检索查询能力的功能,基于我国用户对多语言文献信息的潜在和未来需求,本文提出了汉语与外语术语及语义层次关系的自动抽取研究这一重要问题,并重点介绍采用的关键技术和方法。文章以汉英术语及语义层次关系自动抽取技术为例,对所做的研究工作进行实际的探索和验证,验证结果表明采用的技术方案是可行的。该研究将为未来的多语言文献信息服务、创新与优化图书馆情报领域的资源服务起到有效的支撑作用。 展开更多
关键词 术语 语义 自动抽取 文献信息
在线阅读 下载PDF
自动术语抽取研究综述 被引量:26
8
作者 张雪 孙宏宇 +2 位作者 辛东兴 李翠平 陈红 《软件学报》 EI CSCD 北大核心 2020年第7期2062-2094,共33页
自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较... 自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较为丰富的研究成果.以术语排序算法为主线,对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述:首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕"浅层语言分析"中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类,系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析,并对自动术语抽取未来可能的研究趋势进行了探讨与展望. 展开更多
关键词 自动术语抽取 术语识别 文本处理 机器学习
在线阅读 下载PDF
基于双向长短期记忆网络的太赫兹光谱识别 被引量:8
9
作者 虞浩跃 沈韬 +2 位作者 朱艳 刘英莉 余正涛 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2019年第12期3737-3742,共6页
特征提取是太赫兹光谱识别的关键处理步骤,通常利用降维方法作为特征提取手段。然而,当一些化合物的太赫兹光谱曲线整体差异度较小时,降维方法往往会缺失样本差异的重要特征信息,从而导致分类错误。如果不采用降维方法提取特征,传统机... 特征提取是太赫兹光谱识别的关键处理步骤,通常利用降维方法作为特征提取手段。然而,当一些化合物的太赫兹光谱曲线整体差异度较小时,降维方法往往会缺失样本差异的重要特征信息,从而导致分类错误。如果不采用降维方法提取特征,传统机器学习分类算法对维数较高的原始太赫兹光谱数据又不能很好的分类。针对此问题,提出了一种基于双向长短期记忆网络(BLSTM-RNN)自动提取太赫兹光谱特征的识别方法。BLSTM-RNN作为一种特殊的循环神经网络,利用其LSTM单元可以有效解决原始太赫兹光谱数据维数较高使得模型难以训练问题。再结合模型的双向频谱信息利用架构模式,可以增强模型对复杂光谱数据自动提取有效特征信息的能力。采用三类、15种化合物太赫兹透射光谱作为测试对象,首先利用S-G滤波和三次样条插值对Anthraquinone,Benomyl和Carbazole等十五种化合物在0.9~6 THz内的太赫兹透射光谱数据进行归一化处理,然后通过构建一个具有双向长短期记忆的循环神经网络对太赫兹光谱的全频谱信息进行自动特征提取并利用Softmax分类器进行分类。通过试验优化网络结构和各项参数,最终获得了针对复杂太赫兹透射光谱数据的预测模型,并与传统机器学习算法SVM,KNN及神经网络算法MLP,CNN进行对比实验。结果表明,dataset-1和dataset-2分别作为差异度较大和无明显峰值特征的五种化合物太赫兹透射光谱数据集,其平均识别率分别为100%和98.51%,与其他方法相比识别率有所提高;最重要的是,dataset-3作为5种化合物谱线极为相似的太赫兹透射光谱数据集,其平均识别率为96.56%,与其他方法相比识别率提高显著;dataset-4作为dataset-1,dataset-2和dataset-3的透射光谱数据集集合,其平均识别率为98.87%。从而验证了BLSTM-RNN模型能自动提取有效的太赫兹光谱特征,同时又能保证复杂太赫兹光谱的预测精度。在选择模型训练优化算法方面,使用Adam优化算法要好于RMSProp,SGD和AdaGrad,其模型的目标函数损失值收敛速度最快。同时随着模型训练迭代次数增加,相似太赫兹透射光谱数据集的预测准确率也不断提升。可为复杂太赫兹光谱数据库的光谱识别检索提供一种新的识别方法。 展开更多
关键词 太赫兹光谱 自动特征提取 长短期记忆网络 LSTM单元
在线阅读 下载PDF
领域Ontology的自动丰富——基于ADL地名表的实例研究 被引量:5
10
作者 葛宁 王军 《计算机科学》 CSCD 北大核心 2007年第9期156-162,共7页
本文以一个地理特征词表(Feature Type Thesaurus,FTT)为研究实例,提出了一种对领域Ontology进行自动丰富的方法。FTT描述了200多种地理特征类型,依照等级结构组织,用于标引和组织美国亚历山大数字图书馆地名表(ADL Gazetteer)中的6百... 本文以一个地理特征词表(Feature Type Thesaurus,FTT)为研究实例,提出了一种对领域Ontology进行自动丰富的方法。FTT描述了200多种地理特征类型,依照等级结构组织,用于标引和组织美国亚历山大数字图书馆地名表(ADL Gazetteer)中的6百万个地名。为了对FTT进行自动丰富,(1)首先从地名中抽取和发现有检索价值的、表示地理特征类型的通用词;(2)根据它们和标引主题词间的同现关系,在相同词族词汇的聚类过程中,确定与之相对应的主题词,进而将提取出的通用词定位到FTT的等级结构中。充分利用已经存在的大量标引语料,实现通用词的定位分析是核心内容,并且实验结果证明有效性达到82.7%。这项研究的实质是从Ontology标引的语料库中自动提取领域知识和标引知识,达到对Ontology的自动丰富。这一方法可以应用到类似的语料库和知识库上,实现新术语的发现、Ontology自丰富及其互操作。 展开更多
关键词 领域ONTOLOGY 自动丰富 词汇抽取 通用词 地名词典
在线阅读 下载PDF
基于特征自动提取的跌倒检测算法 被引量:11
11
作者 胡双杰 秦建邦 郭薇 《传感技术学报》 CAS CSCD 北大核心 2018年第12期1842-1847,共6页
跌倒是导致老年人受伤甚至死亡的主要原因。准确及时的跌倒检测系统可以帮助跌倒者获得紧急救援。目前基于传感器的跌倒检测方法主要利用人工设计提取的信号特征来区分跌倒和非跌倒运动,但人工提取的特征往往会限制算法的精确度,增大算... 跌倒是导致老年人受伤甚至死亡的主要原因。准确及时的跌倒检测系统可以帮助跌倒者获得紧急救援。目前基于传感器的跌倒检测方法主要利用人工设计提取的信号特征来区分跌倒和非跌倒运动,但人工提取的特征往往会限制算法的精确度,增大算法时延。为提高跌倒检测的精确度和实时性,本文提出了一种基于深度学习的跌倒检测算法。该算法可以自动提取数据特征,实现从原始数据到检测结果的端到端的处理。算法模型主要由两层级联的长短期记忆LSTM(Long ShortTerm Memory)循环神经网络组成,通过神经网络提取加速度计和陀螺仪数据内部的特征,并判断是否有跌倒状况发生。本文使用两个公开数据集MobiAct和Sis Fall对算法性能进行评估。实验结果显示,算法在两个数据集都达到了较高的精确度(99.58%以上)和较低的时延(2.2 ms以内)。 展开更多
关键词 跌倒检测 自动特征提取 深度学习 长短期记忆
在线阅读 下载PDF
基于排序集成的自动术语识别方法 被引量:4
12
作者 粟超 《计算机应用与软件》 CSCD 北大核心 2012年第1期196-198,223,共4页
自动术语识别是信息抽取和文本挖掘等领域的关键步骤之一。基础自动术语识别算法采用某些方面的特征信息,有明显的局限性,引入局部Kemeny最优的方法来处理自动术语识别问题,并提出新的集成方法。实验结果表明该方法显著改善了自动术语... 自动术语识别是信息抽取和文本挖掘等领域的关键步骤之一。基础自动术语识别算法采用某些方面的特征信息,有明显的局限性,引入局部Kemeny最优的方法来处理自动术语识别问题,并提出新的集成方法。实验结果表明该方法显著改善了自动术语识别的精准度。 展开更多
关键词 排序集成 自动术语识别 文本挖掘 信息抽取
在线阅读 下载PDF
基于关联规则的术语自动抽取研究 被引量:1
13
作者 王昊贤 李广建 《图书与情报》 CSSCI 北大核心 2014年第5期20-25,共6页
文章在文献调研的基础上,通过理论与实验结合的方法讨论了基于关联规则的术语抽取方法的合理性和可用性。从理论上看,关联规则的基本原理决定了它在充分解决"序"的条件下,可以解决术语的识别和抽取问题;从实践上看,关联规则... 文章在文献调研的基础上,通过理论与实验结合的方法讨论了基于关联规则的术语抽取方法的合理性和可用性。从理论上看,关联规则的基本原理决定了它在充分解决"序"的条件下,可以解决术语的识别和抽取问题;从实践上看,关联规则的方法的确可以正确抽取出术语,而且,通过与现有算法的比较,可以发现,关联规则在算法实现难度和算法占用资源方面具有较明显的优势。 展开更多
关键词 大数据 术语自动抽取 关联规则
在线阅读 下载PDF
新型标引系统的构建
14
作者 杨亮 王永成 《计算机应用与软件》 CSCD 北大核心 2004年第5期1-2,84,共3页
本文中 ,我们提出了一种抽取主题词的新方法 ,它是基于分类系统的 ,并且能与分类系统相互改进与提高。
关键词 标引系统 主题词 计算机网络 自动分类 机器标引 文献标引
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部