期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
基于互信息的中文术语抽取系统 被引量:36
1
作者 张锋 许云 +1 位作者 侯艳 樊孝忠 《计算机应用研究》 CSCD 北大核心 2005年第5期72-73,77,共3页
介绍了一个中文术语自动抽取系统,该系统首先基于互信息计算字串的内部结合强度,从而得到术语候选集;接着从术语候选集中去除基本词,并利用普通词语搭配前缀、后缀信息进一步过滤;最后对术语候选进行词法分析,利用术语的词性构成规则进... 介绍了一个中文术语自动抽取系统,该系统首先基于互信息计算字串的内部结合强度,从而得到术语候选集;接着从术语候选集中去除基本词,并利用普通词语搭配前缀、后缀信息进一步过滤;最后对术语候选进行词法分析,利用术语的词性构成规则进行判别,得到最终的术语抽取结果。实验结果表明,术语抽取正确率为72. 19%,召回率为77. 98%,F 测量为74. 97%。 展开更多
关键词 术语抽取 互信息 语料
在线阅读 下载PDF
基于多策略融合的中文术语抽取方法 被引量:28
2
作者 周浪 史树敏 +1 位作者 冯冲 黄河燕 《情报学报》 CSSCI 北大核心 2010年第3期460-467,共8页
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术。相对于单词型术语,词组型术语的识别过程要更加复杂。由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考... 中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术。相对于单词型术语,词组型术语的识别过程要更加复杂。由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题。文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务。实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能。 展开更多
关键词 中文术语抽取 语言规则获取 子串归并 搭配检验 词语活跃度 领域相关度
在线阅读 下载PDF
基于条件随机场的汽车领域术语抽取 被引量:17
3
作者 李丽双 党延忠 +1 位作者 张婧 李丹 《大连理工大学学报》 EI CAS CSCD 北大核心 2013年第2期267-272,共6页
中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditional random fields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特... 中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditional random fields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语料标注规则进行人工标注,对汽车领域进行了术语抽取.在使用词和词性特征的基础上增加了词典特征、领域词频和背景领域词频等特征,精确率、召回率和F-值分别达到84.61%、80.50%和82.50%.与其他方法比较说明所提出的汽车领域术语抽取方法是有效的. 展开更多
关键词 信息抽取 领域术语抽取 汽车领域术语 条件随机场
在线阅读 下载PDF
基于多策略的专业领域术语抽取器的设计 被引量:26
4
作者 杜波 田怀凤 +1 位作者 王立 陆汝占 《计算机工程》 EI CAS CSCD 北大核心 2005年第14期159-160,共2页
设计了一个将统计方法与规则方法相结合的专业领域内术语抽取算法。针对专业领域术语的特点,利用多种衡量字符串中各字之间结合“紧密程度”的统计量,先使用阈值分类器抽取出双字候选项;然后再对这些候选项向左右进行一定程度的扩充,从... 设计了一个将统计方法与规则方法相结合的专业领域内术语抽取算法。针对专业领域术语的特点,利用多种衡量字符串中各字之间结合“紧密程度”的统计量,先使用阈值分类器抽取出双字候选项;然后再对这些候选项向左右进行一定程度的扩充,从中筛选出符合要求的多字候选项;最后将所得候选项进行过滤,得到最终结果。据此实现了一个以未切分标注的生语料为输入、以专业领域术语为输出的抽取程序,在对多个领域内的语料进行测试后对实验结果进行分析,指出其中存在的问题,对未来的工作作出了展望。 展开更多
关键词 自然语言处理 术语抽取 多策略
在线阅读 下载PDF
基于语言特性的中文领域术语抽取算法 被引量:11
5
作者 傅继彬 樊孝忠 +1 位作者 毛金涛 余正涛 《北京理工大学学报》 EI CAS CSCD 北大核心 2010年第3期307-310,共4页
提出一种基于语言特性的中文领域术语自动抽取算法.集成领域耦合性、领域相关性和领域一致性3种语言特性建立统计模型进行中文领域术语的自动抽取.提出基于困惑度衰减比率的自动评价方法,使用该评价方法对术语抽取算法进行了比较评估.... 提出一种基于语言特性的中文领域术语自动抽取算法.集成领域耦合性、领域相关性和领域一致性3种语言特性建立统计模型进行中文领域术语的自动抽取.提出基于困惑度衰减比率的自动评价方法,使用该评价方法对术语抽取算法进行了比较评估.实验结果表明,该算法与基于互信息和似然度的方法相比,在准确率和召回率方面都有较大提高. 展开更多
关键词 术语抽取 领域耦合性 领域相关性 领域一致性
在线阅读 下载PDF
互信息改进方法在术语抽取中的应用 被引量:19
6
作者 杜丽萍 李晓戈 +1 位作者 周元哲 邵春昌 《计算机应用》 CSCD 北大核心 2015年第4期996-1000,1005,共6页
为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系... 为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法。首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果。理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点。在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性。 展开更多
关键词 术语抽取 专业术语 知识获取 互信息
在线阅读 下载PDF
理论术语抽取的深度学习模型及自训练算法研究 被引量:50
7
作者 赵洪 王芳 《情报学报》 CSSCI CSCD 北大核心 2018年第9期923-938,共16页
理论术语的抽取是大规模文献内容分析和跨学科知识转移深度揭示的基础。作为一种特定类型的命名实体,理论术语涉及的学科多、文献规模大、特征复杂,也缺乏大规模的成熟语料,因而抽取难度较大。为提高理论术语的抽取性能并降低训练集的... 理论术语的抽取是大规模文献内容分析和跨学科知识转移深度揭示的基础。作为一种特定类型的命名实体,理论术语涉及的学科多、文献规模大、特征复杂,也缺乏大规模的成熟语料,因而抽取难度较大。为提高理论术语的抽取性能并降低训练集的人工标注代价,本文构建了面向理论术语抽取的深度学习模型,并研究了该模型中理论术语的特征构造和标注方法,同时也提出了一种自训练算法以实现模型的弱监督学习。通过实验对比,分别验证了本文模型和自训练算法的有效性,不仅为理论术语抽取提供了更加有效的通用方法,也为其他类型命名实体的识别研究提供了方法参考。 展开更多
关键词 理论术语抽取 深度学习 循环神经网络 Bi-LSTM-CRF 自训练
在线阅读 下载PDF
基于CRFs的专利文献领域术语抽取方法 被引量:12
8
作者 王健 殷旭 +1 位作者 吕学强 徐丽萍 《计算机工程与设计》 北大核心 2019年第1期279-284,共6页
通过对新能源汽车领域中文专利文献中术语特点的分析,提出利用条件随机场模型,分别基于三词位、四词位和六词位的字序列标注进行术语抽取的方法。以字为切分粒度,避免在术语抽取过程中因分词原因导致术语识别错误问题,并探讨不同词位标... 通过对新能源汽车领域中文专利文献中术语特点的分析,提出利用条件随机场模型,分别基于三词位、四词位和六词位的字序列标注进行术语抽取的方法。以字为切分粒度,避免在术语抽取过程中因分词原因导致术语识别错误问题,并探讨不同词位标注集对术语抽取性能的影响。实验结果表明,基于六词位字标注的条件随机场模型术语抽取的性能最好,准确率、召回率和F值优于对比方法中基于词、词性、词长等信息作为特征的抽取方法,验证了所提方法的有效性。 展开更多
关键词 中文专利术语 术语抽取 条件随机场 序列标注 新能源汽车领域
在线阅读 下载PDF
基于信息熵和词频分布变化的术语抽取研究 被引量:20
9
作者 李丽双 王意文 黄德根 《中文信息学报》 CSCD 北大核心 2015年第1期82-87,共6页
在分别研究了基于信息熵和基于词频分布变化的术语抽取方法的情况下,该文提出了一种信息熵和词频分布变化相结合的术语抽取方法。信息熵体现了术语的完整性,词频分布变化体现了术语的领域相关性。通过应用信息熵,即将信息熵结合到词频... 在分别研究了基于信息熵和基于词频分布变化的术语抽取方法的情况下,该文提出了一种信息熵和词频分布变化相结合的术语抽取方法。信息熵体现了术语的完整性,词频分布变化体现了术语的领域相关性。通过应用信息熵,即将信息熵结合到词频分布变化公式中进行术语抽取,且应用简单语言学规则过滤普通字符串。实验表明,在汽车领域的语料上,应用该方法抽取出1 300个术语,其正确率达到73.7%。结果表明该方法对低频术语有更好的抽取效果,同时抽取出的术语结构更完整。 展开更多
关键词 术语抽取 信息熵 词频分布变化
在线阅读 下载PDF
基于词频分布变化统计的术语抽取方法 被引量:27
10
作者 周浪 张亮 +1 位作者 冯冲 黄河燕 《计算机科学》 CSCD 北大核心 2009年第5期177-180,共4页
提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出... 提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出了一种利用术语在语料中词频分布变化程度的统计信息来检验术语的领域相关性的方法,同时结合机器学习方法获取的语言知识,从计算机领域的语料中抽取领域特征明显的词组型术语。实验证明,该方法对低频术语和高频普通词串有较强的分辨能力。 展开更多
关键词 术语抽取 机器学习 分布方差 知识获取 termhood unithood
在线阅读 下载PDF
一种面向术语抽取的短语过滤技术 被引量:7
11
作者 周浪 冯冲 黄河燕 《计算机工程与应用》 CSCD 北大核心 2009年第19期9-11,共3页
在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出... 在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法,估算出短语或短语碎片中词语的活跃度,并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中,实验证实能够有效去除这些干扰项,提升术语抽取系统的性能。 展开更多
关键词 术语抽取 短语过滤 左右熵 活跃因子
在线阅读 下载PDF
基于BLSTM_attention_CRF模型的新能源汽车领域术语抽取 被引量:17
12
作者 马建红 张亚梅 +2 位作者 姚爽 张炳斐 郭昌宏 《计算机应用研究》 CSCD 北大核心 2019年第5期1385-1389,1395,共6页
为提高新能源汽车领域术语抽取准确率,面向新能源汽车专利文本提出一种领域术语抽取模型。传统的领域术语抽取方法过度依赖人工定义特征和领域知识,无法自动挖掘隐含特征,其识别性能过度依赖所选特征的质量。从深度学习的角度出发,提出... 为提高新能源汽车领域术语抽取准确率,面向新能源汽车专利文本提出一种领域术语抽取模型。传统的领域术语抽取方法过度依赖人工定义特征和领域知识,无法自动挖掘隐含特征,其识别性能过度依赖所选特征的质量。从深度学习的角度出发,提出了一种基于attention的双向长短时记忆网络(bidirectional long short-term memory,BLSTM)与条件随机场(conditional random fields,CRF)相结合的领域术语抽取模型(BLSTM_attention_CRF模型),并使用基于词典与规则相结合的方法对结果进行校正,准确率可达到86%以上,方法切实可行。 展开更多
关键词 领域术语抽取 attention机制 双向长短时记忆网络 条件随机场 词典 规则
在线阅读 下载PDF
C值和互信息相结合的术语抽取 被引量:7
13
作者 梁颖红 张文静 张有承 《计算机应用与软件》 CSCD 2010年第4期108-110,共3页
在目前的生物信息领域开放语料的术语抽取实验中,前2000多个双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了名词术语自动抽取的一个难点问题。针对该难点,提出综合C-value参数在长术语抽取方... 在目前的生物信息领域开放语料的术语抽取实验中,前2000多个双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了名词术语自动抽取的一个难点问题。针对该难点,提出综合C-value参数在长术语抽取方面的优势,并与术语抽取中的互信息参数相结合的策略来识别术语。实验结果表明,长术语抽取正确率为75.7%,召回率为68.4%,F测量值为71.9%,高于相同语料下的其他方法。 展开更多
关键词 术语抽取 C值 互信息
在线阅读 下载PDF
统计与规则相融合的领域术语抽取算法 被引量:12
14
作者 樊梦佳 段东圣 +2 位作者 杜翠兰 张仰森 佟玲玲 《计算机应用研究》 CSCD 北大核心 2016年第8期2282-2285,2306,共5页
针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息... 针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频—逆文档频率(TF-IDF)的领域度筛选策略。运用此算法不但能抽取出领域的常见用词,还可以挖掘出领域新词。实验结果显示,基于该方法构建的领域术语抽取系统的准确率为84.33%,能够有效支持中文领域术语的自动抽取。 展开更多
关键词 领域术语抽取 词语度 领域度 左右信息熵扩展 边界检测 词频-逆文档频率
在线阅读 下载PDF
面向术语抽取的双阈值互信息过滤方法 被引量:10
15
作者 陈士超 郁滨 《计算机应用》 CSCD 北大核心 2011年第4期1070-1073,共4页
为了降低互信息方法固有问题对术语过滤效果的影响,提出一种双阈值互信息过滤方法,给出了一种基于局部评价指标的阈值确定算法,通过数据抽样、统计和计算,能够快速精确地给出最优上下限阈值。相比单阈值互信息过滤方法,在不更改互信息... 为了降低互信息方法固有问题对术语过滤效果的影响,提出一种双阈值互信息过滤方法,给出了一种基于局部评价指标的阈值确定算法,通过数据抽样、统计和计算,能够快速精确地给出最优上下限阈值。相比单阈值互信息过滤方法,在不更改互信息计算公式的前提下,通过设置双阈值的方法进行候选术语过滤与抽取。实验结果表明,在相同条件下,该方法能够显著提高准确率和F-测度值。 展开更多
关键词 术语抽取 术语过滤 互信息 阈值 评价指标
在线阅读 下载PDF
基于分隔符和上下文术语的领域现象术语抽取 被引量:6
16
作者 刘里 刘小明 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第7期146-149,155,共5页
领域现象术语常常是复合型短语,很难根据局部上下文特征用传统的机器学习方法来抽取.为此,文中提出了一种领域现象术语的抽取方法.该方法首先用基于上下文的方法抽取得到分隔符集,然后结合分隔符集和上下文术语用改进的NC-value算法进... 领域现象术语常常是复合型短语,很难根据局部上下文特征用传统的机器学习方法来抽取.为此,文中提出了一种领域现象术语的抽取方法.该方法首先用基于上下文的方法抽取得到分隔符集,然后结合分隔符集和上下文术语用改进的NC-value算法进行候选领域现象术语抽取,最后在候选领域现象术语中过滤掉名词性术语,进而得到最终结果.实验表明,文中方法对领域现象术语的抽取效果优于基于词频的方法和基于分隔符的方法. 展开更多
关键词 术语抽取 分隔符 复合词 NC-value算法
在线阅读 下载PDF
基于术语长度和语法特征的统计领域术语抽取 被引量:6
17
作者 刘里 肖迎元 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2017年第9期1437-1443,共7页
针对领域术语抽取中含字长度较大的术语被错误切分的问题,本文提出一种基于术语长度和语法特征的统计领域术语抽取方法。本方法在利用机器学习抽取候选术语时,加入基于术语长度和语法特征的约束规则;在使用统计方法确定候选术语的领域性... 针对领域术语抽取中含字长度较大的术语被错误切分的问题,本文提出一种基于术语长度和语法特征的统计领域术语抽取方法。本方法在利用机器学习抽取候选术语时,加入基于术语长度和语法特征的约束规则;在使用统计方法确定候选术语的领域性时,充分考虑词长比这一概念的重要性,将其作为判断术语领域性的重要权值。实验表明,提出的方法能够正确抽取含字长度较大的领域术语,抽取结果的准确率和召回率相比以往的方法有所提高。 展开更多
关键词 自然语言处理 术语抽取 支持向量机 术语长度 语法特征 词长比 领域相关性 领域一致性
在线阅读 下载PDF
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究 被引量:66
18
作者 吴俊 程垚 +3 位作者 郝瀚 艾力亚尔·艾则孜 刘菲雪 苏亦坡 《情报学报》 CSSCI CSCD 北大核心 2020年第4期409-418,共10页
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练... 专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。 展开更多
关键词 BERT BiLSTM CRF 专业术语抽取
在线阅读 下载PDF
TValue术语抽取法 被引量:4
19
作者 刘胜奇 朱东华 《情报学报》 CSSCI 北大核心 2013年第11期1164-1173,共10页
提出TValue术语抽取法。为提高召回率,将词性固定搭配规则改为首尾词性规则。为提高准确率,设计首尾词性度、词长度;用中间最短母串修正母串对子串的影响,提出独立度;改进名词计分法为停用度;用语料中文档k外的文档集代替Weirdnes... 提出TValue术语抽取法。为提高召回率,将词性固定搭配规则改为首尾词性规则。为提高准确率,设计首尾词性度、词长度;用中间最短母串修正母串对子串的影响,提出独立度;改进名词计分法为停用度;用语料中文档k外的文档集代替Weirdness的对比领域,提出重要度。基于三个假设:术语库具代表性、文档可交换、文档中术语可交换,构建了TValue术语抽取法。首先,基于首尾词性规则进行词串抽取。然后,计算词串的首尾词性度、词长度、独立度、停用度、重要度,以及五属性组合值TValue。最后识别TValue高于术语可信度的词串,来选择获选术语。能源行业的中文术语抽取实验结果表明,该方法可有效的抽取低频术语、非名词术语,准确率约为84.08%,召回率约为94.49%。 展开更多
关键词 术语抽取 术语识别 能源行业 数据挖掘 技术监测
在线阅读 下载PDF
LCS算法在术语抽取中的应用研究 被引量:11
20
作者 潘虹 徐朝军 《情报学报》 CSSCI 北大核心 2010年第5期853-857,共5页
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规... 本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集。通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%。 展开更多
关键词 最大公共子串算法 术语抽取
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部