期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
利用未标注语料改进实体名识别性能 被引量:3
1
作者 陈宁昱 周雅倩 +1 位作者 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2005年第2期7-11,27,共6页
本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征。这些特征包括单词本身的词法词态特征和上下文信息。利用这些在任何语言的文本上都极易获得的特征 ,我们采用最大熵分类器构建了一个基准系统。在此基... 本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征。这些特征包括单词本身的词法词态特征和上下文信息。利用这些在任何语言的文本上都极易获得的特征 ,我们采用最大熵分类器构建了一个基准系统。在此基础上 ,我们首先通过网络资源建立了实体名词典知识库 ;并利用词典和基准系统在未标注语料上抽取出现的实体名作为辅助的训练语料 ;最后再将这些语料加入训练。实验结果表明 ,辅助的训练语料能够在一定程度上提高系统的性能。 展开更多
关键词 计算机应用 中文信息处理 实体名识别 最大熵 未标注语料
在线阅读 下载PDF
基于膨胀卷积迭代与注意力机制的实体名识别方法 被引量:5
2
作者 吕江海 杜军平 +1 位作者 周南 薛哲 《计算机工程》 CAS CSCD 北大核心 2021年第1期58-65,71,共9页
针对传统实体名识别方法无法兼顾文本序列提取特征的有效性和神经网络模型训练速度的问题,提出一种基于迭代膨胀卷积神经网络(IDCNN)与注意力机制(ATT)的实体名识别方法。IDCNN可利用GPU并行计算的优化能力,保留长短期记忆神经网络的特... 针对传统实体名识别方法无法兼顾文本序列提取特征的有效性和神经网络模型训练速度的问题,提出一种基于迭代膨胀卷积神经网络(IDCNN)与注意力机制(ATT)的实体名识别方法。IDCNN可利用GPU并行计算的优化能力,保留长短期记忆神经网络的特性,即用简单的结构记录尽可能多的输入信息,并在准确提取文本序列特征的同时加快神经网络模型的训练速度。通过引入ATT运用文本语法信息和单词词性信息,从众多文本特征中选择对实体名识别更关键的特征,从而提高文本特征提取的准确性。在新闻数据集和微博数据集上的实验结果表明,神经网络模型的训练速度比传统的双向长短期记忆神经网络有显著提升,基于注意力的实体名识别方法的评价指标比传统的无注意力机制方法提高2%左右。 展开更多
关键词 实体名识别 注意力机制 膨胀卷积 长短期记忆网络 条件随机场
在线阅读 下载PDF
中文名实体识别中的特征组合与特征融合的比较 被引量:7
3
作者 赵健 王晓龙 关毅 《计算机应用》 CSCD 北大核心 2005年第11期2647-2649,共3页
先分析了最大熵模型常用的特征线性组合方法中的权值偏置问题,然后提出了在线性组合之前,对特征进行融合,并根据融合特征和目标类别之间的互信息选择有效复合特征的方法。通过在包含2000个人名的语料库上的测试,表明特征融合能有效地提... 先分析了最大熵模型常用的特征线性组合方法中的权值偏置问题,然后提出了在线性组合之前,对特征进行融合,并根据融合特征和目标类别之间的互信息选择有效复合特征的方法。通过在包含2000个人名的语料库上的测试,表明特征融合能有效地提高名实体识别的精度和召回率。 展开更多
关键词 实体识别 特征组合 权值偏置 特征融合 最大熵模型
在线阅读 下载PDF
《知网》在命名实体识别中的应用研究 被引量:11
4
作者 郑逢强 林磊 +1 位作者 刘秉权 孙承杰 《中文信息学报》 CSCD 北大核心 2008年第5期97-101,共5页
命名实体识别是自然语言处理领域的一项基础研究,它对于语言的深层处理有重要意义。该文以最大熵模型为基础来进行名实体识别,提出了基于《知网》的两种改进策略来增强模型的泛化性能。第一种策略是将《知网》中词的义原作为特征加入到... 命名实体识别是自然语言处理领域的一项基础研究,它对于语言的深层处理有重要意义。该文以最大熵模型为基础来进行名实体识别,提出了基于《知网》的两种改进策略来增强模型的泛化性能。第一种策略是将《知网》中词的义原作为特征加入到最大熵模型中;第二种策略是利用《知网》来计算最大熵模型中词特征之间的概念相似度。在北京大学《人民日报》语料上的实验结果表明第一种策略可以有效地提高名实体识别的性能,第二种策略的改进效果不明显。 展开更多
关键词 计算机应用 中文信息处理 实体识别 概念相似度 《知网》 最大熵模型
在线阅读 下载PDF
中文名实体识别:基于词触发对的条件随机域方法 被引量:3
5
作者 赵健 王晓龙 +1 位作者 关毅 徐志明 《高技术通讯》 CAS CSCD 北大核心 2006年第8期795-801,共7页
首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算... 首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算上,采用了平均互信息(AMI)方法和χ^2统计量方法。通过在半年人民日报上的测试,结果表明在采用相同特征集合的条件下,条件随机域模型较其他概率模型有更好的性能表现;融合长距离触发对的条件随机域模型可以使系统的F量度提高约1.38%。 展开更多
关键词 中文实体识别 概率模型 条件随机域 词语触发对 信息抽取 自然语言处理
在线阅读 下载PDF
基于向量相似度计算的半监督的名实体识别 被引量:1
6
作者 谭红叶 赵铁军 王浩畅 《计算机工程与设计》 CSCD 北大核心 2008年第19期5047-5050,共4页
提出一种基于向量相似度计算的半监督的NER方法,主要思想是:首先利用bootstrapping方法获取NER所需的各种特征;然后将待测实例表示为实例特征向量,每一类名实体表示为类特征向量;最后根据每个类特征向量与实例特征向量的相似度进行分类... 提出一种基于向量相似度计算的半监督的NER方法,主要思想是:首先利用bootstrapping方法获取NER所需的各种特征;然后将待测实例表示为实例特征向量,每一类名实体表示为类特征向量;最后根据每个类特征向量与实例特征向量的相似度进行分类。在人民日报语料上选取疾病名、武器名、交通工具名进行相关测试,F测度分别为:77.4%,66.1%和73.1%,结果令人满意。 展开更多
关键词 实体识别 特征向量 向量相似度 半监督学习 自举
在线阅读 下载PDF
基于位置概率模型的哈萨克语人名识别 被引量:1
7
作者 冯鲸华 古丽拉.阿东别克 +1 位作者 吴守用 王花 《计算机应用与软件》 CSCD 2010年第12期21-23,91,共4页
针对哈萨克语文本中人名构成特点,提出了一种基于位置概率模型的哈萨克语人名可信度计算方法,构建了一个哈萨克语人名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利... 针对哈萨克语文本中人名构成特点,提出了一种基于位置概率模型的哈萨克语人名可信度计算方法,构建了一个哈萨克语人名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的人名进行识别,实验结果表明此方法可行。 展开更多
关键词 位置概率模型 哈萨克语人识别 实体名识别
在线阅读 下载PDF
基于N-gram语言模型的哈萨克文机构名识别 被引量:2
8
作者 冯鲸华 古丽拉.阿东别克 玛依来.哈帕尔 《计算机工程与应用》 CSCD 北大核心 2010年第31期135-138,共4页
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训... 针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的机构名进行识别,实验结果表明该方法可行。 展开更多
关键词 N—gram语言模型 哈萨克文机构识别 实体名识别
在线阅读 下载PDF
基于多角度关联模型的实体检索方法 被引量:1
9
作者 王东 牛军钰 《计算机工程》 CAS CSCD 2013年第1期71-75,共5页
针对信息检索领域特定类型实体的检索问题,在传统搜索引擎的基础上,提出一种基于多角度关联模型的实体检索方法,综合运用实体名识别(NER)、文本向量、关联规则等技术以及Wikipedia、Stanford NER等工具,并在TREC2010实体检索项目中进行... 针对信息检索领域特定类型实体的检索问题,在传统搜索引擎的基础上,提出一种基于多角度关联模型的实体检索方法,综合运用实体名识别(NER)、文本向量、关联规则等技术以及Wikipedia、Stanford NER等工具,并在TREC2010实体检索项目中进行评测。实验结果表明,与基于BM25和贝叶斯模型的检索方法相比,该方法的nDCG@R值平均提高11.49%和18.09%。 展开更多
关键词 文本挖掘 关联规则 实体检索 实体名识别 词频-逆文档频率 维基百科 搜索引擎
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部