-
题名利用未标注语料改进实体名识别性能
被引量:3
- 1
-
-
作者
陈宁昱
周雅倩
黄萱菁
吴立德
-
机构
复旦大学计算机科学与工程系
-
出处
《中文信息学报》
CSCD
北大核心
2005年第2期7-11,27,共6页
-
基金
国家自然科学基金资助项目 (6 0 10 30 14 )
上海市科委重点研究项目资助 (0 35 115 0 2 8)
-
文摘
本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征。这些特征包括单词本身的词法词态特征和上下文信息。利用这些在任何语言的文本上都极易获得的特征 ,我们采用最大熵分类器构建了一个基准系统。在此基础上 ,我们首先通过网络资源建立了实体名词典知识库 ;并利用词典和基准系统在未标注语料上抽取出现的实体名作为辅助的训练语料 ;最后再将这些语料加入训练。实验结果表明 ,辅助的训练语料能够在一定程度上提高系统的性能。
-
关键词
计算机应用
中文信息处理
实体名识别
最大熵
未标注语料
-
Keywords
computer application
Chinese information processing
named entity recognition
maximum entropy
un-annotated data
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于膨胀卷积迭代与注意力机制的实体名识别方法
被引量:5
- 2
-
-
作者
吕江海
杜军平
周南
薛哲
-
机构
北京邮电大学计算机学院智能通信软件与多媒体北京市重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第1期58-65,71,共9页
-
基金
国家自然科学基金(61772083,61532006)
广西科技重大专项(AA18118054)。
-
文摘
针对传统实体名识别方法无法兼顾文本序列提取特征的有效性和神经网络模型训练速度的问题,提出一种基于迭代膨胀卷积神经网络(IDCNN)与注意力机制(ATT)的实体名识别方法。IDCNN可利用GPU并行计算的优化能力,保留长短期记忆神经网络的特性,即用简单的结构记录尽可能多的输入信息,并在准确提取文本序列特征的同时加快神经网络模型的训练速度。通过引入ATT运用文本语法信息和单词词性信息,从众多文本特征中选择对实体名识别更关键的特征,从而提高文本特征提取的准确性。在新闻数据集和微博数据集上的实验结果表明,神经网络模型的训练速度比传统的双向长短期记忆神经网络有显著提升,基于注意力的实体名识别方法的评价指标比传统的无注意力机制方法提高2%左右。
-
关键词
实体名识别
注意力机制
膨胀卷积
长短期记忆网络
条件随机场
-
Keywords
entity name recognition
Attention Mechanism(ATT)
dilated convolution
Long Short-Term Memory(LSTM)network
Conditional Random Field(CRF)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文名实体识别中的特征组合与特征融合的比较
被引量:7
- 3
-
-
作者
赵健
王晓龙
关毅
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《计算机应用》
CSCD
北大核心
2005年第11期2647-2649,共3页
-
基金
国家自然科学基金资助项目(60435020)
国家863计划项目(2002AA117010-09)
-
文摘
先分析了最大熵模型常用的特征线性组合方法中的权值偏置问题,然后提出了在线性组合之前,对特征进行融合,并根据融合特征和目标类别之间的互信息选择有效复合特征的方法。通过在包含2000个人名的语料库上的测试,表明特征融合能有效地提高名实体识别的精度和召回率。
-
关键词
名实体识别
特征组合
权值偏置
特征融合
最大熵模型
-
Keywords
named entity recognition( NER)
features combination
weight bias
fcatures fusion
maximum entropy model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名《知网》在命名实体识别中的应用研究
被引量:11
- 4
-
-
作者
郑逢强
林磊
刘秉权
孙承杰
-
机构
哈尔滨工业大学智能技术与自然语言处理实验室计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2008年第5期97-101,共5页
-
基金
国家自然科学基金资助项目(60435020
60673019)
+2 种基金
国家863计划资助项目(2006AA01Z197
2007AA01Z172)
黑龙江省自然科学基金资助项目(E200635)
-
文摘
命名实体识别是自然语言处理领域的一项基础研究,它对于语言的深层处理有重要意义。该文以最大熵模型为基础来进行名实体识别,提出了基于《知网》的两种改进策略来增强模型的泛化性能。第一种策略是将《知网》中词的义原作为特征加入到最大熵模型中;第二种策略是利用《知网》来计算最大熵模型中词特征之间的概念相似度。在北京大学《人民日报》语料上的实验结果表明第一种策略可以有效地提高名实体识别的性能,第二种策略的改进效果不明显。
-
关键词
计算机应用
中文信息处理
名实体识别
概念相似度
《知网》
最大熵模型
-
Keywords
computer application
Chinese information processing
named entity recognition
concept similarity
HowNet
maximum entropy model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文名实体识别:基于词触发对的条件随机域方法
被引量:3
- 5
-
-
作者
赵健
王晓龙
关毅
徐志明
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2006年第8期795-801,共7页
-
基金
国家自然科学重点基金(60435020)、863计划(2002AA117010-09)及哈尔滨工业大学校基金(HIT200271)资助项目.
-
文摘
首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算上,采用了平均互信息(AMI)方法和χ^2统计量方法。通过在半年人民日报上的测试,结果表明在采用相同特征集合的条件下,条件随机域模型较其他概率模型有更好的性能表现;融合长距离触发对的条件随机域模型可以使系统的F量度提高约1.38%。
-
关键词
中文名实体识别
概率模型
条件随机域
词语触发对
信息抽取
自然语言处理
-
Keywords
Chinese named entity recognition (CNER), probabilistic model, conditional random fields (CRF),word triggers, information extraction (IE), natural language processing (NLP)
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于向量相似度计算的半监督的名实体识别
被引量:1
- 6
-
-
作者
谭红叶
赵铁军
王浩畅
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第19期5047-5050,共4页
-
基金
国家自然科学基金项目(60575041、60473139、60775041)
国家863高技术研究发展计划基金项目(2006AA01Z150)
山西省青年科技基金项目(20051018)
-
文摘
提出一种基于向量相似度计算的半监督的NER方法,主要思想是:首先利用bootstrapping方法获取NER所需的各种特征;然后将待测实例表示为实例特征向量,每一类名实体表示为类特征向量;最后根据每个类特征向量与实例特征向量的相似度进行分类。在人民日报语料上选取疾病名、武器名、交通工具名进行相关测试,F测度分别为:77.4%,66.1%和73.1%,结果令人满意。
-
关键词
名实体识别
特征向量
向量相似度
半监督学习
自举
-
Keywords
named entity recognition (NER)
feature vector
vector similarity
semi-supervised learning
bootstrapping
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名基于位置概率模型的哈萨克语人名识别
被引量:1
- 7
-
-
作者
冯鲸华
古丽拉.阿东别克
吴守用
王花
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机应用与软件》
CSCD
2010年第12期21-23,91,共4页
-
基金
国家自然科学基金项目(60763005)
国家教育部
国家语委民族语言文字规范标准建设及信息化科研项目(MZ115-92)
-
文摘
针对哈萨克语文本中人名构成特点,提出了一种基于位置概率模型的哈萨克语人名可信度计算方法,构建了一个哈萨克语人名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的人名进行识别,实验结果表明此方法可行。
-
关键词
位置概率模型
哈萨克语人名识别
实体名识别
-
Keywords
Position probability model Kazakh personal name recognition Name entity recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于N-gram语言模型的哈萨克文机构名识别
被引量:2
- 8
-
-
作者
冯鲸华
古丽拉.阿东别克
玛依来.哈帕尔
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第31期135-138,共4页
-
基金
国家自然科学基金No.60763005
国家教育部
国家语委民族语言文字规范标准建设及信息化科研项目(No.MZ115-92)~~
-
文摘
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的机构名进行识别,实验结果表明该方法可行。
-
关键词
N—gram语言模型
哈萨克文机构名识别
实体名识别
-
Keywords
N-gram model
recognition of Kazakh organization name
name entity recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多角度关联模型的实体检索方法
被引量:1
- 9
-
-
作者
王东
牛军钰
-
机构
复旦大学计算机科学技术学院
-
出处
《计算机工程》
CAS
CSCD
2013年第1期71-75,共5页
-
基金
国家"863"计划基金资助项目(2009AA01Z429)
-
文摘
针对信息检索领域特定类型实体的检索问题,在传统搜索引擎的基础上,提出一种基于多角度关联模型的实体检索方法,综合运用实体名识别(NER)、文本向量、关联规则等技术以及Wikipedia、Stanford NER等工具,并在TREC2010实体检索项目中进行评测。实验结果表明,与基于BM25和贝叶斯模型的检索方法相比,该方法的nDCG@R值平均提高11.49%和18.09%。
-
关键词
文本挖掘
关联规则
实体检索
实体名识别
词频-逆文档频率
维基百科
搜索引擎
-
Keywords
text mining
association rule
entity retrieval
Named Entity Recognition(NER)
Term Frequency Inverse Document Frequency(TF-IDF)
Wikipedia
search engine
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-