期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于词汇增强和表格填充的中文命名实体识别
1
作者 褚天舒 唐球 +3 位作者 梁军学 徐睿 王明阳 刘涛 《电子技术应用》 2024年第2期23-29,共7页
中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分... 中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分词困难的问题,使用词典适配器将词汇信息融合到BERT预训练模型,并且将字符与词汇组的相对位置信息集成到BERT的嵌入层中;然后通过条件层归一化和双仿射模型构造并预测字符对表格,使用表格建模字符与字符之间的关系,得到平面实体与嵌套实体的统一表示;最后根据字符对表格上三角区域的数值判断实体类别。提出的模型在平面实体的公开数据集Resume和自行标注的军事领域嵌套实体数据集上F1分别是97.35%和91.96%,证明了TLEXNER模型的有效性。 展开更多
关键词 词汇增强 中文命名实体识别 表格填充
在线阅读 下载PDF
基于小规模尾字特征的中文命名实体识别研究 被引量:26
2
作者 冯元勇 孙乐 +1 位作者 张大鲲 李文波 《电子学报》 EI CAS CSCD 北大核心 2008年第9期1833-1838,共6页
本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该... 本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列. 展开更多
关键词 中文命名实体识别 小规模尾字特征 条件随机场 自然语言处理 机器学习
在线阅读 下载PDF
词典信息分层调整的中文命名实体识别方法 被引量:4
3
作者 李宝昌 郭卫斌 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期276-283,共8页
在中文命名实体识别任务中,字信息融合词汇信息能丰富文本特征,但一个字可能对应多个候选词汇,容易产生词汇冲突,融合无关词汇信息会影响模型的识别效果,对此提出了词典信息分层调整的中文命名实体识别方法。首先将所有潜在词语按照词... 在中文命名实体识别任务中,字信息融合词汇信息能丰富文本特征,但一个字可能对应多个候选词汇,容易产生词汇冲突,融合无关词汇信息会影响模型的识别效果,对此提出了词典信息分层调整的中文命名实体识别方法。首先将所有潜在词语按照词语长度进行分层,通过高层词语反馈调整低层词语的权重来保留更有用的信息,以此缓解语义偏差问题和降低词汇冲突影响;然后将词汇信息拼接到字信息来增强文本特征表示。在Resume和Weibo数据集上的实验结果表明,本文方法与传统方法相比具有更优的效果。 展开更多
关键词 词典信息 分层调整 字词融合 特征增强 中文命名实体识别
在线阅读 下载PDF
基于深度学习的中文命名实体识别综述 被引量:12
4
作者 郑洪浩 宋旭晖 +2 位作者 于洪涛 李邵梅 郝一诺 《信息工程大学学报》 2021年第5期590-596,共7页
命名实体识别作为信息抽取的核心任务,能够从文本中识别出各类命名实体。近年来,深度学习技术在字词表示、特征提取等方面上的应用,使中文命名实体识别任务取得了较为丰富的研究成果。目前,基于深度学习的中文命名实体识别技术,在特征... 命名实体识别作为信息抽取的核心任务,能够从文本中识别出各类命名实体。近年来,深度学习技术在字词表示、特征提取等方面上的应用,使中文命名实体识别任务取得了较为丰富的研究成果。目前,基于深度学习的中文命名实体识别技术,在特征提取的深度和模型的精确度上已逐渐超过了传统的基于规则的方法、基于特征工程的有监督方法和基于无监督的方法。围绕深度学习的识别框架,将现有基于深度学习的中文命名实体识别方法分嵌入层、编码层和标签解码层三部分进行介绍,并对未来可能的研究方向进行探讨和展望。 展开更多
关键词 中文命名实体识别 深度学习 嵌入层 编码层 标签解码层
在线阅读 下载PDF
基于深度学习的中文命名实体识别研究 被引量:6
5
作者 王雪梅 陶宏才 《成都信息工程大学学报》 2020年第3期264-270,共7页
针对经典BiLSTM-CRF命名实体识别模型训练时间长、无法解决一词多义及不能充分学习文本上下文语义信息的问题,提出一种基于BERT-BiGRU-Attention-CRF的中文命名实体识别模型.首先利用BERT语言模型预训练词向量,以弥补传统词向量模型无... 针对经典BiLSTM-CRF命名实体识别模型训练时间长、无法解决一词多义及不能充分学习文本上下文语义信息的问题,提出一种基于BERT-BiGRU-Attention-CRF的中文命名实体识别模型.首先利用BERT语言模型预训练词向量,以弥补传统词向量模型无法解决一词多义的问题;其次,利用双向门控循环单元(BiGRU)神经网络层对文本深层次的信息进行特征提取,计算每个标签的预测分值,得到句子的隐藏状态序列;然后利用注意力机制(Attention)层对词加权表征,挖掘词间的关联关系,得到新预测分值,新状态序列;最后通过条件随机场(CRF)对新预测分值计算全局最优解,从而获得模型对实体标签的最终预测结果.通过在MSRA语料上的实验,结果表明文中模型的有效性. 展开更多
关键词 中文命名实体识别 BERT BiGRU ATTENTION CRF
在线阅读 下载PDF
基于XLnet嵌入的中文命名实体识别方法 被引量:6
6
作者 郑洪浩 郝一诺 于洪涛 《信息工程大学学报》 2021年第4期473-477,共5页
命名实体识别是自然语言处理的核心任务。在基于深度学习的中文命名实体识别方法中,静态字向量无法表征字的多义性。针对该问题,提出了基于XLnet嵌入的中文命名实体识别方法。该方法首先通过XLnet(Generalized Autoregressive Pretraini... 命名实体识别是自然语言处理的核心任务。在基于深度学习的中文命名实体识别方法中,静态字向量无法表征字的多义性。针对该问题,提出了基于XLnet嵌入的中文命名实体识别方法。该方法首先通过XLnet(Generalized Autoregressive Pretraining for Language Understanding,XLnet)模型获取字级别的上下文表示。其次,利用BiLSTM-CRF模型获取文本依赖信息和标签信息。实验结果表明,该方法在人民日报、MSRA、Boson等3种数据集上分别达到91.9%、89.8%、74%的F1值,均高于其他主流的中文命名实体识别方法。 展开更多
关键词 中文命名实体识别 预训练语言模型 XLnet模型
在线阅读 下载PDF
基于循环和卷积神经网络融合的中文命名实体识别与应用 被引量:1
7
作者 汪小龙 吴曲宁 范佳佳 《兰州工业学院学报》 2021年第3期77-82,共6页
针对中文命名实体识别中循环神经网络不能很好地处理长序列问题,以及用单一向量去表征汉字时,由于汉字存在多义性而导致识别结果不佳的问题,提出一种识别效果更好的方法——BLDC-NER模型.首先利用BERT(Bidirectional Encoder Representa... 针对中文命名实体识别中循环神经网络不能很好地处理长序列问题,以及用单一向量去表征汉字时,由于汉字存在多义性而导致识别结果不佳的问题,提出一种识别效果更好的方法——BLDC-NER模型.首先利用BERT(Bidirectional Encoder Representations from Transformers)预训练模型根据字的上下文语境生成字的动态语义向量,然后将字向量序列分别通过双向长短时记忆网络层和膨胀卷积层进行语义编码,融合2个网络层输出的语义向量,经过条件随机场得到最终结果.试验结果表明:BLDC-NER模型在训练过程中比单一循环神经网络收敛速度更快,识别效果更好,在MSRA、RESUME公开数据集上的F 1值分别达到了94.78%、95.68%;另外,将BLDC-NER模型应用在建筑施工安全事故领域,在自制的数据集上F 1值为95.24%. 展开更多
关键词 中文命名实体识别 BERT模型 双向长短时神经网络 膨胀卷积神经网络 建筑施工安全
在线阅读 下载PDF
中文命名实体识别的傅立叶卷积网络
8
作者 李彪 《现代信息科技》 2022年第2期104-106,共3页
针对transformer编码器架构在中文命名实体识别任务上表现不佳的问题,提出使用无参数化的傅立叶子层替换编码器中自注意力子层,使用卷积神经网络替代前馈神经网络。实验表明,采用结合傅立叶变换和卷积神经网络的transformer encoder架... 针对transformer编码器架构在中文命名实体识别任务上表现不佳的问题,提出使用无参数化的傅立叶子层替换编码器中自注意力子层,使用卷积神经网络替代前馈神经网络。实验表明,采用结合傅立叶变换和卷积神经网络的transformer encoder架构的算法,可以在较小的字符嵌入和参数量下实现性能提升,且训练过程更快。 展开更多
关键词 中文命名实体识别 编码器 傅立叶变换 卷积神经网络
在线阅读 下载PDF
基于局部增强的中文医疗命名实体识别模型
9
作者 陈晶 邢珂萱 +2 位作者 孟伟伦 郭景峰 冯建周 《通信学报》 EI CSCD 北大核心 2024年第7期171-183,共13页
医学实体的识别往往受到其相邻上下文的影响,目前的命名实体识别方法通常依赖于BiLSTM捕捉文本中的全局依赖关系,缺乏对字符之间局部依赖关系的建模。针对这一问题,提出了一种基于局部增强的中文医疗命名实体识别模型LENER。首先,LENER... 医学实体的识别往往受到其相邻上下文的影响,目前的命名实体识别方法通常依赖于BiLSTM捕捉文本中的全局依赖关系,缺乏对字符之间局部依赖关系的建模。针对这一问题,提出了一种基于局部增强的中文医疗命名实体识别模型LENER。首先,LENER使用包括字音、字形和语义在内的多源信息来丰富底层字符表征。然后,结合相对位置编码对滑动窗口划分出的序列片段进行局部注意力计算,并通过非线性计算融合局部信息和BiLSTM得到的全局信息。最后,对识别出的实体头部和尾部进行组合,进而提取出实体。实验结果表明,LENER模型具有良好的实体识别能力,与其他模型相比,LENER模型的F1值提升了0.5%~2.0%。 展开更多
关键词 中文命名实体识别 上下文环境 注意力机制 多源信息 滑动窗口
在线阅读 下载PDF
基于深度学习的网络安全命名实体识别方法 被引量:1
10
作者 李大岭 张浩军 +1 位作者 王家慧 李世龙 《无线电工程》 2024年第3期644-652,共9页
针对中文网络安全领域缺乏公开数据集和有效的命名实体识别(Named Entity Recognition,NER)方法,提出一种融合汉字多源信息的网络安全NER方法。通过构建数据集中所有字符的偏旁和字频向量表,增强了中文字向量的特征表达能力,嵌入到改进... 针对中文网络安全领域缺乏公开数据集和有效的命名实体识别(Named Entity Recognition,NER)方法,提出一种融合汉字多源信息的网络安全NER方法。通过构建数据集中所有字符的偏旁和字频向量表,增强了中文字向量的特征表达能力,嵌入到改进的词汇融合模型中进行字向量与词向量的融合,输入到条件随机场(Conditional Random Fields,CRF)进行解码。实验结果表明,该方法在保持较快解码速度和占用较低计算机资源的情况下,在网络安全数据集上,其准确率、召回率和F1值分别为0.8649、0.8402和0.8523,均优于现有模型,能够为后续网络安全知识图谱的构建提供支撑。 展开更多
关键词 网络安全 中文命名实体识别 预训练模型 词向量融合 条件随机场
在线阅读 下载PDF
为上下文显式独立建模的中文实体识别方法
11
作者 陈点 曹逸轩 罗平 《高技术通讯》 CAS 北大核心 2024年第8期787-797,共11页
现有中文命名实体识别(NER)模型在公开数据集上的表现相对成熟,但有研究指出,模型过度依赖实体文本的字面特征,而上下文对实体识别的影响却未得到重视。现有的模型在简单的泛化测试中表现较差,因此本文提出显式地为上下文独立建模,令模... 现有中文命名实体识别(NER)模型在公开数据集上的表现相对成熟,但有研究指出,模型过度依赖实体文本的字面特征,而上下文对实体识别的影响却未得到重视。现有的模型在简单的泛化测试中表现较差,因此本文提出显式地为上下文独立建模,令模型对上下文和实体的字面信息进行区分。为此,也提出了相应的数据增强方法用于训练模型中的上下文模块、实体字面模块和综合模块。实验结果表明,本文提出的方法在不损失测试集识别效果的情况下,明显改善了模型在不变性测试中的表现,较基准模型其失败率降低了2.3%。 展开更多
关键词 自然语言处理 中文命名实体识别(NER) 上下文独立建模 数据增强
在线阅读 下载PDF
基于BBWC模型的中文叙事性文本命名实体识别研究
12
作者 应德浩 蔡文晖 +2 位作者 尹旷 李宇涛 李治江 《数字印刷》 CAS 北大核心 2021年第3期92-102,110,共12页
中文叙事性文本的命名实体识别往往受限于中文的一词多义性和上下文结合不充分,难以在识别人名、地名、机构名的同时,将普通名词、数词、介词、方位词也作为特殊的实体进行识别。针对这一问题,本研究对少量叙事性文本语料进行人工标注后... 中文叙事性文本的命名实体识别往往受限于中文的一词多义性和上下文结合不充分,难以在识别人名、地名、机构名的同时,将普通名词、数词、介词、方位词也作为特殊的实体进行识别。针对这一问题,本研究对少量叙事性文本语料进行人工标注后,采取基于同类实体随机替换的数据增强方法,扩大了训练数据集,又考虑到分词对正确识别实体边界的帮助,搭建了BBWC(BERT-BiLSTM+WS-CRF)的中文命名实体识别模型,在测试集中提取出相应实体和实体数量及位置信息。实验结果表明,该命名实体识别模型,在小说、寓言、童话这三个中文叙事性文本数据集上分别获得了90.07%、90.25%和89.31%的F1值,相较于几种基线模型有明显提升,验证了该方法在不使用额外特征且数据集不充分条件下进行中文叙事性文本命名实体识别的有效性。 展开更多
关键词 中文命名实体识别 数据增强 中文分词 叙事性文本
在线阅读 下载PDF
融合多种使用词信息方法的命名实体识别研究
13
作者 郭鹏 刘俊南 《现代信息科技》 2021年第6期25-27,31,共4页
文章对融合词信息增强中文命名实体识别问题进行了研究,提出一种用于中文命名实体识别的融合词信息神经网络模型系统。首先使用预训练语言模型Bert对字进行编码得到字标识,然后使用SoftLexicon基于统计的方法将词统计语义信息融合进入... 文章对融合词信息增强中文命名实体识别问题进行了研究,提出一种用于中文命名实体识别的融合词信息神经网络模型系统。首先使用预训练语言模型Bert对字进行编码得到字标识,然后使用SoftLexicon基于统计的方法将词统计语义信息融合进入字表示中,之后使用设计的GraphLexicon根据文本内字、词之间的交互关系图结构,将字词信息表示相互融合,达到较高的命名实体识别准确率。 展开更多
关键词 中文命名实体识别 图神经网络 融合 词信息 字词交互 图结构
在线阅读 下载PDF
基于预训练模型的基层治理敏感实体识别方法
14
作者 吴磊 汪杭军 《电子技术应用》 2023年第9期109-114,共6页
基层治理产生的大量敏感数据可通过数据脱敏去除隐私内容,但这些数据包含较多非结构化文本数据,难以直接进行数据脱敏。因此,需要对非结构化文本数据进行命名实体识别以提取敏感数据。首先把敏感实体分为16类并对信访文本进行标注,输入... 基层治理产生的大量敏感数据可通过数据脱敏去除隐私内容,但这些数据包含较多非结构化文本数据,难以直接进行数据脱敏。因此,需要对非结构化文本数据进行命名实体识别以提取敏感数据。首先把敏感实体分为16类并对信访文本进行标注,输入层表示采用预训练模型BERT,编码层利用双向长短时记忆网络汲取上下文信息,解码层通过条件随机场模型优化序列,构建了较高精度的基层治理敏感实体识别模型。针对脱敏工作需要,改变假阴性和假阳性的loss权重,并采用敏感实体框选率辅助评价模型性能。在基层治理信访数据集和公共数据集MSRA上进行实验,F1值分别为88.38%和90.11%,相较于基准模型提升了4.64%和3.78%。该模型可应用于非结构化文本的敏感实体识别,识别成功率高。现有评价指标未能较好地反映敏感实体的间接推理关系,应当探索更完善的敏感实体评价体系。 展开更多
关键词 预训练语言模型 基层治理 中文命名实体识别 数据脱敏
在线阅读 下载PDF
基于BERT多知识图融合嵌入的中文NER模型 被引量:2
15
作者 张凤荔 黄鑫 +2 位作者 王瑞锦 周志远 韩英军 《电子科技大学学报》 EI CAS CSCD 北大核心 2023年第3期390-397,共8页
针对目前特定领域知识图谱构建效率低、领域已有知识图谱利用率不足、传统模型提取领域语义专业性强实体困难的问题,提出了基于BERT多知识图融合嵌入的中文NER模型(BERT-FKG),实现了对多个知识图通过融合语义进行实体间属性共享,丰富了... 针对目前特定领域知识图谱构建效率低、领域已有知识图谱利用率不足、传统模型提取领域语义专业性强实体困难的问题,提出了基于BERT多知识图融合嵌入的中文NER模型(BERT-FKG),实现了对多个知识图通过融合语义进行实体间属性共享,丰富了句子嵌入的知识。该模型在开放域和医疗领域的中文NER任务中,表现出了更好的性能。实验结果表明,多个领域知识图通过计算语义相似度进行相似实体的属性共享,能够使模型吸纳更多的领域知识,提高在NER任务中的准确率。 展开更多
关键词 BERT 中文命名实体识别 医疗领域 多知识图融合嵌入
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部