期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
基于MacBERT的融合依存句法信息和多视角词汇信息的中文命名实体识别方法
1
作者 李代成 李晗 +1 位作者 刘哲宇 龚诗恒 《计算机科学》 北大核心 2025年第S1期278-285,共8页
在实体类型开放和实体结构复杂的中文环境下,中文命名实体识别任务存在明显的实体边界判断错误和实体分类准确率低等问题。为了进一步改善上述问题,提出了一种以字符作为编码单位,并基于MacBERT预训练模型的中文命名实体识别模型——Mac... 在实体类型开放和实体结构复杂的中文环境下,中文命名实体识别任务存在明显的实体边界判断错误和实体分类准确率低等问题。为了进一步改善上述问题,提出了一种以字符作为编码单位,并基于MacBERT预训练模型的中文命名实体识别模型——MacBERT-SDI-ML。首先,为了提取更丰富的中文语义特征,提高实体识别的准确性,模型采用MacBERT作为嵌入层。其次,为了进一步增强实体表示的特征,提高实体分类的准确性,模型通过一个依存句法信息解析器(SDIP)对实体更丰富的依存信息进行更高效的提取,并将其融合到字符表示中。此外,考虑到字符在不同的词汇中可能处在不同的位置,模型设计了一种基于自注意力机制的面向多视角的词汇信息融合组件(MLIF),来进一步增强字符表示的边界特征,有助于提高对边界判断的能力。最后,分别在Weibo,OntoNotes和Resume数据集上对模型进行训练。实验表明,MacBERT-SDI-ML模型在3个数据集上的F1值分别达到72.97%,86.56%和98.45%。 展开更多
关键词 中文命名实体识别 MacBERT 词汇信息 依存信息 预训练模型 自注意力机制
在线阅读 下载PDF
基于多特征融合和注意力机制的中文命名实体识别
2
作者 陈奕全 吴晓鸰 +1 位作者 占文韬 HEO Hoon 《小型微型计算机系统》 北大核心 2025年第2期339-345,共7页
近年来,基于字符级嵌入的BERT模型和基于词融合的模型都在中文命名实体识别领域取得了较好的效果,但目前这些模型从字符序列中提取出的特征信息还不够充分,模型性能还有一定的提升空间.因此本文提出了一种用于中文命名实体识别的多特征... 近年来,基于字符级嵌入的BERT模型和基于词融合的模型都在中文命名实体识别领域取得了较好的效果,但目前这些模型从字符序列中提取出的特征信息还不够充分,模型性能还有一定的提升空间.因此本文提出了一种用于中文命名实体识别的多特征融合模型,首先将输入中文语句转换为字词对序列,通过RoBERTa-wwm预训练语言模型将字词对序列中的字符序列表征为字符向量,获得全局语义特征;然后把词序列转化为词向量,再将字符向量和词向量输入到基于双线性注意力机制的词汇适配器获得字词融合特征;同时将字符向量送入到双向长短时记忆网络(BiLSTM)获得包含字符方向信息的上下文特征;最后将词汇适配器的输出和BiLSTM的输出进行动态特征融合获得包含全局语义信息、词汇信息和方向信息的上下文特征,再通过CRF解码获得最优预测序列.在多个公共数据集的实验结果验证了该模型能提取到更充分的特征信息,提高了识别性能. 展开更多
关键词 中文命名实体识别 多特征融合 词融合 预训练模型
在线阅读 下载PDF
基于多头注意力机制字词联合的中文命名实体识别 被引量:2
3
作者 王进 王猛旗 +2 位作者 张昕跃 孙开伟 朴昌浩 《江苏大学学报(自然科学版)》 CAS 北大核心 2024年第1期77-84,共8页
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低... 针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07. 展开更多
关键词 中文命名实体识别 词汇冗余 词汇边界信息 字词联合 多头注意力机制 BIE词集
在线阅读 下载PDF
RIB-NER:基于跨度的中文命名实体识别模型 被引量:1
4
作者 田红鹏 吴璟玮 《计算机工程与科学》 CSCD 北大核心 2024年第7期1311-1320,共10页
命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错... 命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错误分类。针对这个问题,提出基于跨度的命名实体识别模型RIB-NER。首先,以RoBERTa-wwm-ext作为模型嵌入层,提供字符级嵌入,以获得更多的上下文语义信息和词汇信息。其次,利用IDCNN的并行卷积核来增强词之间的位置信息,从而使词与词之间联系更加紧密。同时,在模型中融合BiLSTM网络来获取上下文信息。最后,采用双仿射模型对句子中的开始标记和结束标记评分,使用这些标记探索跨度。在MSRA和Weibo 2个语料库上的实验结果表明,RIB-NER能够较为准确地识别实体边界,并分别获得了95.11%和73.94%的F1值。与传统深度学习相比,有更好的识别效果。 展开更多
关键词 中文命名实体识别 双仿射模型 迭代膨胀卷积神经网络 预训练模型 跨度
在线阅读 下载PDF
基于词汇增强和对抗训练的中文命名实体识别
5
作者 杨竣辉 刘保冰 《计算机工程与设计》 北大核心 2024年第12期3712-3718,共7页
针对现有的中文命名实体识别的方法获取中文词级别的特征信息效果不理想且模型易受噪音影响而存在不稳定的问题,提出一种基于词汇增强和对抗训练的中文命名实体识别方法。将输入文本通过词汇增强模块获取到词汇向量,将预训练模型得到的... 针对现有的中文命名实体识别的方法获取中文词级别的特征信息效果不理想且模型易受噪音影响而存在不稳定的问题,提出一种基于词汇增强和对抗训练的中文命名实体识别方法。将输入文本通过词汇增强模块获取到词汇向量,将预训练模型得到的字符级嵌入向量和词汇向量进行字词融合;使用字词融合的嵌入向量通过MOA方式生成对抗样本;使用BiGRU和CRF分别获取语义编码信息并进行解码得到预测结果。实验结果表明,该方法在中文命名实体识别数据集Resume和中药说明书上的F1值分别达到97.14%和73.65%,验证了该模型的有效性。 展开更多
关键词 中文命名实体识别 词汇增强 预训练模型 字词融合 对抗训练 双向门控循环单元 条件随机场
在线阅读 下载PDF
中文命名实体识别研究综述 被引量:26
6
作者 赵继贵 钱育蓉 +2 位作者 王魁 侯树祥 陈嘉颖 《计算机工程与应用》 CSCD 北大核心 2024年第1期15-27,共13页
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界... 命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。 展开更多
关键词 自然语言处理 中文命名实体识别 深度学习 预训练模型 机器学习
在线阅读 下载PDF
基于词汇融合和依存关系的中文命名实体识别 被引量:1
7
作者 唐卓然 柳毅 《计算机工程》 CAS CSCD 北大核心 2024年第10期145-153,共9页
命名实体识别是自然语言处理领域的重要基础任务,为关系抽取、构建知识图谱等众多下游任务提供有价值的数据支撑。针对中文命名实体识别存在分词错误、实体边界模糊和上下文依赖的难点,以及现有方法不能充分利用词汇信息和有效提取文本... 命名实体识别是自然语言处理领域的重要基础任务,为关系抽取、构建知识图谱等众多下游任务提供有价值的数据支撑。针对中文命名实体识别存在分词错误、实体边界模糊和上下文依赖的难点,以及现有方法不能充分利用词汇信息和有效提取文本内部特征等问题,提出一种基于词汇融合和依存关系的中文命名实体识别模型。首先,获取输入文本中每个字符的自匹配词生成词汇特征向量,并根据字符在它的自匹配词上的位置得到词边界信息,利用双仿射注意力机制将字符向量与词汇特征向量进行融合,将词汇信息和词边界信息融入模型的编码过程,从而使模型获得良好的实体识别能力;然后,根据依存句法建立输入文本的依存图结构,利用图注意力网络(GAT)捕获输入文本内部依存关系特征,增强文本内部的语义依赖信息,同时有利于区分实体边界;最后,使用条件随机场(CRF)计算文本的标签。实验结果表明,该模型在CCKS2017、OntoNote4.0和MSRA数据集上分别获得了92.10%、80.76%和95.66%的F1值,优于对比模型。 展开更多
关键词 注意力机制 依存关系 词汇融合 图注意力网络 中文命名实体识别
在线阅读 下载PDF
融合外部知识和位置信息的中文命名实体识别 被引量:1
8
作者 李源 洛桑嘎登 蒋卫丽 《计算机工程与应用》 CSCD 北大核心 2024年第22期162-171,共10页
命名实体识别(named entity recognition,NER)是信息检索和自然语言处理领域重要且基础的任务。与英文不同,目前大部分的中文NER方法,都面临分词困扰、领域知识缺失的问题。针对以上问题,基于Lattice结构,提出一种结合知识图谱嵌入(know... 命名实体识别(named entity recognition,NER)是信息检索和自然语言处理领域重要且基础的任务。与英文不同,目前大部分的中文NER方法,都面临分词困扰、领域知识缺失的问题。针对以上问题,基于Lattice结构,提出一种结合知识图谱嵌入(knowledge graphs embedding,KGE)和带掩码位置信息的中文NER模型。Lattice语义信息的使用,为补充词粒度信息和解决分词问题奠定了结构基础。知识图谱嵌入的使用,为模型补充并定位了其所缺失的领域知识。而带掩码位置信息的使用,则较好地解决了由于知识图谱的引入而带来的知识噪声问题。所提出的方法在通用领域和垂直领域上均能取得较好的表现,在Weibo、Resume以及CCKS 2017上的F1值分别达到了74.01%、96.62%、94.95%。 展开更多
关键词 LATTICE 知识图谱嵌入 位置信息 中文命名实体识别
在线阅读 下载PDF
一种结合词汇信息特征的中文命名实体识别方法 被引量:1
9
作者 闫河 李尧 +1 位作者 雷秋霞 王旭 《小型微型计算机系统》 CSCD 北大核心 2024年第7期1622-1628,共7页
在中文命名实体识别任务中,基于字符级嵌入的模型通常仅采用BiLSTM网络获取序列中字符的上下文特征进行实体识别,并没有考虑到词汇信息特征能够在识别实体边界时提供更优的约束.针对此问题,该文提出了一种结合词汇信息特征的中文命名实... 在中文命名实体识别任务中,基于字符级嵌入的模型通常仅采用BiLSTM网络获取序列中字符的上下文特征进行实体识别,并没有考虑到词汇信息特征能够在识别实体边界时提供更优的约束.针对此问题,该文提出了一种结合词汇信息特征的中文命名实体识别方法.首先,采用带有残差连接的门控空洞卷积网络提取序列局部特征来表示词汇信息特征,以及采用BiGRU提取序列全局上下文信息特征,并添加句子级注意力机制来增强网络的长序列建模能力;其次,利用稀疏注意力机制对特征进行动态融合,获得包含词汇信息的文本特征;最后,运用CRF学习序列中的约束条件,得到最佳的实体标注结果.对比实验结果表明,该文方法在Resume和CLUENER2020数据集上优于主流的中文命名实体识别方法. 展开更多
关键词 中文命名实体识别 门控空洞卷积 稀疏注意力机制 词汇信息特征
在线阅读 下载PDF
融合多特征和句法引导的中文命名实体识别
10
作者 李莉 奚雪峰 +2 位作者 盛胜利 崔志明 周悦尧 《计算机工程与设计》 北大核心 2024年第11期3448-3456,共9页
针对基于字符的中文命名实体识别模型中所存在一词多义和实体边界潜在词歧义的问题,提出一种融合多层语义特征和句法依存引导的中文NER模型。将句法依存引导的注意力机制与双向长短期记忆网络(BiLSTM)结合,获得字特征向量。通过迭代卷... 针对基于字符的中文命名实体识别模型中所存在一词多义和实体边界潜在词歧义的问题,提出一种融合多层语义特征和句法依存引导的中文NER模型。将句法依存引导的注意力机制与双向长短期记忆网络(BiLSTM)结合,获得字特征向量。通过迭代卷积神经网络(IDCNN)提取汉字独有特征:部首与拼音。采用协同注意力机制对句法依存引导的多种向量进行特征融合。使用CRF层来获得最佳标记序列。在多个公开数据集上的实验结果表明了模型的有效性。 展开更多
关键词 中文命名实体识别 多特征融合 句法依存树 BERT 协同注意力机制 一词多义 潜在词歧义
在线阅读 下载PDF
基于小规模尾字特征的中文命名实体识别研究 被引量:26
11
作者 冯元勇 孙乐 +1 位作者 张大鲲 李文波 《电子学报》 EI CAS CSCD 北大核心 2008年第9期1833-1838,共6页
本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该... 本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列. 展开更多
关键词 中文命名实体识别 小规模尾字特征 条件随机场 自然语言处理 机器学习
在线阅读 下载PDF
深度学习中文命名实体识别研究进展 被引量:8
12
作者 李莉 奚雪峰 +2 位作者 盛胜利 崔志明 徐家保 《计算机工程与应用》 CSCD 北大核心 2023年第24期46-69,共24页
中文命名实体识别(CNER)指识别中文文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。近年来,深度学习技术依托其端到端的方法,自动学习到更深层次和更抽象的数据特征,摆脱了人工标注的依赖,解决了高维特征空间的数据... 中文命名实体识别(CNER)指识别中文文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。近年来,深度学习技术依托其端到端的方法,自动学习到更深层次和更抽象的数据特征,摆脱了人工标注的依赖,解决了高维特征空间的数据稀疏问题,从而逐渐成为中文命名实体识别方法的主流。回顾了命名实体识别的发展进程和CNER的特殊性和难点;围绕着中文命名实体识别的不同处理特点,将基于深度学习的中文命名实体识别的方法分类为扁平实体边界问题、中文嵌套命名实体识别和CNER小样本问题处理三个领域,并具体阐述这三类领域的模型、细分领域和最近的研究进展并整理了部分典型深度学习方法在相关数据集上的实验结果;再次总结了中文命名实体识别任务的常用数据集和评估方法;指出了当前中文命名实体识别技术面临的挑战和未来的研究方向。 展开更多
关键词 中文命名实体识别 深度学习 实体边界 中文嵌套命名实体识别 低资源中文命名实体识别
在线阅读 下载PDF
基于单字提示特征的中文命名实体识别快速算法 被引量:25
13
作者 冯元勇 孙乐 +1 位作者 李文波 张大鲲 《中文信息学报》 CSCD 北大核心 2008年第1期104-110,共7页
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降... 近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。 展开更多
关键词 计算机应用 中文信息处理 中文命名实体识别 条件随机场 自然语言处理 机器学习
在线阅读 下载PDF
基于含边界词性特征的中文命名实体识别 被引量:7
14
作者 邱莎 王付艳 +3 位作者 申浩如 段玻 阿圆 丁海燕 《计算机工程》 CAS CSCD 2012年第13期128-130,共3页
根据词性在任务中可能出现的特征表达,在字粒度一级,基于条件随机场模型,对词性特征在中文命名实体识别任务中的应用进行研究,提出一种将词性和词边界合成为一个特征项的方法。在相同实验环境下针对多种词性特征的应用情况,采用序列标... 根据词性在任务中可能出现的特征表达,在字粒度一级,基于条件随机场模型,对词性特征在中文命名实体识别任务中的应用进行研究,提出一种将词性和词边界合成为一个特征项的方法。在相同实验环境下针对多种词性特征的应用情况,采用序列标注的方式在公共语料上进行多次中文命名实体识别实验。通过对多次实验结果的比较分析得出,二级词性与词边界合成的特征在系统执行性能和识别效果等方面均为最优。 展开更多
关键词 中文命名实体识别 条件随机场 特征模板 词性 词边界 标注集
在线阅读 下载PDF
基于词典和字形特征的中文命名实体识别 被引量:6
15
作者 于舒娟 毛新涛 +1 位作者 张昀 黄丽亚 《中文信息学报》 CSCD 北大核心 2023年第3期112-122,共11页
命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了... 命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了一个基于词典和字形特征的中文命名实体识别模型,将词信息和结构信息统一地结合起来,提高了实体匹配的准确性。该文首先通过SoftLexicon方法丰富语义信息,并使用改进的部首级嵌入优化字符表示;然后通过门卷积网络加强了对潜在词和上下文信息的提取;最后在四个基准数据集上实验,结果表明与传统模型和最新模型相比,基于词典和字形特征的模型取得了显著的性能提升。 展开更多
关键词 中文命名实体识别 词典 字形特征
在线阅读 下载PDF
基于注意力机制特征融合的中文命名实体识别 被引量:8
16
作者 廖列法 谢树松 《计算机工程》 CAS CSCD 北大核心 2023年第4期256-262,共7页
命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局... 命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和BiLSTM的模型。使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用BiLSTM捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对Word2Vec等传统词向量方法无法表示词的多义性问题,使用RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集Resume和Weibo上F1值分别达到96.68%和71.29%,相比ID-CNN、BiLSTM、CAN-NER等方法,具有较优的识别效果。 展开更多
关键词 注意力机制 Transformer编码器 特征融合 中文命名实体识别 预训练模型
在线阅读 下载PDF
基于迁移学习和BiLSTM-CRF的中文命名实体识别 被引量:54
17
作者 武惠 吕立 于碧辉 《小型微型计算机系统》 CSCD 北大核心 2019年第6期1142-1147,共6页
针对中文命名实体识别问题,该文提出了一种基于迁移学习和深度学习的TrBiLSTM-CRF模型.该模型采用基于实例的迁移学习算法,通过权值生成和样本选择,将源域的知识迁移到目标域,有效地解决了深度学习对少量数据学习能力不足的问题;通过词... 针对中文命名实体识别问题,该文提出了一种基于迁移学习和深度学习的TrBiLSTM-CRF模型.该模型采用基于实例的迁移学习算法,通过权值生成和样本选择,将源域的知识迁移到目标域,有效地解决了深度学习对少量数据学习能力不足的问题;通过词向量、BiLSTM、CRF等操作融合了上下文语义信息,克服了对人工特征和专家知识的依赖.实验结果表明,TrBiLSTMCRF模型在小规模数据集上进行中文机构名命名实体识别时,其准确率、召回率和F值分别为91. 57%、72. 29%和0. 80%,相比于该文提到的其他方法,取得了较好的效果. 展开更多
关键词 中文命名实体识别 TrBiLSTM-CRF 迁移学习 深度学习 词向量
在线阅读 下载PDF
基于神经网络的片段级中文命名实体识别 被引量:21
18
作者 王蕾 谢云 +2 位作者 周俊生 顾彦慧 曲维光 《中文信息学报》 CSCD 北大核心 2018年第3期84-90,100,共8页
命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局... 命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局部字符标记区分实体边界。为了减弱系统对人工特征设计的依赖,避免字符序列化标注方法的不足,该文对基于神经网络的片段级中文命名实体识别方法进行探索研究。通过采用深度学习片段神经网络结构,实现特征的自动学习,并通过获取片段信息对片段整体分配标记,同时完成实体边界识别和分类。基于神经网络的片段级中文命名实体识别方法在MSRA数据集上对人名、地名和机构名识别的总体F1值达到了90.44%。 展开更多
关键词 深度学习 神经网络 片段级中文命名实体识别
在线阅读 下载PDF
用于社交媒体的中文命名实体识别 被引量:8
19
作者 李源 马磊 +2 位作者 邵党国 袁梅宇 张名芳 《中文信息学报》 CSCD 北大核心 2020年第8期61-69,共9页
社交领域的中文命名实体识别(NER)是自然语言处理(NLP)中一项重要的基础任务。目前基于词粒度信息或者外部知识的中文命名实体识别方法,都会受到中文分词(CWS)和溢出词(OOV)等问题的影响。因此,该文提出了一种基于字符的使用位置编码和... 社交领域的中文命名实体识别(NER)是自然语言处理(NLP)中一项重要的基础任务。目前基于词粒度信息或者外部知识的中文命名实体识别方法,都会受到中文分词(CWS)和溢出词(OOV)等问题的影响。因此,该文提出了一种基于字符的使用位置编码和多种注意力的对抗学习模型。联合使用位置编码和多头注意力能够更好地捕获字序间的依赖关系,而使用空间注意力的判别器则能改善对外部知识的提取效果。该文模型分别在Weibo2015数据集和Weibo2017数据集上进行了实验,实验结果中的F1值分别为56.79%和60.62%。与多个基线模型相比,该文提出的模型性能更优。 展开更多
关键词 位置编码 多种注意力机制 对抗学习 中文命名实体识别
在线阅读 下载PDF
基于图注意力网络字词融合的中文命名实体识别 被引量:10
20
作者 宋旭晖 于洪涛 李邵梅 《计算机工程》 CAS CSCD 北大核心 2022年第10期298-305,共8页
命名实体识别指识别文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。在命名实体识别任务中,协同图网络(CGN)模型通过引入多个图注意力网络获得较强的知识整合能力及较高的处理速度,但CGN模型在嵌入层中没有充分利用... 命名实体识别指识别文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。在命名实体识别任务中,协同图网络(CGN)模型通过引入多个图注意力网络获得较强的知识整合能力及较高的处理速度,但CGN模型在嵌入层中没有充分利用词边界信息,且采用的传统静态图注意力网络影响了图注意力的表达能力。在对CGN模型的图注意力网络进行改进的基础上,提出一种中文命名实体识别新模型,在嵌入层融入词语的分词信息,以生成包含词边界信息的字向量,从而充分利用词边界信息。通过在编码层使用BiLSTM模型获取文本的上下文信息,采用改进后的图注意力网络提取文本特征,并通过优化传统图注意力网络中相关系数的计算方式,增强模型的特征提取能力。最后,利用条件随机场对文本进行解码,从而实现对实体的标注。实验结果表明,该模型相比CGN模型在MSRA、OntoNotes4.0、Weibo数据集上的F1值分别提升了0.67%、3.16%、0.16%,验证了其在中文命名实体识别任务上的有效性。 展开更多
关键词 自然语言处理 中文命名实体识别 图注意力网络 字词融合 分词信息
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部