期刊文献+
共找到707篇文章
< 1 2 36 >
每页显示 20 50 100
RIB-NER:基于跨度的中文命名实体识别模型 被引量:1
1
作者 田红鹏 吴璟玮 《计算机工程与科学》 CSCD 北大核心 2024年第7期1311-1320,共10页
命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错... 命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错误分类。针对这个问题,提出基于跨度的命名实体识别模型RIB-NER。首先,以RoBERTa-wwm-ext作为模型嵌入层,提供字符级嵌入,以获得更多的上下文语义信息和词汇信息。其次,利用IDCNN的并行卷积核来增强词之间的位置信息,从而使词与词之间联系更加紧密。同时,在模型中融合BiLSTM网络来获取上下文信息。最后,采用双仿射模型对句子中的开始标记和结束标记评分,使用这些标记探索跨度。在MSRA和Weibo 2个语料库上的实验结果表明,RIB-NER能够较为准确地识别实体边界,并分别获得了95.11%和73.94%的F1值。与传统深度学习相比,有更好的识别效果。 展开更多
关键词 中文命名实体识别 双仿射模型 迭代膨胀卷积神经网络 预训练模型 跨度
在线阅读 下载PDF
基于BERT-TENER的服装质量抽检通告命名实体识别
2
作者 陈进东 胡超 +1 位作者 郝凌霄 曹丽娜 《科学技术与工程》 北大核心 2024年第34期14754-14764,共11页
识别服装质量抽检通告中的实体信息,对于评估不同区域的服装质量状况以及制定宏观政策具有重要意义。针对质量抽检通告命名实体识别存在的长文本序列信息丢失、小类样本特征学习不全等问题,以注意力机制为核心,提出了基于BERT(bidirecti... 识别服装质量抽检通告中的实体信息,对于评估不同区域的服装质量状况以及制定宏观政策具有重要意义。针对质量抽检通告命名实体识别存在的长文本序列信息丢失、小类样本特征学习不全等问题,以注意力机制为核心,提出了基于BERT(bidirectional encoder representations from transformers)和TENER(transformer encoder for NER)模型的领域命名实体识别模型。BERT-TENER模型通过预训练模型BERT获得字符的动态字向量;将字向量输入TENER模块中,基于注意力机制使得同样的字符拥有不同的学习过程,基于改进的Transformer模型进一步捕捉字符与字符之间的距离和方向信息,增强模型对不同长度、小类别文本内容的理解,并采用条件随机场模型获得每个字符对应的实体标签。在领域数据集上,BERT-TENER模型针对服装抽检领域的实体识别F_1达到92.45%,相较传统方法有效提升了命名实体识别率,并且在长文本以及非均衡的实体类别中也表现出较好的性能。 展开更多
关键词 命名实体识别 服装质量抽检通告 BERT(Bidirectional encoder representations from transformers) TEner(transformer encoder for ner)
在线阅读 下载PDF
基于全域信息融合和多维关系感知的命名实体识别模型 被引量:1
3
作者 胡婕 武帅星 +1 位作者 曹芝兰 张龑 《计算机应用》 北大核心 2025年第5期1511-1519,共9页
现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations fr... 现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations from Transformers)获取输入序列的向量表示,并结合BiLSTM进一步学习输入序列的上下文信息。其次,提出由梯度稳定层和特征融合模块组成的全域信息融合机制:前者使模型保持稳定的梯度传播并更新优化输入序列的表示,后者则融合BiLSTM的前后向表示获取更全面的特征表示。接着,构建多维关系感知结构学习不同子空间单词的关联性,以捕获文档中复杂的实体关系。此外,使用自适应焦点损失函数动态调整不同类别实体的权重,提高模型对少数类实体的识别性能。最后,在7个公开数据集上将所提模型和11个基线模型进行对比,实验结果表明所提模型的F1值均优于对比模型,可见该模型的综合性较优。 展开更多
关键词 命名实体识别 全域信息融合机制 梯度稳定层 多维关系感知 自适应焦点损失
在线阅读 下载PDF
融合知识图谱和大模型的高校科研管理问答系统设计 被引量:3
4
作者 王永 秦嘉俊 +1 位作者 黄有锐 邓江洲 《计算机科学与探索》 北大核心 2025年第1期107-117,共11页
科研管理是高校管理中的重要组成部分,但现有的科研管理系统难以满足用户的个性化需求。以高校科研管理向智能化转型为需求导向,将知识图谱、传统模型和大语言模型相结合,共同构建新一代高校科研管理问答系统。采集科研知识用于构建科... 科研管理是高校管理中的重要组成部分,但现有的科研管理系统难以满足用户的个性化需求。以高校科研管理向智能化转型为需求导向,将知识图谱、传统模型和大语言模型相结合,共同构建新一代高校科研管理问答系统。采集科研知识用于构建科研知识图谱。利用同时进行意图分类和实体提取的多任务模型进行语义解析。借助解析结果来生成查询语句,并从知识图谱中检索信息来回复常规问题。将大语言模型与知识图谱相结合,以辅助处理开放性问题。在意图和实体具有关联的数据集上的实验结果表明,采用的多任务模型在意图分类和实体识别任务上的F1值分别为0.958和0.937,优于其他对比模型和单任务模型。Cypher生成测试表明了自定义Prompt在激发大语言模型涌现能力方面的成效,利用大语言模型实现文本生成Cypher的准确率达到85.8%,有效处理了基于知识图谱的开放性问题。采用知识图谱、传统模型和大语言模型搭建的问答系统的准确性为0.935,很好地满足了智能问答的需求。 展开更多
关键词 知识图谱 多任务模型 意图分类 命名实体识别 大语言模型
在线阅读 下载PDF
基于知识图谱的钻井顶部驱动装置故障智能诊断方法 被引量:1
5
作者 陈冬 肖远山 +2 位作者 尹志勇 张彦龙 叶智慧 《天然气工业》 北大核心 2025年第2期125-135,共11页
钻井顶部驱动装置结构复杂、故障类型多样,现有的故障树分析法和专家系统难以有效应对复杂多变的现场情况。为此,利用知识图谱在结构化与非结构化信息融合、故障模式关联分析以及先验知识传递方面的优势,提出了一种基于知识图谱的钻井... 钻井顶部驱动装置结构复杂、故障类型多样,现有的故障树分析法和专家系统难以有效应对复杂多变的现场情况。为此,利用知识图谱在结构化与非结构化信息融合、故障模式关联分析以及先验知识传递方面的优势,提出了一种基于知识图谱的钻井顶部驱动装置故障诊断方法,利用以Transformer为基础的双向编码器模型(Bidirectional Encoder Representations from Transformers,BERT)构建了混合神经网络模型BERT-BiLSTM-CRF与BERT-BiLSTM-Attention,分别实现了顶驱故障文本数据的命名实体识别和关系抽取,并通过相似度计算,实现了故障知识的有效融合和智能问答,最终构建了顶部驱动装置故障诊断方法。研究结果表明:①在故障实体识别任务上,BERT-BiLSTM-CRF模型的精确度达到95.49%,能够有效识别故障文本中的信息实体;②在故障关系抽取上,BERT-BiLSTM-Attention模型的精确度达到93.61%,实现了知识图谱关系边的正确建立;③开发的问答系统实现了知识图谱的智能应用,其在多个不同类型问题上的回答准确率超过了90%,能够满足现场使用需求。结论认为,基于知识图谱的故障诊断方法能够有效利用顶部驱动装置的先验知识,实现故障的快速定位与智能诊断,具备良好的应用前景。 展开更多
关键词 钻井装备 顶部驱动装置 故障诊断 深度学习 知识图谱 自然语言处理 命名实体识别 智能问答系统
在线阅读 下载PDF
层次融合多元知识的命名实体识别框架——HTLR
6
作者 吕学强 王涛 +1 位作者 游新冬 徐戈 《计算机应用》 北大核心 2025年第1期40-47,共8页
中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hi... 中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。 展开更多
关键词 命名实体识别 自然语言处理 知识图谱构建 词汇增强 字形增强
在线阅读 下载PDF
FGITA:一种基于细粒度对齐的多模态命名实体识别框架
7
作者 吕学强 王涛 +3 位作者 游新冬 赵海兴 才藏太 陈玉忠 《小型微型计算机系统》 北大核心 2025年第4期769-775,共7页
命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实... 命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实体识别任务广受重视.然而,现有的多模态命名实体识别方法中,存在跨模态知识间的细粒度对齐不足问题,文本表征会融合语义不相关的图像信息,进而引入噪声.为了解决这些问题,提出了一种基于细粒度图文对齐的多模态命名实体识别方法(FGITA:A Multi-Modal NER Frame based on Fine-Grained Image-Text Alignment).首先,该方法通过目标检测、语义相似性判断等,确定更为细粒度的文本实体和图像子对象之间的语义相关性;其次,通过双线性注意力机制,计算出图像子对象与实体的相关性权重,并依据权重将子对象信息融入到实体表征中;最后,提出了一种跨模态对比学习方法,依据图像和实体之间的匹配程度,优化实体和图像在嵌入空间中的距离,借此帮助实体表征学习相关的图像信息.在两个公开数据集上的实验表明,FGITA优于5个主流多模态命名实体识别方法,验证了方法的有效性,同时验证了细粒度跨模态对齐在多模态命名实体识别任务中的重要性和优越性. 展开更多
关键词 多模态 命名实体识别 信息抽取 知识图谱 对比学习
在线阅读 下载PDF
基于模块交互和依存关系的生物医学事件检测
8
作者 张勇 左皓阳 +1 位作者 苏莹 周光有 《中文信息学报》 北大核心 2025年第6期119-126,共8页
该文提出一种基于模块交互和依存关系的生物医学事件检测模型。该模型在事件检测模块中融入了命名实体识别模块与图卷积策略,充分利用数据集中的标注信息和远距离依存关系来提高文本的语义表示。该模型同时构造了一个命名实体识别模块... 该文提出一种基于模块交互和依存关系的生物医学事件检测模型。该模型在事件检测模块中融入了命名实体识别模块与图卷积策略,充分利用数据集中的标注信息和远距离依存关系来提高文本的语义表示。该模型同时构造了一个命名实体识别模块和一个事件检测模块,并将命名实体识别模块中训练的语义特征拼接到事件检测模块,以增强事件检测的语义信息。同时,该模型还在事件检测模块中集成了基于门控机制的图卷积层,以利用依存句法信息来提高单词之间远距离依存关系的建模能力。在生物医学事件检测数据集上的实验结果显示,该模型的F_(1)值达到了81.63%,整体性能优于其他模型,显示了模块交互与图卷积策略在提升生物医学事件检测方面的有效性。 展开更多
关键词 生物医学事件检测 模块交互 命名实体识别 图卷积
在线阅读 下载PDF
PCB工艺FMEA领域知识图谱构建与应用
9
作者 叶进 林琦越 +2 位作者 唐欣 王秋祥 胡宁 《计算机工程与应用》 北大核心 2025年第11期227-237,共11页
随着电子产品的快速发展,产业链厂商对印制电路板(PCB)的失效模式和影响分析(FMEA)提出了更高水平要求,传统的FMEA分析方法已经不能满足复杂电子产品的需求。为此提出了一套PCB工艺FMEA知识图谱构建与应用框架,实现端到端的FMEA分析新... 随着电子产品的快速发展,产业链厂商对印制电路板(PCB)的失效模式和影响分析(FMEA)提出了更高水平要求,传统的FMEA分析方法已经不能满足复杂电子产品的需求。为此提出了一套PCB工艺FMEA知识图谱构建与应用框架,实现端到端的FMEA分析新模式。在图谱构建过程中,针对大量实体为复杂句子的特点,训练了一个加入PCB与FMEA特征词典的FLEBERT NER模型,实现对失效数据的实体识别,实验对比证明效果良好;对识别的实体采用Sentence-BERT结合FLEBERT预训练模型进行实体对齐,提升知识的质量;通过Neo4j进行知识存储完成知识图谱构建。基于已构建的知识图谱,搭建了FMEA知识图谱平台,初步实现了知识探索、知识问答和知识推荐的应用,展示了知识图谱技术在PCB工艺FMEA分析领域具备良好的应用前景。 展开更多
关键词 知识图谱 印制电路板(PCB) 失效模式和影响分析(FMEA) 命名实体识别(ner) BERT
在线阅读 下载PDF
基于深度学习的混合语言源代码漏洞检测方法
10
作者 张学军 郭梅凤 +3 位作者 张潇 张斌 黄海燕 蔡特立 《湖南大学学报(自然科学版)》 北大核心 2025年第4期103-113,共11页
现有基于深度学习的源代码漏洞检测方法主要针对单一编程语言进行特征学习,难以对混合编程语言软件项目因代码单元间的关联和调用产生漏洞进行有效检测.因此,本文提出了一种基于深度学习的混合语言源代码漏洞检测方法DL-HLVD.首先利用B... 现有基于深度学习的源代码漏洞检测方法主要针对单一编程语言进行特征学习,难以对混合编程语言软件项目因代码单元间的关联和调用产生漏洞进行有效检测.因此,本文提出了一种基于深度学习的混合语言源代码漏洞检测方法DL-HLVD.首先利用BERT层将代码文本转换为低维向量,并将其作为双向门控循环单元的输入来捕获上下文特征,同时使用条件随机场来捕获相邻标签间的依赖关系;然后对混合语言软件中不同类型编程语言的函数进行命名实体识别,并将其和程序切片结果进行重构来减少代码表征过程中的语法和语义信息的损失;最后设计双向长短期记忆网络模型提取漏洞代码特征,实现对混合语言软件漏洞检测.在SARD和CrossVul数据集上的实验结果表明,DL-HLVD在两类漏洞数据集上识别软件漏洞的综合召回率达到了95.0%,F1值达到了93.6%,比最新的深度学习方法VulDeePecker、SySeVR、Project Achilles在各个指标上均有提升,说明DL-HLVD能够提高混合语言场景下源代码漏洞检测的综合性能. 展开更多
关键词 漏洞检测 命名实体识别 程序切片 混合语言
在线阅读 下载PDF
基于MVBCN-FLW的中文法律文书命名实体识别
11
作者 杨书新 刘天扬 黄伟东 《计算机工程与应用》 北大核心 2025年第2期219-226,共8页
中文法律文书命名实体识别是智慧司法的基础性任务。目前的中文法律文书命名实体识别研究中已经取得一些成果,但其中大部分方法依赖于已标注的法律语料而未有效利用未标注的法律语料,且不能深入获取法律文书的特征。针对上述问题,提出... 中文法律文书命名实体识别是智慧司法的基础性任务。目前的中文法律文书命名实体识别研究中已经取得一些成果,但其中大部分方法依赖于已标注的法律语料而未有效利用未标注的法律语料,且不能深入获取法律文书的特征。针对上述问题,提出一种中文法律文书命名实体识别框架。该框架使用基于双向编码器的转换器模型来学习中文法律文书的向量表示,并使用能够融合法律术语特征的双向长短时记忆网络语言模型来捕捉法律文书序列的上下文特征向量。该框架将中文法律文书的向量表示和上下文特征向量进行融合,融合后的特征向量被输入到一个由双向门控循环单元、自注意力机制和条件随机场组成的模块中进行训练。此外,为了使框架在缺少已标注的法律语料时也能得到更加充分的训练,使用未标注的法律语料进行自训练,生成新标注的法律语料并将其与初始标注的法律语料合并,通过进行迭代训练来提升框架性能。实验结果表明,该框架优于其他基于主流神经网络的命名实体识别模型。 展开更多
关键词 法律文书 实体命名识别 半监督学习
在线阅读 下载PDF
煤炭开采利用碳排放治理技术知识图谱构建与应用
12
作者 汪莹 王丽雅 +2 位作者 马飞 杨洋 祖子帅 《煤炭科学技术》 北大核心 2025年第6期505-521,共17页
煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识... 煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识,在此基础上构建知识图谱,挖掘出不同技术间的内在联系、适用条件、实施效果及减排路径,为相关人员获取碳排放治理技术领域前沿知识提供支撑,推动煤炭行业向绿色低碳方向转型。一是广泛收集煤炭减排技术相关的专业书籍、术语字典、权威研究报告、中国知网核心期刊文献以及各类标准规范等,采用自底向上和自顶向下的混合构建法构建煤炭开采利用碳排放治理技术领域概念知识模型;二是运用BIO标注策略,并应用BERT+CRF(Bidirectional Encoder Representations from Transformers&Conditional Random Fields)模型,识别该领域实体;三是在实体识别基础上,应用BiLSTM-Attention模型进一步挖掘实体间关系,实现关系抽取;四是采用实体消歧和共指消解技术进行知识融合,消除数据中的矛盾与冗余信息;五是通过Neo4j图数据库存储实体与关系,基于上述结构化的方法与模型,由此完成煤炭开采利用碳排放治理技术领域知识图谱的构建。构建了涵盖排放特征、开采方式、利用方式和减碳技术四大类的煤炭开采利用碳排放治理技术领域知识概念模型,又将这四大类知识概念细分为12个子类,30个细类,形成了完整的概念分类体系。定义了10类命名实体及6种关系,基于提出的知识图谱构建组合方法与创新模型,抽取出12631个节点与32209个实体间关系,揭示了碳排放技术与排放特征、开采方式、利用方式之间的复杂关联,并根据已构建的煤炭开采利用碳排放治理技术领域的知识图谱,支持矿山企业选取相适配的减碳技术路径。随着煤炭行业低碳发展的场景拓展、数据的积累以及人工智能和大模型的发展,本研究将在多模态数据融合的基础上,优化图谱的构建方法,拓展图谱的应用范围,提高技术路径推荐的精准度。 展开更多
关键词 煤炭开采与利用 碳排放治理技术 命名实体识别 BERT+CRF 实体关系抽取 BiLSTM-Attention
在线阅读 下载PDF
基于多特征融合的外来入侵植物细粒度命名实体识别
13
作者 尚俊平 程春畅 +3 位作者 卢洋 席磊 程金鹏 刘合兵 《农业工程学报》 北大核心 2025年第12期230-239,共10页
外来入侵植物命名实体识别是进一步挖掘入侵植物信息的关键步骤。为解决外来入侵植物领域命名实体识别存在训练数据稀缺、字符级向量表征单一、专业实体识别精度不足等问题,构建了一种基于多特征融合的外来入侵植物细粒度命名实体识别模... 外来入侵植物命名实体识别是进一步挖掘入侵植物信息的关键步骤。为解决外来入侵植物领域命名实体识别存在训练数据稀缺、字符级向量表征单一、专业实体识别精度不足等问题,构建了一种基于多特征融合的外来入侵植物细粒度命名实体识别模型(invasive alien plant fine-grained named entity recognition model based on multi-feature fusion,IAPMFF)。首先,采用RoBERTa(Robustly optimized BERT approach,RoBERTa)预训练模型为基础架构,通过构建领域专用词典并通过词汇特征向量融合,增强模型对低频词及专业术语的表征能力;其次,设计双通道特征提取层,利用双向长短时记忆网络(Bi-directional long-short term memory,BiLSTM)提取长序列语义特征,结合卷积残差结构(convolution residual structure,CRS)捕获更多细粒度特征;然后,设计分层特征融合机制,通过多头自注意力机制加权融合两种特征向量,构建多维度语义表征;最后,采用条件随机场(conditional random field,CRF)进行序列解码优化。基于专家知识,构建包含24类细粒度实体标签的外来入侵植物命名实体识别数据集。试验表明,IAP-MFF模型在外来入侵植物命名实体识别数据集上取得91.51%精确率、92.51%召回率和92.01%的F1值,较基线模型分别提升4.40、3.39、3.91个百分点,显著改善了小样本细粒度实体的识别效果。在Weibo、Resume公共数据集上F1值分别达到72.75%和97.15%,表明了模型的泛化性和优越性能。IAP-MFF模型通过融合包含领域知识在内的多种特征,有效提升实体识别精度与泛化能力,为外来入侵植物知识图谱构建奠定技术基础。 展开更多
关键词 命名实体识别 多特征融合 卷积残差结构 多头自注意力机制 外来入侵植物
在线阅读 下载PDF
基于ERNIE 2.0模型的肺结节病历结构化方法
14
作者 毛俊华 钟臻 +2 位作者 陶书衡 徐佳鼎 马驰野 《计算机应用与软件》 北大核心 2025年第2期102-110,共9页
采用手工阅读分析肺结节病历的方式容易产生实体遗漏和提取特征效率低下问题。为方便医生做肺结节病历的研究,基于ERNIE 2.0模型,对肺结节病历中有医学研究价值的疾病、异常检测结果、直径等实体进行抽取,处理成结构化文本,便于医生进... 采用手工阅读分析肺结节病历的方式容易产生实体遗漏和提取特征效率低下问题。为方便医生做肺结节病历的研究,基于ERNIE 2.0模型,对肺结节病历中有医学研究价值的疾病、异常检测结果、直径等实体进行抽取,处理成结构化文本,便于医生进行相关检索、统计与研究。实验结果表明,该模型具有深度剖析知识增强语义能力,具有更丰富的语料库,相较于固定规则,可以理解相对复杂的语义,有一定的泛化性,效果提升显著,F1值可达94%,优于BiLSTM(Bidirectional Long-Short Term Memory)和BERT模型的结果。 展开更多
关键词 病历结构化 命名实体识别 ERNIE 深度神经网络 语义理解
在线阅读 下载PDF
基于随机提示的中文法律领域命名实体识别
15
作者 周鹏 何军 《计算机工程与设计》 北大核心 2025年第4期1167-1173,共7页
为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息... 为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息,结合BERT和BiLSTM,学习文本中融合实体类型解释信息的上下文语义特征。将命名实体识别任务建模为序列标注任务,通过CRF获取序列的标签信息。实验结果表明,该方法在中文法律领域命名实体识别任务中取得了显著的性能提升,F1值达到93.06%。 展开更多
关键词 中文法律实体 深度学习 命名实体识别 随机提示 双向长短时记忆网络 序列标注 条件随机场
在线阅读 下载PDF
融合数据增强的互花米草入侵关联要素实体识别方法
16
作者 李忠伟 张文丰 +1 位作者 李永 李明轩 《计算机工程与设计》 北大核心 2025年第2期603-609,共7页
为解决互花米草入侵领域的训练数据匮乏,存在实体特征提取不准确的问题,提出一种融合数据增强的互花米草入侵关联要素识别深度学习模型。将训练数据采用同类实体随机交叉互换的方法进行数据增强,利用BERT预训练获得互花米草入侵关联要... 为解决互花米草入侵领域的训练数据匮乏,存在实体特征提取不准确的问题,提出一种融合数据增强的互花米草入侵关联要素识别深度学习模型。将训练数据采用同类实体随机交叉互换的方法进行数据增强,利用BERT预训练获得互花米草入侵关联要素的上下文信息;使用BiLSTM进一步提取特征,利用CRF得到实体的标签约束。通过对比不同模型在自建数据集上的精确率、召回率和F1分数,验证了该模型在互花米草入侵领域实体识别的有效性。 展开更多
关键词 命名实体识别 互花米草入侵 深度学习 数据增强 预训练模型 双向长短期记忆网络 条件随机场
在线阅读 下载PDF
融合位置和实体类别信息的中文命名实体识别
17
作者 杨竣辉 李苏晋 《计算机工程》 北大核心 2025年第3期113-121,共9页
词语作为一种上下文信息在中文命名实体识别(NER)任务中发挥着重要作用。以往基于字符的中文NER方法虽然在一定程度上取得了成功,但仍存在词语信息嵌入方式简单、特征捕捉方式单一,且忽视了潜在词的影响、未能充分利用词语信息的问题。... 词语作为一种上下文信息在中文命名实体识别(NER)任务中发挥着重要作用。以往基于字符的中文NER方法虽然在一定程度上取得了成功,但仍存在词语信息嵌入方式简单、特征捕捉方式单一,且忽视了潜在词的影响、未能充分利用词语信息的问题。针对上述问题,提出一种改进的中文NER方法。首先,通过基于全遮蔽技术的预训练模型RoBERTa-wwm将文本表示为字符级嵌入向量;其次,使用门控空洞卷积神经网络(DGCNN)模型进一步捕捉文本的特征信息;然后,在键值记忆网络(KV-MemNN)模型中采用位置实体类别组合机制(PECM)更有效地融合词语信息并缓解潜在词冲突所带来的影响;最后,利用条件随机场(CRF)模型对预测结果进行约束得到最佳标签序列。实验结果表明,该方法在Weibo、MSRA和Resume数据集上的F1值分别达到71.82%、95.00%和96.14%,相比于融合词语信息的FLAT模型分别提升了11.50、0.88、0.69百分点,同时在不同实体上的识别表现整体优于RoBERTa-wwm+CRF和Lattice LSTM模型。此外,通过预训练模型的对比和消融实验进一步证明了KV-MemNN和RoBERTa-wwm模型的有效性。 展开更多
关键词 命名实体识别 键值记忆网络 词语信息 位置信息 实体类别信息
在线阅读 下载PDF
交通事故致因知识图谱构建及风险因素挖掘
18
作者 王占中 张书源 +2 位作者 杨萌 兰若冰 吴智豪 《同济大学学报(自然科学版)》 北大核心 2025年第4期611-618,共8页
利用交通事故调查报告中的数据,构建交通事故致因知识图谱并分析风险因素。首先,基于微调通用信息抽取统一框架预训练模型,构建适用于低数据量的交通事故致因命名实体识别模型,并生成实体集;其次,通过结构化处理和本体构建,利用图数据库... 利用交通事故调查报告中的数据,构建交通事故致因知识图谱并分析风险因素。首先,基于微调通用信息抽取统一框架预训练模型,构建适用于低数据量的交通事故致因命名实体识别模型,并生成实体集;其次,通过结构化处理和本体构建,利用图数据库Neo4j存储交通事故致因知识图谱,实现可视化;再次,基于专家经验和预训练语言文本分类模型,对交通事故致因实体进行标准化;最后,构建基于交通事故致因图谱的风险因素分析方法,通过分析标准化实体的类型分布和度分布,挖掘各因素对事故的触发特征与贡献,并进行关联规则挖掘。这些方法和分析结果提供了对历史事故风险因素的深入理解与探索。 展开更多
关键词 交通运输 知识图谱 致因分析 数据挖掘 命名实体识别
在线阅读 下载PDF
基于预训练模型和双向二维卷积的命名实体识别算法
19
作者 林楠 刘志慧 杨聪 《计算机科学》 北大核心 2025年第S1期218-223,共6页
针对命名实体识别在处理嵌套结构时语义信息逐层减弱的问题,提出了一种基于预训练模型和双向二维卷积的命名实体识别算法BAM-TDNN。该算法首先通过四词嵌入策略即BERT、距离、局部和注意力嵌入,来提取语句中的不同层次语义特征,将多个... 针对命名实体识别在处理嵌套结构时语义信息逐层减弱的问题,提出了一种基于预训练模型和双向二维卷积的命名实体识别算法BAM-TDNN。该算法首先通过四词嵌入策略即BERT、距离、局部和注意力嵌入,来提取语句中的不同层次语义特征,将多个层次的语义特征转换为二维语义表示,以更好地捕捉嵌套结构之间的语义信息;其次,采用Bi-TDNN模型学习语句中实体的长距离语义依赖关系,扩展跨度表示的感受野,提取嵌套实体间更准确的语义信息,更好地理解嵌套实体之间的语义关联。通过在4个公共数据集上进行评估,实验结果表明,所提出的命名实体识别算法在多个实体识别数据集上均取得了良好的性能。BAM-TDNN在ACE2005数据集上的精确率、召回率和F1值分别为86.83%,87.93%和86.83%,在GENIA数据集上的精确率、召回率和F1值分别为86.52%,82.37%和84.36%,在CoNLL2003数据集上的精确率、召回率和F1值分别为92.24%,93.72%和91.97%等。 展开更多
关键词 命名实体识别 四词嵌入策略 BERT Bi-TDNN
在线阅读 下载PDF
南美白对虾养殖领域中文命名实体识别数据集构建
20
作者 彭小红 邓峰 余应淮 《计算机工程与应用》 北大核心 2025年第9期353-362,共10页
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家... 该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。 展开更多
关键词 命名实体识别 Vamner数据集 标注者间一致性(IAA) 基于变换器的双向编码器表示(BERT) 双向长短期记忆神经网络(BiLSTM) 条件随机场(CRF)
在线阅读 下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部