期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
基于BERT-Tiny Transformer-CRF的自动化装配命名实体识别方法
1
作者 钱冠翔 于丽娅 +2 位作者 李传江 李少波 徐兆 《计算机集成制造系统》 北大核心 2025年第10期3594-3606,共13页
随着工业5.0对知识驱动的智能制造提出新要求,机械装配领域面临多模态数据稀疏、实体语义边界模糊、数据分布呈现长尾效应的挑战。为此,提出一种融合多项式损失函数的BERT-Tiny Transformer-CRF模型,旨在提升低资源场景下的领域知识抽... 随着工业5.0对知识驱动的智能制造提出新要求,机械装配领域面临多模态数据稀疏、实体语义边界模糊、数据分布呈现长尾效应的挑战。为此,提出一种融合多项式损失函数的BERT-Tiny Transformer-CRF模型,旨在提升低资源场景下的领域知识抽取效率。首先,通过知识蒸馏与语义增强技术注入领域先验知识,其次设计维度自适应特征压缩模块实现跨模态特征融合,最后构建动态边缘感知解码机制实现实体边界的精准定位。利用自主构建的自动化装配数据集,将所提方法与不同实体识别模型进行对比,实验结果表明,所提模型具有良好的泛化识别能力,以86.62%的准确率、85.27%的精确率、85.67%的召回率和85.46%的F1值优于其他模型,为工业5.0下机械自动化装配领域知识图谱的构建提供了一种有效的技术方法。 展开更多
关键词 bert-Tiny Transformer-crf模型 数据增强 PolyLoss 自动化装配
在线阅读 下载PDF
基于Sentence-BERT与孤立森林算法的专利新颖性评估
2
作者 邓娜 王雨佳 +1 位作者 杨洋 陈旭 《情报杂志》 北大核心 2025年第2期174-182,共9页
[研究目的]面对专利数量的迅猛增长,采用人工方法评估专利新颖性变得愈发困难,且目前专利新颖性评估研究过度聚焦于技术层面,未能综合考虑专利的其他信息因素。因此,实现更高效、客观的专利新颖性评估具有重要的现实意义。[研究方法]提... [研究目的]面对专利数量的迅猛增长,采用人工方法评估专利新颖性变得愈发困难,且目前专利新颖性评估研究过度聚焦于技术层面,未能综合考虑专利的其他信息因素。因此,实现更高效、客观的专利新颖性评估具有重要的现实意义。[研究方法]提出一种基于Sentence-BERT与孤立森林算法的专利新颖性评估方法。首先,使用专利标题与IPC分类号分别作为专利的应用方向与功能分类特征,再通过BiLSTM-CRF模型对专利摘要进行关键技术抽取作为实施方法特征;其次,采用Sentence-BERT对上述特征进行文本向量化表示后组合输入至孤立森林算法获得离群专利集;最后,通过技术量权值过滤法提高专利新颖性评估的精度。[研究结果/结论]以金融科技领域专利进行实证研究,结果表明,该评估方法准确率相较专业专利分析平台方法提升了9%~11%。证明了该方法在专利新颖性评估中的有效性,能为后续专利审核工作和高价值专利分析提供参考。 展开更多
关键词 专利评估 专利新颖性 BiLSTM-crf Sentence-bert 孤立森林算法 机器学习
在线阅读 下载PDF
基于BERT-BiLSTM-CRF的隧道施工安全领域命名实体识别 被引量:5
3
作者 张念 周彩凤 +3 位作者 万飞 刘非 王耀耀 徐栋梁 《中国安全科学学报》 CSCD 北大核心 2024年第12期56-63,共8页
为解决隧道施工安全领域传统命名实体识别(NER)方法存在的实体边界模糊、小样本学习困难、特征信息提取不够全面准确等问题,提出一种基于变换器的双向编码器表征(BERT)-双向长短时记忆(BiLSTM)网络-条件随机场(CRF)模型的隧道施工事故... 为解决隧道施工安全领域传统命名实体识别(NER)方法存在的实体边界模糊、小样本学习困难、特征信息提取不够全面准确等问题,提出一种基于变换器的双向编码器表征(BERT)-双向长短时记忆(BiLSTM)网络-条件随机场(CRF)模型的隧道施工事故文本实体识别方法。首先,利用BERT模型将隧道施工事故文本编码得到蕴含语义特征的词向量;然后,将BERT模型训练后输出的词向量输入BiLSTM模型进一步获取隧道施工事故文本的上下文特征并进行标签概率预测;最后,利用CRF层的标注规则的约束,修正BiLSTM模型的输出结果,得到最大概率序列标注结果,从而实现对隧道施工事故文本标签的智能分类。将该模型与其他4种常用的传统NER模型在隧道施工安全事故语料数据集上进行对比试验,试验结果表明:BERT-BiLSTM-CRF模型的识别准确率、召回率和F 1值分别达到88%、89%和88%,实体识别效果优于其他基准模型。利用所建立的NER模型识别实际隧道施工事故文本中的实体,验证了其在隧道施工安全领域中的应用效果。 展开更多
关键词 变换器的双向编码器表征(bert) 双向长短时记忆(BiLSTM)网络 条件随机场(crf) 隧道施工 安全领域 命名实体识别(NER) 深度学习
在线阅读 下载PDF
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究 被引量:66
4
作者 吴俊 程垚 +3 位作者 郝瀚 艾力亚尔·艾则孜 刘菲雪 苏亦坡 《情报学报》 CSSCI CSCD 北大核心 2020年第4期409-418,共10页
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练... 专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。 展开更多
关键词 bert BiLSTM crf 专业术语抽取
在线阅读 下载PDF
基于实体级遮蔽BERT与BiLSTM-CRF的农业命名实体识别 被引量:22
5
作者 韦紫君 宋玲 +1 位作者 胡小春 陈宁江 《农业工程学报》 EI CAS CSCD 北大核心 2022年第15期195-203,共9页
字符的位置信息和语义信息对命名方式繁杂且名称长度较长的中文农业实体的识别至关重要。为解决命名实体识别过程中由于捕获字符位置信息、上下文语义特征和长距离依赖信息不充足导致识别效果不理想的问题,该研究提出一种基于EmBERT-BiL... 字符的位置信息和语义信息对命名方式繁杂且名称长度较长的中文农业实体的识别至关重要。为解决命名实体识别过程中由于捕获字符位置信息、上下文语义特征和长距离依赖信息不充足导致识别效果不理想的问题,该研究提出一种基于EmBERT-BiLSTM-CRF模型的中文农业命名实体识别方法。该方法采用基于Transformer的深度双向预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)作为嵌入层提取字向量的深度双向表示,并使用实体级遮蔽策略使模型更好地表征中文语义;然后使用双向长短时记忆网络(BidirectionalLong Short-Term Memory,BiLSTM)学习文本的长序列语义特征;最后使用条件随机场(Conditional Random Field,CRF)在训练数据中学习标注约束规则,并利用相邻标签之间的信息输出全局最优的标注序列。训练过程中使用了焦点损失函数来缓解样本分布不均衡的问题。试验在构建的语料库上对农作物品种、病害、虫害和农药4类农业实体进行识别。结果表明,该研究的EmBERT-BiLSTM-CRF模型对4类农业实体的识别性能相较于其他模型有明显提升,准确率为94.97%,F1值为95.93%。 展开更多
关键词 农业 命名实体识别 实体级遮蔽 bert BiLSTM crf
在线阅读 下载PDF
基于BERT-BiLSTM-CRF的中文地址解析方法 被引量:9
6
作者 吴恪涵 张雪英 +2 位作者 叶鹏 怀安 张航 《地理与地理信息科学》 CSCD 北大核心 2021年第4期10-15,共6页
中文地址解析是地址匹配的重要环节,广泛应用于地址检索、地理编码和地址信息识别等方面。但传统地址解析方法存在覆盖度有限、人工参与过多和泛化能力较差等问题。为发挥深度学习模型在深层结构上自动学习上下文特征的优势,提出一种基... 中文地址解析是地址匹配的重要环节,广泛应用于地址检索、地理编码和地址信息识别等方面。但传统地址解析方法存在覆盖度有限、人工参与过多和泛化能力较差等问题。为发挥深度学习模型在深层结构上自动学习上下文特征的优势,提出一种基于BERT-BiLSTM-CRF深度学习模型的中文地址解析方法:依据中文地址要素多级分类体系,扩展BIOES标注方法并进行地址语料标注;基于预训练语言模型,构建融合BERT、BiLSTM和CRF的综合深度学习模型,通过BERT预训练语言模型获取富含语义信息的字符向量,弥补静态词向量特异性缺失的问题,提高复杂地址要素的提取能力。以2019年深圳市地址数据为例进行模型性能评估,该方法对于多数中文地址要素的解析准确率达90%以上;相比IDCNN-CRF和BiLSTM-CRF等深度学习模型,该方法对只具有小规模地址语料时的地址解析效果更优,且在解析多种地址要素类型时能保持良好的性能。 展开更多
关键词 中文地址 地址要素分类 地址标注 bert-BiLSTM-crf 地址解析模型
在线阅读 下载PDF
融合多尺度CNN和CRF的通用细粒度事件检测
7
作者 任永功 阎格 何馨宇 《小型微型计算机系统》 CSCD 北大核心 2024年第4期859-864,共6页
事件检测是自然语言处理领域中事件抽取的主要任务之一,它旨在从众多非结构化信息中自动提取出结构化的关键信息.现有的方法存在特征提取不全面、特征分布不均等情况.为了提高事件检测的准确率,提出了一种融合BERT预训练模型与多尺度CN... 事件检测是自然语言处理领域中事件抽取的主要任务之一,它旨在从众多非结构化信息中自动提取出结构化的关键信息.现有的方法存在特征提取不全面、特征分布不均等情况.为了提高事件检测的准确率,提出了一种融合BERT预训练模型与多尺度CNN的神经网络模型(BMCC,BERT+Multi-scale CNN+CRF).首先通过BERT(Bidirectional Encoder Representations from Transformers)预训练模型来进行词向量的嵌入,并利用其双向训练的Transformer机制来提取序列的状态特征;其次使用不同尺度的卷积核在多个卷积通道中进行卷积训练,以此来提取不同视野的语义信息,丰富其语义表征.最后将BIO机制融入到条件随机场(CRF)来对序列进行标注,实现事件的检测.实验结果表明,所提出的模型在MAVEN数据集上的F1值为65.17%,表现了该模型的良好性能. 展开更多
关键词 事件检测 bert 多尺度CNN 条件随机场(crf) 交叉验证
在线阅读 下载PDF
融合BERT模型与词汇增强的中医命名实体识别模型 被引量:8
8
作者 李旻哲 殷继彬 《计算机科学》 CSCD 北大核心 2024年第S01期122-127,共6页
现有的中医命名实体识别相关研究较少,基本都是基于中文病例做相关研究,在传统中医编写的病例文本中表现不佳。针对中医案例中命名实体密集且边界模糊难以划分的特点,提出了一种融合词汇增强和预训练模型的中医命名实体识别方法LEBERT-B... 现有的中医命名实体识别相关研究较少,基本都是基于中文病例做相关研究,在传统中医编写的病例文本中表现不佳。针对中医案例中命名实体密集且边界模糊难以划分的特点,提出了一种融合词汇增强和预训练模型的中医命名实体识别方法LEBERT-BILSTM-CRF。该方法从词汇增强和预训练模型融合的角度进行优化,将词汇信息输入到BERT模型中进行特征学习,达到划分词类边界和区分词类属性的目的,提高中医医案命名实体识别的精度。实验结果表明,在文中构建的中医病例数据集上针对10个实体进行命名实体识别时,提出的基于LEBERT-BILSTM-CRF的中医案例命名实体识别模型综合准确率、召回率、F1分别为88.69%,87.4%,88.1%,高于BERT-CRF,LEBERT-CRF等常用命名实体识别模型。 展开更多
关键词 自然语言处理 中医案例 词汇增强 bert BLSTM-crf
在线阅读 下载PDF
基于BERT-CRF模型的火灾事故案例实体识别研究 被引量:5
9
作者 关斯琪 董婷婷 +1 位作者 万子敬 何元生 《消防科学与技术》 CAS 北大核心 2023年第11期1529-1534,共6页
为实现火灾事故调查档案的关键信息抽取,提出一种基于BERT-CRF模型的文本命名实体识别方法。通过对161篇事故报告进行实体标注及数据增强,构建了火灾事故文本语料集;基于BERT预训练模型,对语料集中的句子序列进行双向特征提取,深度挖掘... 为实现火灾事故调查档案的关键信息抽取,提出一种基于BERT-CRF模型的文本命名实体识别方法。通过对161篇事故报告进行实体标注及数据增强,构建了火灾事故文本语料集;基于BERT预训练模型,对语料集中的句子序列进行双向特征提取,深度挖掘事故文本上下文的语义信息;结合CRF模型,充分考虑标签转移规则,对关键实体进行预测。试验表明:本文方法在火灾事故案例实体识别任务中的精确率、召回率以及F1值分别为76.36%、86.19%、80.97%,优于BERT和BERT-BiLSTM-CRF模型,且训练时长较BERT-BiLSTMCRF模型缩短61 s。本文方法可为火灾调查知识库、案卷编制等下游系统提供准确的实体构建服务。 展开更多
关键词 命名实体识别 bert-crf 火灾事故 消防信息 火灾事故调查档案 语料集 火灾事故文本
在线阅读 下载PDF
基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注
10
作者 王超 吕国英 +2 位作者 李茹 柴清华 李晋荣 《中文信息学报》 CSCD 北大核心 2024年第2期25-35,共11页
汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度... 汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度出发构建了汉语副词框架及数据集,且对框架下的词元按照语义强弱进行了等级划分。目前的语义角色标注模型大多基于BiLSTM网络模型,该模型虽然可以很好地获取全局信息,但容易忽略句子局部特征,且无法并行训练。针对上述问题,该文提出了基于BERT特征融合与膨胀卷积的语义角色标注模型,该模型包括四层:BERT层用于表达句子的丰富语义信息,Attention层对BERT获取的每一层信息进行动态权重融合,膨胀卷积(IDCNN)层进行特征提取,CRF层修正预测标签。该模型在三个副词框架数据集上表现良好,F1值均达到了82%以上。此外,将该模型应用于CFN数据集上,F1值达到88.29%,较基线模型提升了4%以上。 展开更多
关键词 汉语框架语义角色标注 副词 bert 膨胀卷积 crf
在线阅读 下载PDF
基于BERT-BILSTM-CRF模型的电力行业事故文本智能分析 被引量:9
11
作者 刘斐 文中 吴艺 《中国安全生产科学技术》 CAS CSCD 北大核心 2023年第1期209-215,共7页
为解决电力行业事故报告文本较长、语义复杂,难以进行有效文本识别问题,提出1种以BERT作为底层的预训练模型,并设计1种双重注意力机制编码器,结合BILSTM-CRF深度挖掘事故文本语义特征,从而实现文本智能分析。首先构建电力词典,通过对BER... 为解决电力行业事故报告文本较长、语义复杂,难以进行有效文本识别问题,提出1种以BERT作为底层的预训练模型,并设计1种双重注意力机制编码器,结合BILSTM-CRF深度挖掘事故文本语义特征,从而实现文本智能分析。首先构建电力词典,通过对BERT预训练,进行BIO标注,然后引入BILSTM-CRF模型实现对文本标签智能分类,最后将该模型与现行其他4种深度学习模型进行对比。研究结果表明:该模型智能识别精确率、召回率及F 1值(查准率)均达到约97%,较其他4种模型中效果最好的模型分别提高0.02,0.03,0.02。研究结果可为电力行业事故报告文本分析提供1种新思路。 展开更多
关键词 bert-BILSTM-crf 实体识别 电力行业 预训练 文本分类
在线阅读 下载PDF
煤炭开采利用碳排放治理技术知识图谱构建与应用 被引量:1
12
作者 汪莹 王丽雅 +2 位作者 马飞 杨洋 祖子帅 《煤炭科学技术》 北大核心 2025年第6期505-521,共17页
煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识... 煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识,在此基础上构建知识图谱,挖掘出不同技术间的内在联系、适用条件、实施效果及减排路径,为相关人员获取碳排放治理技术领域前沿知识提供支撑,推动煤炭行业向绿色低碳方向转型。一是广泛收集煤炭减排技术相关的专业书籍、术语字典、权威研究报告、中国知网核心期刊文献以及各类标准规范等,采用自底向上和自顶向下的混合构建法构建煤炭开采利用碳排放治理技术领域概念知识模型;二是运用BIO标注策略,并应用BERT+CRF(Bidirectional Encoder Representations from Transformers&Conditional Random Fields)模型,识别该领域实体;三是在实体识别基础上,应用BiLSTM-Attention模型进一步挖掘实体间关系,实现关系抽取;四是采用实体消歧和共指消解技术进行知识融合,消除数据中的矛盾与冗余信息;五是通过Neo4j图数据库存储实体与关系,基于上述结构化的方法与模型,由此完成煤炭开采利用碳排放治理技术领域知识图谱的构建。构建了涵盖排放特征、开采方式、利用方式和减碳技术四大类的煤炭开采利用碳排放治理技术领域知识概念模型,又将这四大类知识概念细分为12个子类,30个细类,形成了完整的概念分类体系。定义了10类命名实体及6种关系,基于提出的知识图谱构建组合方法与创新模型,抽取出12631个节点与32209个实体间关系,揭示了碳排放技术与排放特征、开采方式、利用方式之间的复杂关联,并根据已构建的煤炭开采利用碳排放治理技术领域的知识图谱,支持矿山企业选取相适配的减碳技术路径。随着煤炭行业低碳发展的场景拓展、数据的积累以及人工智能和大模型的发展,本研究将在多模态数据融合的基础上,优化图谱的构建方法,拓展图谱的应用范围,提高技术路径推荐的精准度。 展开更多
关键词 煤炭开采与利用 碳排放治理技术 命名实体识别 bert+crf 实体关系抽取 BiLSTM-Attention
在线阅读 下载PDF
南美白对虾养殖领域中文命名实体识别数据集构建
13
作者 彭小红 邓峰 余应淮 《计算机工程与应用》 北大核心 2025年第9期353-362,共10页
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家... 该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。 展开更多
关键词 命名实体识别 VamNER数据集 标注者间一致性(IAA) 基于变换器的双向编码器表示(bert) 双向长短期记忆神经网络(BiLSTM) 条件随机场(crf)
在线阅读 下载PDF
小样本语义分析的漏洞实体抽取方法
14
作者 丁全 张磊 +2 位作者 黄帅 查正朋 陶陶 《信息安全研究》 北大核心 2025年第3期265-274,共10页
目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现... 目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现,基于规则的方法泛化性不强,基于人工智能的方法占用资源过高且依赖大量标注数据,为解决以上问题,提出一种小样本语义分析的漏洞实体抽取方法.该方法使用BERT(bidirectional encoder representations from transformers)预训练漏洞描述数据得到漏洞领域内的预训练模型,以更好地理解漏洞数据,减少对大量标注数据的依赖,此外,采用增量学习的自监督方式提高标注数据非常有限(1785个标注样本).所提模型抽取了漏洞领域中12类漏洞实体,实验结果表明,所提方法在漏洞实体抽取的效果上优于其他抽取模型,F1值达到0.8643,整体的识别性能较高,实现了对漏洞实体的精确抽取. 展开更多
关键词 小样本 语义分析 漏洞实体抽取 bert crf
在线阅读 下载PDF
基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究 被引量:10
15
作者 屈丹丹 杨涛 +1 位作者 朱垚 胡孔法 《世界科学技术-中医药现代化》 CSCD 北大核心 2021年第9期3118-3125,共8页
目的肺癌医案中蕴含丰富的四诊信息,这些四诊信息对肺癌的研究具有重要意义。本文通过基于字向量的BiGRU-CRF方法实现四诊信息实体抽取研究。方法研究利用BERT模型对基于自定义词典自动化标注后的肺癌临床数据进行预训练,得到包含上下... 目的肺癌医案中蕴含丰富的四诊信息,这些四诊信息对肺癌的研究具有重要意义。本文通过基于字向量的BiGRU-CRF方法实现四诊信息实体抽取研究。方法研究利用BERT模型对基于自定义词典自动化标注后的肺癌临床数据进行预训练,得到包含上下文语义的字向量,再将其作为BiGRU-CRF模型输入,实现肺癌医案四诊信息命名实体抽取。结果本文方法对临床表现、舌象、脉象、身体部位、程度副词五类实体抽取的F1值分别为98.17%、99.74%、99.77%、94.72%、93.36%,对比模型BERT-BiLSTM-CRF、BERT模型和Word2vec-BiGRU-CRF模型抽取的F1值分别为(96.46%、99.31%、98.78%、94.95%、92.44%)、(94.38%、95.14%、94.99%、90.89%、91.82%)和(91.27%、97.95%、98.09%、87.01%、86.77%)。结论本文利用基于字向量的BiGRU-CRF方法具有更强的命名实体识别能力,可以更好地应用于中医医案命名实体抽取研究,进而为医案的关系抽取以及知识图谱构建提供支持。 展开更多
关键词 bert模型 BiGRU-crf模型 肺癌 四诊信息 实体抽取
在线阅读 下载PDF
融合BERT和记忆网络的实体识别 被引量:6
16
作者 陈德 宋华珠 +1 位作者 张娟 周泓林 《计算机科学》 CSCD 北大核心 2021年第10期91-97,共7页
实体识别是信息提取的子任务,传统实体识别模型针对人员、组织、位置名称等类型的实体进行识别,而在现实世界中必须考虑更多类别的实体,需要细粒度的实体识别。同时,BiGRU等传统实体识别模型无法充分利用更大范围内的全局特征。文中提... 实体识别是信息提取的子任务,传统实体识别模型针对人员、组织、位置名称等类型的实体进行识别,而在现实世界中必须考虑更多类别的实体,需要细粒度的实体识别。同时,BiGRU等传统实体识别模型无法充分利用更大范围内的全局特征。文中提出了一种基于命名记忆网络和BERT的实体识别模型,记忆网络模块能够记忆更大范围的特征,BERT语言预训练模型能进行更好的语义表示。对水泥熟料生产语料数据进行实体识别,实验结果表明,所提方法能够识别实体且较其他传统模型更具优势。为了进一步验证所提模型的性能,在CLUENER2020数据集上进行实验,结果表明,在BiGRU-CRF模型的基础上使用BERT和记忆网络模块进行优化是能够提高实体识别效果的。 展开更多
关键词 实体识别 bert 记忆网络 BiGRU-crf
在线阅读 下载PDF
基于BERT嵌入的中文命名实体识别方法 被引量:125
17
作者 杨飘 董文永 《计算机工程》 CAS CSCD 北大核心 2020年第4期40-45,52,共7页
在基于神经网络的中文命名实体识别过程中,字的向量化表示是重要步骤,而传统的词向量表示方法只是将字映射为单一向量,无法表征字的多义性.针对该问题,通过嵌入BERT预训练语言模型,构建BERT-BiGRU-CRF模型用于表征语句特征.利用具有双向... 在基于神经网络的中文命名实体识别过程中,字的向量化表示是重要步骤,而传统的词向量表示方法只是将字映射为单一向量,无法表征字的多义性.针对该问题,通过嵌入BERT预训练语言模型,构建BERT-BiGRU-CRF模型用于表征语句特征.利用具有双向Transformer结构的BERT预训练语言模型增强字的语义表示,根据其上下文动态生成语义向量.在此基础上,将字向量序列输入BiGRU-CRF模型中进行训练,包括训练整个模型和固定BERT只训练BiGRU-CRF2种方式.在MSRA语料上的实验结果表明,该模型2种训练方式的F1值分别达到95.43%和94.18%,优于BiGRU-CRF、Radical-BiLSTM-CRF和Lattice-LSTM-CRF模型. 展开更多
关键词 中文命名实体识别 bert模型 BiGRU模型 预训练语言模型 条件随机场
在线阅读 下载PDF
基于BERT的中文简历命名实体识别 被引量:15
18
作者 郭军成 万刚 +1 位作者 胡欣杰 魏展基 《计算机应用》 CSCD 北大核心 2021年第S01期15-19,共5页
为了充分发掘中文简历数据中所蕴含的信息,提高构建社交网络知识图谱和档案知识图谱的实体丰富度,提出了基于BERT的中文简历命名实体识别技术。该技术模型首先通过BERT网络将大规模未标注文本生成具有语义特征的字符向量,接着通过嵌入... 为了充分发掘中文简历数据中所蕴含的信息,提高构建社交网络知识图谱和档案知识图谱的实体丰富度,提出了基于BERT的中文简历命名实体识别技术。该技术模型首先通过BERT网络将大规模未标注文本生成具有语义特征的字符向量,接着通过嵌入条件随机场(CRF)的双向长短时记忆(BiLSTM)神经网络模型获取输入文本序列的上下文特征,解码标注提取出相应的8个实体类型。实验结果表明,该网络模型在个人中文简历数据集上取得了97.07%的平均F1值,可以运用于中文简历数据的实体识别任务。 展开更多
关键词 条件随机场 中文实体识别 个人简历 bert
在线阅读 下载PDF
面向技术识别的专利实体抽取--以类脑智能领域为例 被引量:4
19
作者 邢晓昭 苑朋彬 +2 位作者 陈亮 任亮 余池 《情报杂志》 CSSCI 北大核心 2024年第6期126-133,144,共9页
[研究目的]专利实体抽取是基于专利文本的技术识别的基础。目前专利实体抽取任务面临自动化程度和准确率较低等问题,该研究从两方面对此进行改进:一是建立特定领域的高质量专利语料库,二是将先进的算法模型运用到专利实体抽取中。[研究... [研究目的]专利实体抽取是基于专利文本的技术识别的基础。目前专利实体抽取任务面临自动化程度和准确率较低等问题,该研究从两方面对此进行改进:一是建立特定领域的高质量专利语料库,二是将先进的算法模型运用到专利实体抽取中。[研究方法]定义了包含13种实体类型的细粒度信息体系,并据此对921篇类脑智能专利的标题和摘要进行人工标注,此后运用Bert-BiLSTM-CRF模型,融合深度学习和机器学习对类脑智能专利实体进行识别。[研究结论]模型在总体上获得0.8的准确率、召回率和F1值,不同类型实体的识别效果具有差异。为了验证模型的性能,设计了几个对比实验。结果显示,微调数据和增加训练规模可以提高模型性能,本模型性能优于同时期一些经典模型。 展开更多
关键词 专利实体 专利文本 专利挖掘 技术识别 深度学习 机器学习 bert-BiLSTM-crf模型
在线阅读 下载PDF
基于专利实体语义表示的技术主题演化路径识别 被引量:3
20
作者 张金柱 张毅 《情报杂志》 CSSCI 北大核心 2024年第11期117-128,共12页
[研究目的]从专利实体抽取和语义表示角度,识别语义相同但表达方式不同的专利实体,更准确地发现技术主题演化路径,更好地辅助科技创新和管理决策。[研究方法]提出一种基于专利实体语义表示的技术主题演化路径识别方法。首先,构建BERT-Bi... [研究目的]从专利实体抽取和语义表示角度,识别语义相同但表达方式不同的专利实体,更准确地发现技术主题演化路径,更好地辅助科技创新和管理决策。[研究方法]提出一种基于专利实体语义表示的技术主题演化路径识别方法。首先,构建BERT-BiLSTM-CRF模型自动抽取专利实体,利用表示学习方法研究专利实体的语义向量表示。其次,基于K-means算法对实体向量进行聚类,识别技术主题。最后,基于实体语义相似度,识别语义相同但表达不同的专利实体,进而基于相同实体数量设计知识流入和知识流出指标,根据主题之间的知识流入和流出比例共同识别分裂、发展、融合等演化关系,构建技术主题演化路径。[研究结论]实证研究表明,该方法能有效识别语义相同但表达不同的专利实体,进而更加准确地识别主题间演化关系,构建技术主题演化路径。 展开更多
关键词 专利实体 实体抽取 实体语义表示 bert-BiLSTM-crf模型 主题演化
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部