期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别 被引量:34
1
作者 李纲 潘荣清 +1 位作者 毛进 操玉杰 《现代情报》 CSSCI 2020年第4期3-12,58,共11页
[目的/意义]通过整合BiLSTM-CRF神经网络和具有先验领域知识的词典资源,提高中文电子病历领域中的实体识别效果。[方法/过程]采用BiLSTM-CRF神经网络模型,以CCKS-2017测评任务提供的脱敏中文电子病历数据为实验数据集,结合Word2Vec和外... [目的/意义]通过整合BiLSTM-CRF神经网络和具有先验领域知识的词典资源,提高中文电子病历领域中的实体识别效果。[方法/过程]采用BiLSTM-CRF神经网络模型,以CCKS-2017测评任务提供的脱敏中文电子病历数据为实验数据集,结合Word2Vec和外部词典构造神经网络的词嵌入输入改进实体识别模型。[结果/结论]与传统的CRF和单纯的BiLSTM-CRF模型相比,引入先验知识的词典资源可以取得更好的实体识别效果,F1值达到最高的90.41%。深度学习模型BiLSTM-CRF能够显著提升传统CRF方法的实体识别效果,同时先验的词典知识能进一步增强神经网络的性能。 展开更多
关键词 实体识别 长短期记忆网络 条件随机场 电子病历 词典资源 深度学习 bilstm-crf神经网络模型
在线阅读 下载PDF
基于命名实体识别的水电工程施工安全规范实体识别模型 被引量:1
2
作者 陈述 张超 +2 位作者 陈云 张光飞 李智 《中国安全科学学报》 CAS CSCD 北大核心 2024年第9期19-26,共8页
为准确识别水电工程施工安全规范实体,通过预训练模型中双向编码器表征法(BERT)挖掘文本中丰富的语义信息,利用双向长短期记忆神经网络(BILSTM)提取规范实体语义特征,依靠条件随机场(CRF)分析实体之间的依赖关系,构建水电工程施工安全... 为准确识别水电工程施工安全规范实体,通过预训练模型中双向编码器表征法(BERT)挖掘文本中丰富的语义信息,利用双向长短期记忆神经网络(BILSTM)提取规范实体语义特征,依靠条件随机场(CRF)分析实体之间的依赖关系,构建水电工程施工安全规范的命名实体识别模型;以《水利水电工程施工安全防护技术规范》(SL714—2015)为例,计算命名实体识别模型精确率。结果表明:BERT-BILSTM-CRF模型准确率为94.35%,相比于3种传统方法,准确率显著提高。研究成果有助于水电工程施工安全规范知识智能管理,为施工安全隐患智能判别提供支撑。 展开更多
关键词 命名实体识别 水电工程施工 安全规范 双向编码器表征法(BERT) 双向长短期记忆神经网络(BILSTM) 条件随机场(CRF)
在线阅读 下载PDF
基于增强优化预训练语言模型的电力数据实体识别方法 被引量:5
3
作者 田雪涵 董坤 +1 位作者 赵剑锋 郭希瑞 《智慧电力》 北大核心 2024年第6期100-107,共8页
知识图谱可有效整合电力系统中的多源数据,提升电网的知识管理水平。针对电力文本数据集稀缺、实体类型多样、专业性强的特点,提出1种基于增强优化预训练语言模型的电力数据实体识别方法。该方法使用实体词袋替换的数据增强技术扩大原... 知识图谱可有效整合电力系统中的多源数据,提升电网的知识管理水平。针对电力文本数据集稀缺、实体类型多样、专业性强的特点,提出1种基于增强优化预训练语言模型的电力数据实体识别方法。该方法使用实体词袋替换的数据增强技术扩大原始数据集,采用增强优化预训练语言模型(RoBERTa)进行动态语义编码,利用双向长短期记忆网络(BiLSTM)和条件随机场(CRF)提取特征并优化标签。实验结果表明,该实体识别方法比传统基于深度学习的实体识别方法的平均数指标F1分数高2.17%,证实其对构建电力数据知识图谱的识别效果。 展开更多
关键词 知识图谱 实体识别 数据增强 预训练语言模型 双向长短期记忆网络 条件随机场
在线阅读 下载PDF
融合数据增强的互花米草入侵关联要素实体识别方法
4
作者 李忠伟 张文丰 +1 位作者 李永 李明轩 《计算机工程与设计》 北大核心 2025年第2期603-609,共7页
为解决互花米草入侵领域的训练数据匮乏,存在实体特征提取不准确的问题,提出一种融合数据增强的互花米草入侵关联要素识别深度学习模型。将训练数据采用同类实体随机交叉互换的方法进行数据增强,利用BERT预训练获得互花米草入侵关联要... 为解决互花米草入侵领域的训练数据匮乏,存在实体特征提取不准确的问题,提出一种融合数据增强的互花米草入侵关联要素识别深度学习模型。将训练数据采用同类实体随机交叉互换的方法进行数据增强,利用BERT预训练获得互花米草入侵关联要素的上下文信息;使用BiLSTM进一步提取特征,利用CRF得到实体的标签约束。通过对比不同模型在自建数据集上的精确率、召回率和F1分数,验证了该模型在互花米草入侵领域实体识别的有效性。 展开更多
关键词 命名实体识别 互花米草入侵 深度学习 数据增强 预训练模型 双向长短期记忆网络 条件随机场
在线阅读 下载PDF
南美白对虾养殖领域中文命名实体识别数据集构建
5
作者 彭小红 邓峰 余应淮 《计算机工程与应用》 北大核心 2025年第9期353-362,共10页
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家... 该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。 展开更多
关键词 命名实体识别 VamNER数据集 标注者间一致性(IAA) 基于变换器的双向编码器表示(BERT) 双向长短期记忆神经网络(BiLSTM) 条件随机场(CRF)
在线阅读 下载PDF
基于多模型融合的电力运检命名实体识别 被引量:3
6
作者 孙玉芹 肖静婷 王海超 《科学技术与工程》 北大核心 2023年第36期15545-15552,共8页
为有效解决构建电力运检知识图谱的关键步骤之一的电力运检命名实体识别问题,通过构建一种基于Stacking多模型融合的隐马尔可夫-条件随机场-双向长短期记忆网络(hidden Markov-conditional random fields-bi-directional long short-ter... 为有效解决构建电力运检知识图谱的关键步骤之一的电力运检命名实体识别问题,通过构建一种基于Stacking多模型融合的隐马尔可夫-条件随机场-双向长短期记忆网络(hidden Markov-conditional random fields-bi-directional long short-term,HCB)模型方法研究了电力运检命名实体识别问题。HCB模型分为两层,第一层使用隐马尔可夫模型(hidden Markov model,HMM)、条件随机场(conditional random fields,CRF)和双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM)模型进行训练预测,再将预测结果输入第二层的CRF模型进行训练,经过双层模型训练预测得出最后的命名实体。结果表明:在电力运检命名实体识别问题上HCB模型的精确率、召回率及F1值等指标明显优于单模型以及其他的融合模型。可见HCB模型能有效解决电力运检命名实体识别问题。 展开更多
关键词 电力运检知识图谱 模型融合 命名实体识别 隐马尔可夫-条件随机场-双向长短期记忆网络(HCB)模型
在线阅读 下载PDF
面向行政执法案件文本的事件抽取研究
7
作者 屈潇雅 李兵 温立强 《计算机工程》 CAS CSCD 北大核心 2024年第9期63-71,共9页
行政执法的智能化水平是国家治理能力现代化的体现,数据是智能化发展的重要依托。在行政执法领域,各行政机关存储大量以文本形式记录的历史案件,这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中... 行政执法的智能化水平是国家治理能力现代化的体现,数据是智能化发展的重要依托。在行政执法领域,各行政机关存储大量以文本形式记录的历史案件,这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中快速高效地抽取案件职权类型、案发时间、案发地点等结构化信息,可推动行政机关对历史案件信息的利用和智能化执法办案研究。收集整理某城市的真实案例数据,并通过人工标注构建一个行政执法领域的数据集,根据行政执法案件文本的无触发词、文档级、格式不固定等文本特征,提出结合基于Transformer的双向编码器表示(BERT)和基于条件随机场的双向长短期记忆网络(BiLSTM-CRF)模型的两阶段事件抽取方法,通过文本多分类和序列标注依次完成事件类型检测和事件论元抽取任务。实验结果表明,事件类型检测任务的F1值达到99.54%,事件论元抽取任务的F1值达到97.36%,实现了对案件信息的有效抽取。 展开更多
关键词 行政执法案件 事件抽取 两阶段方法 基于Transformer的双向编码器表示模型 基于条件随机场的双向长短期记忆网络(bilstm-crf)模型
在线阅读 下载PDF
基于方剂数据集的知识图谱构建研究 被引量:3
8
作者 李灿 镇可涵 +1 位作者 唐东昕 解丹 《世界中医药》 CAS 北大核心 2024年第9期1329-1333,共5页
目的:构建基于方剂数据集的知识图谱,以系统性地展示方剂实体及其之间的关系。方法:首先建立方剂数据处理与知识图谱构建的规范化流程,获取方剂数据集,然后在4种常用命名实体识别模型中遴选最优模型进行实体抽取,最后利用Neo4j图数据库... 目的:构建基于方剂数据集的知识图谱,以系统性地展示方剂实体及其之间的关系。方法:首先建立方剂数据处理与知识图谱构建的规范化流程,获取方剂数据集,然后在4种常用命名实体识别模型中遴选最优模型进行实体抽取,最后利用Neo4j图数据库构建知识图谱。结果:最终遴选出基于Transformer的双向编码模型-双向长短期记忆网络-条件随机场(BERT-BiLSTM-CRF)模型,从数据集中抽取出症状、中西医病名、中医证候等医学实体,平均F1值达90.55%,形成了规范的方剂数据集并构建了方剂知识图谱。结论:利用本文方法抽取出的医学实体为中医药的临床实践和科学研究提供了系统性展示方剂实体及其之间关系的可靠数据基础。所建立的方剂知识图谱实现了中药方剂的知识检索,不仅有助于发现方剂数据中的潜在知识与内在关系,而且为中医药领域的信息整合和知识发现提供了坚实基础,推动中医药的现代化进程。 展开更多
关键词 方剂 数据处理 知识图谱 规范化 命名实体识别 Neo4j图数据库 基于Transformer的双向编码模型-双向长短期记忆网络-条件随机场模型 中医药
在线阅读 下载PDF
模式与深度学习融合抽取因果事件三元组
9
作者 黄俏娟 曹存根 陈志文 《高技术通讯》 CAS 北大核心 2024年第9期921-934,共14页
因果事件三元组对人们理解事件之间的逻辑联系至关重要。针对从文本中抽取因果事件三元组面临的缺乏高质量的数据集和因果知识覆盖范围有限的问题,本文提出了一种结合模式和深度学习的方法,从Web语料库中抽取因果事件三元组。首先,设计... 因果事件三元组对人们理解事件之间的逻辑联系至关重要。针对从文本中抽取因果事件三元组面临的缺乏高质量的数据集和因果知识覆盖范围有限的问题,本文提出了一种结合模式和深度学习的方法,从Web语料库中抽取因果事件三元组。首先,设计了反映因果关系的词法句法模式,并在Web语料库中进行匹配。其次,通过逆向文本频率和因果事件边界词策略,过滤模式匹配结果中的噪音。随后,采用规则的方法对因果事件进行规范化处理,形成了一个高质量的因果事件三元组数据集。最后,在双向长短期记忆-条件随机场(BiLSTM-CRF)模型中将字、词、词性、因果模式特征词和因果事件边界词进行了有效融合,并引入了深度学习策略。经过在因果事件三元组数据集上的训练,本文模型在抽取大规模且涵盖广泛领域知识的Web语料库的因果事件三元组任务中表现出色。实验结果表明,模型抽取因果事件三元组的F1值高达92.44%,边界词识别精确率达到94.00%。该结果证明了模式与深度学习的高效结合、构建数据集的高质量,以及该文模型在实际应用中对抽取Web语料库的因果事件三元组具有显著价值。 展开更多
关键词 因果事件三元组 词法句法模式 双向长短期记忆-条件随机场(bilstm-crf) 多特征融合 深度学习
在线阅读 下载PDF
基于改进Bi-LSTM-CRF的农业问答系统研究 被引量:12
10
作者 白皓然 孙伟浩 +1 位作者 金宁 马皓冉 《中国农机化学报》 北大核心 2023年第2期99-105,共7页
针对农业领域问答系统面临的实体识别困难的问题,提出一种基于改进Bi-LSTM-CRF的实体识别方法。首先通过BERT预训练模型的预处理,生成基于上下文信息的词向量,然后将训练出的词向量输入Bi-LSTM-CRF做进一步的训练处理,最后,利用Python的... 针对农业领域问答系统面临的实体识别困难的问题,提出一种基于改进Bi-LSTM-CRF的实体识别方法。首先通过BERT预训练模型的预处理,生成基于上下文信息的词向量,然后将训练出的词向量输入Bi-LSTM-CRF做进一步的训练处理,最后,利用Python的Django框架设计农业领域的实体识别、实体查询、农知问答等子系统。经过试验对比,所提出的改进的Bi-LSTM-CRF在农业信息领域具有更好的实体识别能力,在农业信息语料库上的精确率、召回率和F1值分别为93.23%、91.08%和92.16%。实现农业领域实体识别和农业信息问答的知识图谱网站演示,对农业信息化的发展具有重要意义。 展开更多
关键词 智能问答系统 知识图谱 双向长短期记忆模型(Bi-LSTM) 条件随机场(CRF)
在线阅读 下载PDF
医学信息领域人工智能技术的主题漂移与未来展望——基于JCR 26本医学信息期刊文本的命名实体识别 被引量:5
11
作者 徐璐璐 杨嘉乐 康乐乐 《现代情报》 CSSCI 2022年第10期163-176,共14页
[目的/意义]在过去数十年中,医学信息研究领域被人工智能技术的重构。为厘清人工智能技术发展对医学信息研究领域带来的影响,本研究采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势,并提出3点未来展... [目的/意义]在过去数十年中,医学信息研究领域被人工智能技术的重构。为厘清人工智能技术发展对医学信息研究领域带来的影响,本研究采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势,并提出3点未来展望。[方法/过程]研究中首先采集了JCR中26本医学信息期刊题录信息,而后利用Vosviewer可视化分析人工智能技术的总体分布,在此基础上采用3种深度学习模型对人工智能技术进行命名实体识别和对比,最后分5个时间段梳理其主题漂移并提出3点展望。[结果/结论]Vosviewer可视化显示20年来人工智能技术在医学信息领域占据重要地位;3种深度学习模型对比发现,基于Attention的Bi LSTM-CRF模型的命名实体识别结果最优,F1值提高到88.40%;在5个时间段内,医学信息领域人工智能主流技术以高、中频词为代表围绕着传统型技术且相对稳定,分支技术以低频词为代表则出现深度学习等复杂性技术且随时间有所改变,并呈现直觉(经验发掘)→支持(深入理解)→策略(强化分析)→后推理(支撑决策)→前推理(提前预测);即整体进入较为理性和务实状态,尚缺爆发性变革但确有一定程度变化的主题漂移演化脉络。对此,本文从技术、应用和并行层面提出3点未来展望,以期加强对人工智能在处理医学信息上优、缺点的认知,为更精准地挖掘多源数据提供优质医学诊断具有理论和现实意义。 展开更多
关键词 医学信息 人工智能技术 命名实体 主题漂移 BERT模型 双向长短期记忆网络 条件随机场 注意力机制
在线阅读 下载PDF
面向招标物料的命名实体识别研究及应用 被引量:1
12
作者 米健霞 谢红薇 《计算机工程与应用》 CSCD 北大核心 2023年第2期314-320,共7页
招标领域中各单位对物料数据的书写方法各不相同,通过对物料数据的实体识别能够实现对物料数据的标准化,为后续的物料查询及分析提供基础。传统的物料命名实体识别方法存在分词不准确,无法有效地处理一词多义,没有考虑中文特有的字形特... 招标领域中各单位对物料数据的书写方法各不相同,通过对物料数据的实体识别能够实现对物料数据的标准化,为后续的物料查询及分析提供基础。传统的物料命名实体识别方法存在分词不准确,无法有效地处理一词多义,没有考虑中文特有的字形特征等问题,从而影响识别效果。针对上述问题,提出了一种CB-BiLSTM-CRF模型,采用卷积神经网络对汉字的五笔编码进行提取,与BERT所获得的字符特征相结合,以增强不同语境中的语法和语义信息的表征能力,通过BiLSTM模型对组合特征进行深层次提取处理,CRF模型获得最优序列结果。实验结果表明,该模型在收集到的招标领域中物料数据的F1值达到95.82%,优于其他常用模型。同时,在此基础上搭建了“智能物料”在线识别网页平台,用户可以快速在大量数据中提取到有效信息。 展开更多
关键词 命名实体识别 招标物料识别 BERT预训练模型 双向长短期记忆网络 条件随机场
在线阅读 下载PDF
融合语义与语法信息的中文评价对象提取 被引量:4
13
作者 周浩 王莉 《智能系统学报》 CSCD 北大核心 2019年第1期171-178,共8页
鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征,弥补忽略的字符与词语的内部信... 鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征,弥补忽略的字符与词语的内部信息;并通过词性序列标注,对句子的词性信息进行表征,深化输入的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。该模型在BDCI2017数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确率分别提高了2.1%与1.68%,联合提取的准确率为77.16%,具备良好的中文评价对象提取效果。 展开更多
关键词 中文评价对象 语义 语法 序列标注 双向长短期记忆网络 条件随机场 提取模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部