期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
南美白对虾养殖领域中文命名实体识别数据集构建
1
作者 彭小红 邓峰 余应淮 《计算机工程与应用》 北大核心 2025年第9期353-362,共10页
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家... 该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。 展开更多
关键词 命名实体识别 VamNER数据集 标注者间一致性(IAA) 基于变换器的双向编码器表示(BERT) 双向长短期记忆神经网络(BiLSTM) 条件随机场(CRF)
在线阅读 下载PDF
机床夹具设计知识图谱构建及应用 被引量:1
2
作者 张称心 孙家盛 段阳 《机电工程》 北大核心 2025年第1期106-116,共11页
针对目前机床夹具设计领域中存在的知识挖掘深度不足、利用率不高且过度依赖设计人员经验等问题,提出了一种基于自顶向下方式的机床夹具设计知识图谱构建方法。首先,将机床夹具设计知识分为原理规则类和功能描述类,利用本体建模语言(OWL... 针对目前机床夹具设计领域中存在的知识挖掘深度不足、利用率不高且过度依赖设计人员经验等问题,提出了一种基于自顶向下方式的机床夹具设计知识图谱构建方法。首先,将机床夹具设计知识分为原理规则类和功能描述类,利用本体建模语言(OWL)对这两类知识进行了本体建模,构建了知识图谱的模式层;其次,在模式层的指导下,以机床夹具设计原理规则文档和设计实例为数据源,利用双向长短期记忆网络-条件随机场算法(BiLSTM-CRF)对其进行了知识抽取,得到了结构化的机床夹具设计知识;然后,运用Neo4j图数据库存储结构化的机床夹具设计知识,得到了知识图谱的数据层;最后,以轴承套筒法兰的夹具设计为例,对该方法的可行性进行了验证;考虑到企业对同一夹具结构的不同技术需求,提出了一种基于图形数据科学算法(GDS)的相似元件替代法,对夹具知识图谱中47个定位元件节点进行了相似度计算,得到了1081条相似度数据样本,并构建了综合评判模型。研究结果表明:当相似度阈值设置为0.76时,将定位元件进行替换的精确率达到了84%。通过建立知识图谱,完成了机床夹具设计的两类知识的有效关联,为构建数据驱动的机床夹具智能设计奠定了基础。 展开更多
关键词 机械设计 智能设计 知识图谱 知识抽取 知识融合 本体建模语言 双向长短期记忆网络-条件随机场算法 图形数据科学算法
在线阅读 下载PDF
基于改进Bi-LSTM-CRF的农业问答系统研究 被引量:13
3
作者 白皓然 孙伟浩 +1 位作者 金宁 马皓冉 《中国农机化学报》 北大核心 2023年第2期99-105,共7页
针对农业领域问答系统面临的实体识别困难的问题,提出一种基于改进Bi-LSTM-CRF的实体识别方法。首先通过BERT预训练模型的预处理,生成基于上下文信息的词向量,然后将训练出的词向量输入Bi-LSTM-CRF做进一步的训练处理,最后,利用Python的... 针对农业领域问答系统面临的实体识别困难的问题,提出一种基于改进Bi-LSTM-CRF的实体识别方法。首先通过BERT预训练模型的预处理,生成基于上下文信息的词向量,然后将训练出的词向量输入Bi-LSTM-CRF做进一步的训练处理,最后,利用Python的Django框架设计农业领域的实体识别、实体查询、农知问答等子系统。经过试验对比,所提出的改进的Bi-LSTM-CRF在农业信息领域具有更好的实体识别能力,在农业信息语料库上的精确率、召回率和F1值分别为93.23%、91.08%和92.16%。实现农业领域实体识别和农业信息问答的知识图谱网站演示,对农业信息化的发展具有重要意义。 展开更多
关键词 智能问答系统 知识图谱 双向长短期记忆模型(Bi-LSTM) 条件随机场(CRF)
在线阅读 下载PDF
基于命名实体识别的水电工程施工安全规范实体识别模型 被引量:1
4
作者 陈述 张超 +2 位作者 陈云 张光飞 李智 《中国安全科学学报》 CAS CSCD 北大核心 2024年第9期19-26,共8页
为准确识别水电工程施工安全规范实体,通过预训练模型中双向编码器表征法(BERT)挖掘文本中丰富的语义信息,利用双向长短期记忆神经网络(BILSTM)提取规范实体语义特征,依靠条件随机场(CRF)分析实体之间的依赖关系,构建水电工程施工安全... 为准确识别水电工程施工安全规范实体,通过预训练模型中双向编码器表征法(BERT)挖掘文本中丰富的语义信息,利用双向长短期记忆神经网络(BILSTM)提取规范实体语义特征,依靠条件随机场(CRF)分析实体之间的依赖关系,构建水电工程施工安全规范的命名实体识别模型;以《水利水电工程施工安全防护技术规范》(SL714—2015)为例,计算命名实体识别模型精确率。结果表明:BERT-BILSTM-CRF模型准确率为94.35%,相比于3种传统方法,准确率显著提高。研究成果有助于水电工程施工安全规范知识智能管理,为施工安全隐患智能判别提供支撑。 展开更多
关键词 命名实体识别 水电工程施工 安全规范 双向编码器表征法(BERT) 双向长短期记忆神经网络(BILSTM) 条件随机场(CRF)
在线阅读 下载PDF
模式与深度学习融合抽取因果事件三元组 被引量:1
5
作者 黄俏娟 曹存根 陈志文 《高技术通讯》 CAS 北大核心 2024年第9期921-934,共14页
因果事件三元组对人们理解事件之间的逻辑联系至关重要。针对从文本中抽取因果事件三元组面临的缺乏高质量的数据集和因果知识覆盖范围有限的问题,本文提出了一种结合模式和深度学习的方法,从Web语料库中抽取因果事件三元组。首先,设计... 因果事件三元组对人们理解事件之间的逻辑联系至关重要。针对从文本中抽取因果事件三元组面临的缺乏高质量的数据集和因果知识覆盖范围有限的问题,本文提出了一种结合模式和深度学习的方法,从Web语料库中抽取因果事件三元组。首先,设计了反映因果关系的词法句法模式,并在Web语料库中进行匹配。其次,通过逆向文本频率和因果事件边界词策略,过滤模式匹配结果中的噪音。随后,采用规则的方法对因果事件进行规范化处理,形成了一个高质量的因果事件三元组数据集。最后,在双向长短期记忆-条件随机场(BiLSTM-CRF)模型中将字、词、词性、因果模式特征词和因果事件边界词进行了有效融合,并引入了深度学习策略。经过在因果事件三元组数据集上的训练,本文模型在抽取大规模且涵盖广泛领域知识的Web语料库的因果事件三元组任务中表现出色。实验结果表明,模型抽取因果事件三元组的F1值高达92.44%,边界词识别精确率达到94.00%。该结果证明了模式与深度学习的高效结合、构建数据集的高质量,以及该文模型在实际应用中对抽取Web语料库的因果事件三元组具有显著价值。 展开更多
关键词 因果事件三元组 词法句法模式 双向长短期记忆-条件随机场(bilstm-crf) 多特征融合 深度学习
在线阅读 下载PDF
面向行政执法案件文本的事件抽取研究 被引量:1
6
作者 屈潇雅 李兵 温立强 《计算机工程》 CAS CSCD 北大核心 2024年第9期63-71,共9页
行政执法的智能化水平是国家治理能力现代化的体现,数据是智能化发展的重要依托。在行政执法领域,各行政机关存储大量以文本形式记录的历史案件,这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中... 行政执法的智能化水平是国家治理能力现代化的体现,数据是智能化发展的重要依托。在行政执法领域,各行政机关存储大量以文本形式记录的历史案件,这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中快速高效地抽取案件职权类型、案发时间、案发地点等结构化信息,可推动行政机关对历史案件信息的利用和智能化执法办案研究。收集整理某城市的真实案例数据,并通过人工标注构建一个行政执法领域的数据集,根据行政执法案件文本的无触发词、文档级、格式不固定等文本特征,提出结合基于Transformer的双向编码器表示(BERT)和基于条件随机场的双向长短期记忆网络(BiLSTM-CRF)模型的两阶段事件抽取方法,通过文本多分类和序列标注依次完成事件类型检测和事件论元抽取任务。实验结果表明,事件类型检测任务的F1值达到99.54%,事件论元抽取任务的F1值达到97.36%,实现了对案件信息的有效抽取。 展开更多
关键词 行政执法案件 事件抽取 两阶段方法 基于Transformer的双向编码器表示模型 基于条件随机场双向长短期记忆网络(bilstm-crf)模型
在线阅读 下载PDF
基于方剂数据集的知识图谱构建研究 被引量:4
7
作者 李灿 镇可涵 +1 位作者 唐东昕 解丹 《世界中医药》 CAS 北大核心 2024年第9期1329-1333,共5页
目的:构建基于方剂数据集的知识图谱,以系统性地展示方剂实体及其之间的关系。方法:首先建立方剂数据处理与知识图谱构建的规范化流程,获取方剂数据集,然后在4种常用命名实体识别模型中遴选最优模型进行实体抽取,最后利用Neo4j图数据库... 目的:构建基于方剂数据集的知识图谱,以系统性地展示方剂实体及其之间的关系。方法:首先建立方剂数据处理与知识图谱构建的规范化流程,获取方剂数据集,然后在4种常用命名实体识别模型中遴选最优模型进行实体抽取,最后利用Neo4j图数据库构建知识图谱。结果:最终遴选出基于Transformer的双向编码模型-双向长短期记忆网络-条件随机场(BERT-BiLSTM-CRF)模型,从数据集中抽取出症状、中西医病名、中医证候等医学实体,平均F1值达90.55%,形成了规范的方剂数据集并构建了方剂知识图谱。结论:利用本文方法抽取出的医学实体为中医药的临床实践和科学研究提供了系统性展示方剂实体及其之间关系的可靠数据基础。所建立的方剂知识图谱实现了中药方剂的知识检索,不仅有助于发现方剂数据中的潜在知识与内在关系,而且为中医药领域的信息整合和知识发现提供了坚实基础,推动中医药的现代化进程。 展开更多
关键词 方剂 数据处理 知识图谱 规范化 命名实体识别 Neo4j图数据库 基于Transformer的双向编码模型-双向长短期记忆网络-条件随机场模型 中医药
在线阅读 下载PDF
基于多模型融合的电力运检命名实体识别 被引量:3
8
作者 孙玉芹 肖静婷 王海超 《科学技术与工程》 北大核心 2023年第36期15545-15552,共8页
为有效解决构建电力运检知识图谱的关键步骤之一的电力运检命名实体识别问题,通过构建一种基于Stacking多模型融合的隐马尔可夫-条件随机场-双向长短期记忆网络(hidden Markov-conditional random fields-bi-directional long short-ter... 为有效解决构建电力运检知识图谱的关键步骤之一的电力运检命名实体识别问题,通过构建一种基于Stacking多模型融合的隐马尔可夫-条件随机场-双向长短期记忆网络(hidden Markov-conditional random fields-bi-directional long short-term,HCB)模型方法研究了电力运检命名实体识别问题。HCB模型分为两层,第一层使用隐马尔可夫模型(hidden Markov model,HMM)、条件随机场(conditional random fields,CRF)和双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM)模型进行训练预测,再将预测结果输入第二层的CRF模型进行训练,经过双层模型训练预测得出最后的命名实体。结果表明:在电力运检命名实体识别问题上HCB模型的精确率、召回率及F1值等指标明显优于单模型以及其他的融合模型。可见HCB模型能有效解决电力运检命名实体识别问题。 展开更多
关键词 电力运检知识图谱 多模型融合 命名实体识别 隐马尔可夫-条件随机场-双向长短期记忆网络(HCB)模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部