期刊文献+
共找到222篇文章
< 1 2 12 >
每页显示 20 50 100
融合语义增强和知识蒸馏的学术文献知识实体抽取方法研究
1
作者 王玉龙 秦春秀 +2 位作者 马续补 吕树月 李凡 《情报学报》 北大核心 2025年第4期438-451,共14页
准确识别和提取海量学术文献中蕴含的各类知识实体,对于精准满足科研人员的知识需求、促进细粒度知识发现具有重要意义。针对学术文献中领域知识实体数据稀疏和不均衡等问题,本研究提出一种融合语义增强和知识蒸馏的知识实体抽取改进方... 准确识别和提取海量学术文献中蕴含的各类知识实体,对于精准满足科研人员的知识需求、促进细粒度知识发现具有重要意义。针对学术文献中领域知识实体数据稀疏和不均衡等问题,本研究提出一种融合语义增强和知识蒸馏的知识实体抽取改进方案。首先,本研究提出语义增强的教师模型。一方面,通过构建融合SciBERT(bidirectional encoder representations from transformers for scientific text)和ELMo(embeddings from language models)模型的嵌入表示方法,将全局语义与动态词义信息相结合生成更加全面的语义表示,从而提升教师模型对领域学术文献复杂上下文的建模能力;另一方面,基于领域预训练词嵌入模型筛选出与知识实体语义关联度最高的Top n单词或短语,并结合注意力和门控机制对增强的实体语义信息进行动态加权,以有效缓解实体数据稀疏和长尾类别建模的不足。其次,采用一组异构的单一实体教师模型,生成不同教师模型在聚合数据集下的概率分布结果,并以此来指导学生模型的训练。最后,本研究利用材料科学领域的三个公开数据集验证所提方法的有效性。实验结果表明,所提方法在材料科学领域的三个数据集上均取得了最高的micro F1和macro F1,并且在实体数据稀疏和不均衡等情境下,具有显著的鲁棒性和泛化能力。 展开更多
关键词 语义增强 知识蒸馏 知识实体抽取 学术文献
在线阅读 下载PDF
小样本语义分析的漏洞实体抽取方法
2
作者 丁全 张磊 +2 位作者 黄帅 查正朋 陶陶 《信息安全研究》 北大核心 2025年第3期265-274,共10页
目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现... 目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现,基于规则的方法泛化性不强,基于人工智能的方法占用资源过高且依赖大量标注数据,为解决以上问题,提出一种小样本语义分析的漏洞实体抽取方法.该方法使用BERT(bidirectional encoder representations from transformers)预训练漏洞描述数据得到漏洞领域内的预训练模型,以更好地理解漏洞数据,减少对大量标注数据的依赖,此外,采用增量学习的自监督方式提高标注数据非常有限(1785个标注样本).所提模型抽取了漏洞领域中12类漏洞实体,实验结果表明,所提方法在漏洞实体抽取的效果上优于其他抽取模型,F1值达到0.8643,整体的识别性能较高,实现了对漏洞实体的精确抽取. 展开更多
关键词 小样本 语义分析 漏洞实体抽取 BERT CRF
在线阅读 下载PDF
基于预训练模型的医药说明书实体抽取方法研究 被引量:1
3
作者 陈仲永 黄雍圣 +1 位作者 张旻 姜明 《计算机科学与探索》 CSCD 北大核心 2024年第7期1911-1922,共12页
药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据,具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题,采用“大模型+小... 药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据,具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题,采用“大模型+小模型”的设计思路,提出了一种基于预训练模型的部分标签命名实体识别模型,先采用通过少量样本微调的预训练语言模型抽取药品说明书中的部分实体,再利用基于Transformer的部分标签模型进一步优化实体提取结果。部分标签模型采用平面格结构对输入文本、已识别出的部分实体及实体标签进行编码,使用Transformer提取特征表示,最后通过条件随机场(CRF)预测实体标签。为了减少训练模型的标注数据,利用标注样本实体掩盖策略,提出一种样本数据增广方法对部分标签模型进行训练。实验验证了“大模型+小模型”在医疗实体抽取的可行性,结果表明精确率(precision,P)、召回率(recall,R)和F1分数分别为85.0%、86.1%、85.6%,比其他学习方法更具优势。 展开更多
关键词 命名实体识别 预训练模型 医疗实体抽取 TRANSFORMER
在线阅读 下载PDF
基于Tri-training的社交媒体药物不良反应实体抽取
4
作者 何忠玻 严馨 +2 位作者 徐广义 张金鹏 邓忠莹 《计算机工程与应用》 CSCD 北大核心 2024年第3期177-186,共10页
社交媒体因其数据的实时性,对其充分利用可以弥补传统医疗文献药物不良反应中实体抽取的迟滞性问题,但社交媒体文本面临标注数据成本高、数据噪声大等问题,使得模型难以发挥良好的效果。针对社交媒体大量未标注语料存在标注成本高的问题... 社交媒体因其数据的实时性,对其充分利用可以弥补传统医疗文献药物不良反应中实体抽取的迟滞性问题,但社交媒体文本面临标注数据成本高、数据噪声大等问题,使得模型难以发挥良好的效果。针对社交媒体大量未标注语料存在标注成本高的问题,采用Tri-training半监督的方法进行社交媒体药物不良反应实体抽取,通过三个学习器Transformer+CRF、BiLSTM+CRF和IDCNN+CRF对未标注数据进行标注,再利用一致性评价函数迭代地扩展训练集,最后通过加权投票整合模型输出标签。针对社交媒体的文本不正式性(口语化严重、错别字等)问题,通过融合字与词两个粒度的向量作为整个模型嵌入层的输入,来提取更丰富的语义信息。实验结果表明,提出的模型在“好大夫在线”网站获取的数据集上取得了良好表现。 展开更多
关键词 中文社交媒体 药物不良反应 实体抽取 半监督学习 TRI-TRAINING
在线阅读 下载PDF
数据驱动的中文实体抽取方法综述 被引量:2
5
作者 肖蕾 陈镇家 《计算机工程与应用》 CSCD 北大核心 2024年第16期34-48,共15页
中文实体抽取(Chinese named entity recognition,CNER)是中文信息抽取任务中的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础,其方法主要分为知识驱动和数据驱动两大类。然而基于规则、词典与机器学习的传统知识驱动方法... 中文实体抽取(Chinese named entity recognition,CNER)是中文信息抽取任务中的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础,其方法主要分为知识驱动和数据驱动两大类。然而基于规则、词典与机器学习的传统知识驱动方法存在忽视上下文语义信息、计算成本高和低召回率的问题,限制了CNER技术的发展。介绍了CNER的定义和发展历程。详细整理了CNER任务的典型数据集、训练工具、序列标注方式和模型评价指标。对基于数据驱动的方法进行了总结,将数据驱动的方法划分为基于深度学习、预训练语言模型和中文实体关系联合抽取等方法,并分析了数据驱动方法在不同领域的实际应用场景。对CNER任务的未来研究方向进行了展望,为新方法的提出提供一定参考。 展开更多
关键词 中文实体抽取 数据驱动 深度学习 知识图谱
在线阅读 下载PDF
EMSS:一种基于Span匹配的中文实体抽取方法
6
作者 游新冬 刘陌村 +1 位作者 韩君妹 吕学强 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2087-2093,共7页
基于Span(跨度)的实体抽取模型目前在英文数据集上取得了优异的效果,且已被证明跨度实体抽取比传统的序列标注实体抽取的效果更好.本文提出了一种基于跨度与拼接的中文命名实体抽取模型(EMSS),EMSS使用端到端的span抽取模型,文本经过BER... 基于Span(跨度)的实体抽取模型目前在英文数据集上取得了优异的效果,且已被证明跨度实体抽取比传统的序列标注实体抽取的效果更好.本文提出了一种基于跨度与拼接的中文命名实体抽取模型(EMSS),EMSS使用端到端的span抽取模型,文本经过BERT预训练模型进行字向量的编码,随后进入span抽取层枚举出所有可能的跨度,并加入跨度边界与跨度长度两种特征向量用于对跨度向量进行计算,最后进入跨度预测层进行实体标签的预测.同时提出了一种基于BIO格式的新标签标注方法,该标注方法不受模型与数据集领域限制,可以在不影响下游任务的情况下提高模型识别准确率.在Weibo、Resume、MSRA、OntoNotes4.0数据集上与当前主流的中文实体抽取模型进行对比实验.实验结果表明,提出的EMSS优于现有主流模型,均取得了7%左右的F1值提升.并将该方法应用到煤矿机电设备领域,解决煤矿机电设备领域的实体识别问题,在自制数据集上的实验证明本文的标注方法,不仅在中文实体上有效,而且对汉字、英文、数字结合的混合类型实体也有明显的效果. 展开更多
关键词 实体抽取 跨度 神经网络
在线阅读 下载PDF
基于概率融合算法的煤矿事故隐患文本知识实体抽取研究
7
作者 李靖 李泽荃 +1 位作者 石福泰 郝强 《矿业科学学报》 CSCD 北大核心 2024年第6期1007-1016,共10页
针对煤矿事故隐患文本数据的非结构化特性,基于煤矿事故隐患文本数据集,通过分析隐患描述文本数据的特征及隐含信息,结合事故隐患传播规律设计了适用于煤矿事故隐患描述文本的知识实体标注类型并使用Brat工具进行标注,构建用于知识实体... 针对煤矿事故隐患文本数据的非结构化特性,基于煤矿事故隐患文本数据集,通过分析隐患描述文本数据的特征及隐含信息,结合事故隐患传播规律设计了适用于煤矿事故隐患描述文本的知识实体标注类型并使用Brat工具进行标注,构建用于知识实体抽取模型的数据集;提出一种基于动态权重融合的BERT-IDCNN-CRF模型,并引入基于牛顿冷却定律的概率融合算法。结果表明:引入概率融合算法后,动态权重融合的BERT-IDCNN-CRF在隐患文本知识实体抽取任务中表现最佳,其精度、召回率与F1值分别提升了8.93%、5.28%、7.51%,显著提高了模型的预测准确性和稳定性,并具有良好的适应性。 展开更多
关键词 煤矿事故隐患 知识实体抽取 K折交叉验证 概率融合
在线阅读 下载PDF
D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:17
8
作者 寇月 李冬 +2 位作者 申德荣 于戈 聂铁铮 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DO... 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 展开更多
关键词 实体抽取 DOM树 DEEPWEB 数据区域定位 实体区域定位
在线阅读 下载PDF
基于条件随机场的中医临床病历命名实体抽取 被引量:35
9
作者 刘凯 周雪忠 +1 位作者 于剑 张润顺 《计算机工程》 CAS CSCD 2014年第9期312-316,共5页
中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工... 中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场(CRF)、隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,疾病名称达到0.74,诱因0.74。与HMM和MEMM相比,CRF有最高的准确率和召回率,是一种较为适用的中医临床病历命名实体抽取方法。 展开更多
关键词 中医临床病历 命名实体抽取 语料库标注系统 条件随机场 特征模板
在线阅读 下载PDF
面向中医临床现病史文本的命名实体抽取方法研究 被引量:11
10
作者 袁玉虎 周雪忠 +1 位作者 张润顺 李晓东 《世界科学技术-中医药现代化》 CSCD 2017年第1期70-77,共8页
目的:中医临床病历作为重要的临床数据,以文本的形式记录了医生和患者交互的整个过程。目前,在大数据的背景下,针对临床病历所涵盖的主体问题信息如现病史的分析利用相关研究仍有所欠缺。因此,本文针对中医临床病历中的现病史部分展开... 目的:中医临床病历作为重要的临床数据,以文本的形式记录了医生和患者交互的整个过程。目前,在大数据的背景下,针对临床病历所涵盖的主体问题信息如现病史的分析利用相关研究仍有所欠缺。因此,本文针对中医临床病历中的现病史部分展开症状术语抽取方法研究,为临床病历的进一步使用奠定基础。方法:首先通过随机挑选与专家审核的方式获得了12 367份现病史数据,按照疾病种类分成了两组实验,其中糖尿病组包含了4 838份数据,脾胃病组7 529份数据,以及合并后的混合组12 367份数据。并整理出了一份涵盖22 996个词的症状术语字典。然后选取滑动窗口特征、词的前后缀特征、词典特征等5种特征模板,使用CRFs模型开展症状术语命名实体抽取实验。结果:在实验结果评价标准(准确率、召回率和F1值)上的表现:在开放测试上的评价结果为(0.83、0.8、0.82)、(0.9、0.9、0.89)和(0.88、0.87、0.87);在十重交叉验证上的评价结果为(0.83、0.82、0.83)、(0.95、0.95、0.95)和(0.93、0.92、0.92)。结论:CRFs模型作为一种优秀的序列标注算法,适用于现病史文本的症状术语命名实体抽取任务。 展开更多
关键词 中医临床病历 现病史 条件随机场 特征模板 命名实体抽取
在线阅读 下载PDF
基于键规则的XML实体抽取方法 被引量:12
11
作者 刘显敏 李建中 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期64-75,共12页
XML上实体抽取问题的任务是要从XML数据中抽取出描述现实世界某个物理实体的数据实体.利用XML查询提供实体的表示方法,基于键规则中有关实体的语义信息,给出了求解XML上实体抽取问题的基于键规则的实体抽取(key-based entity extraction... XML上实体抽取问题的任务是要从XML数据中抽取出描述现实世界某个物理实体的数据实体.利用XML查询提供实体的表示方法,基于键规则中有关实体的语义信息,给出了求解XML上实体抽取问题的基于键规则的实体抽取(key-based entity extraction,KEE)方法.KEE方法利用查询松弛技术,自动地生成抽取实体的候选查询集合,基于相似性测度,从候选查询中选取适用于抽取实体的查询集合.作为KEE方法的一个具体实现,SharingEE算法利用标准化的查询松弛技术,减少了候选查询中的冗余,利用基于自动机的查询处理技术,在多个候选查询之间共享中间结果,从而减少计算开销.在真实和模拟数据上运行的实验验证了算法的效率和有效性.实验结果表明,KEE方法可以很好地解决实体抽取问题,并可以扩展到大规模数据上. 展开更多
关键词 XML数据 键规则 实体抽取 查询松弛 共享计算
在线阅读 下载PDF
面向航空发动机故障知识图谱构建的实体抽取 被引量:7
12
作者 韩涛 黄海松 姚立国 《组合机床与自动化加工技术》 北大核心 2021年第10期69-73,78,共6页
针对航空发动机故障领域知识图谱构建过程中实体抽取的需要,构建了相关数据集,提出了一种融合字、词序列信息的Lattice Transformer-CRF实体抽取方法。该方法先是通过lattice结构,将字、词序列信息同时作为输入,通过Transformer模型进... 针对航空发动机故障领域知识图谱构建过程中实体抽取的需要,构建了相关数据集,提出了一种融合字、词序列信息的Lattice Transformer-CRF实体抽取方法。该方法先是通过lattice结构,将字、词序列信息同时作为输入,通过Transformer模型进行特征提取后,将信息输入到CRF模型中进行序列标注,从而得到最优解。实验结果表明:在方法有效性验证中,与其他方法对比,在公共数据集上,所提方法的精确率、召回率和F值均取得了较高的得分;在方法适用性验证中,所提方法F值达到了95.02%,表明该方法可解决领域文本实体的自动抽取问题,且相较于其他4种传统方法更为先进、鲁棒性更强。 展开更多
关键词 航空发动机 故障 实体抽取
在线阅读 下载PDF
基于图排序和最大信息增益的领域实体抽取方法 被引量:6
13
作者 张晓明 郑理欣 王会勇 《计算机工程》 CAS CSCD 北大核心 2022年第12期140-149,共10页
领域知识图谱在各行各业中都发挥着重要作用,领域实体的获取则是构建领域知识图谱的重要基础。数据标注、编写抽取规则等现有的实体抽取方法往往需要较多的人工参与工作。提出一种基于图排序的实体抽取方法和基于最大信息增益的实体扩... 领域知识图谱在各行各业中都发挥着重要作用,领域实体的获取则是构建领域知识图谱的重要基础。数据标注、编写抽取规则等现有的实体抽取方法往往需要较多的人工参与工作。提出一种基于图排序的实体抽取方法和基于最大信息增益的实体扩展方法来构建领域实体集,通过实体识别获得候选实体,基于维基百科的背景信息计算候选实体间的相关度构建实体图,并利用基于置信度传播的图排序算法筛选领域核心实体。在DBpedia中根据最大信息增益来平衡类与领域核心实体相关性及类的抽象程度两个因素以生成实体扩展的共性类。在此基础上,通过SKOS体系中的“Is subject of”关系获得共性类的实例实体,并根据基于字符串相似和结构相关度的方法对扩展实例实体进一步筛选,最终获得全面、准确的领域实体集。以数据结构课程为例构建该课程领域实体集,得到1115个实体。实验结果表明,在领域数据集上,领域实体抽取F1值达到0.67,能够在较少人工参与的条件下有效获得领域实体,有助于领域知识图谱的构建。 展开更多
关键词 实体抽取 实体扩展 图排序算法 最大信息增益 知识图谱
在线阅读 下载PDF
科学文献中的知识实体抽取与评价研究综述 被引量:6
14
作者 刘春丽 陈爽 《现代情报》 CSSCI 2023年第12期143-163,共21页
[目的/意义]科学文献中的知识实体的挖掘、利用与评价对知识发现、构建知识网络、探索知识之间潜在关联均具有重要意义。随着机器学习、深度学习和大语言模型的发展及其应用,相比最早的基于人工标注的知识实体抽取技术,如今已经发生了... [目的/意义]科学文献中的知识实体的挖掘、利用与评价对知识发现、构建知识网络、探索知识之间潜在关联均具有重要意义。随着机器学习、深度学习和大语言模型的发展及其应用,相比最早的基于人工标注的知识实体抽取技术,如今已经发生了翻天覆地的变化;此外,近年来,学者对科学文献中知识实体的评价也进行一些探索,取得了较大进展。[方法/过程]在相关文献调研基础上,回顾并比较了基于人工标注的方法、基于规则的方法、传统机器学习、基于深度学习与大语言模型在知识实体抽取方面的优缺点,列举了相关数据集、软件与工具及相关专业会议;从提及频率、替代计量及其影响因素、实体共现网络及实体扩散/引文网络、基于知识实体的同行评议、基于知识实体的论文新颖性和临床转化进展五大方面,对知识实体的评价研究最新进展进行了归纳与整理。[结果/结论]针对目前存在的问题,建议在具体的知识实体抽取任务中,抽取方法选择应权衡多方面因素,再依此选择一个或多个模型完成实体抽取任务;在知识实体评价方面,应重视指标多样化、可靠性、有效性、系统性和规范化研究,关注对知识实体评价指标的影响因素、指标间相关关系与因果关系的实证分析,构建基于知识实体的论文评价指标体系,从细粒度和智能化视角赋能未来的科技评价与应用。 展开更多
关键词 知识实体 实体抽取 实体评价 科学文献 实体计量学 综述
在线阅读 下载PDF
基于标签迁移和深度学习的跨语言实体抽取研究 被引量:5
15
作者 余传明 黄婷婷 +1 位作者 林虹君 安璐 《现代情报》 CSSCI 2020年第12期3-16,35,共15页
[目的/意义]从跨语言视角探究如何更好地解决低资源语言的实体抽取问题。[方法/过程]以英语为源语言,西班牙语和荷兰语为目标语言,借助迁移学习和深度学习的思想,提出一种结合自学习和GRU-LSTM-CRF网络的无监督跨语言实体抽取方法。[结... [目的/意义]从跨语言视角探究如何更好地解决低资源语言的实体抽取问题。[方法/过程]以英语为源语言,西班牙语和荷兰语为目标语言,借助迁移学习和深度学习的思想,提出一种结合自学习和GRU-LSTM-CRF网络的无监督跨语言实体抽取方法。[结果/结论]与有监督的跨语言实体抽取方法相比,本文提出的无监督跨语言实体抽取方法可以取得更好的效果,在西班牙语上,F1值为0.6419,在荷兰语上,F1值为0.6557。利用跨语言知识在源语言和目标语言间建立桥梁,提升低资源语言实体抽取的效果。 展开更多
关键词 知识获取 实体抽取 跨语言 深度学习 标签映射
在线阅读 下载PDF
BERT模型结合实体向量的知识图谱实体抽取方法 被引量:4
16
作者 陈玮 张锐 尹钟 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1577-1582,共6页
实体抽取是构建知识图谱的重要环节,大多数深度学习模型没有注意到上下文的语义信息和忽略了对于知识实体的处理,因此,实体抽取的准确性有待进一步提高.本文提出了一种BERT模型结合实体向量的知识图谱实体抽取方法.该方法采用基于全词M... 实体抽取是构建知识图谱的重要环节,大多数深度学习模型没有注意到上下文的语义信息和忽略了对于知识实体的处理,因此,实体抽取的准确性有待进一步提高.本文提出了一种BERT模型结合实体向量的知识图谱实体抽取方法.该方法采用基于全词Mask的BERT模型生成句子向量和具有上下文语义的词向量,再将词向量取平均值得到实体向量,通过注意力机制将句子向量与实体向量结合,最后,将结合后的新向量放入条件随机场进行序列标注,找到最优的标签以达到实体抽取的目的.实验结果表明,该方法在人民日报语料库进行实体抽取时,其准确率、召回率和F1值分别为93.01%,90.32%和91.65%.同时,该模型在CoNLL-2003语料库中的实体抽取也具有很好的效果. 展开更多
关键词 知识图谱 实体抽取 BERT 实体向量 注意力机制 条件随机场
在线阅读 下载PDF
基于改进BERT算法的专利实体抽取研究——以石墨烯为例 被引量:14
17
作者 李建 靖富营 刘军 《电子科技大学学报》 EI CAS CSCD 北大核心 2020年第6期883-890,共8页
实体关系抽取是判断专利新颖性的核心环节,传统的实体关系抽取都是采用串行方式来进行,有很大的局限性。该文利用两种改进的BERT算法研究了专利实体关系抽取的技术演化。一种是将中文特征和句法语义特征相结合的新算法——基于改进的BER... 实体关系抽取是判断专利新颖性的核心环节,传统的实体关系抽取都是采用串行方式来进行,有很大的局限性。该文利用两种改进的BERT算法研究了专利实体关系抽取的技术演化。一种是将中文特征和句法语义特征相结合的新算法——基于改进的BERT-BiLSTM-CRF命名实体识别算法;另一种是将注意力机制与句法语义特征相结合的新算法——基于注意力机制与语义结合的实体关系抽取算法。最后以石墨烯制备技术为例,利用数值实验说明改进的两种算法能够高效分析专利的内容,揭示石墨烯企业技术的动态演化过程。 展开更多
关键词 演化分析 实体抽取 石墨烯技术 专利
在线阅读 下载PDF
融合Focal Loss的网络威胁情报实体抽取 被引量:10
18
作者 郭渊博 李勇飞 +2 位作者 陈庆礼 方晨 胡阳阳 《通信学报》 EI CSCD 北大核心 2022年第7期85-92,共8页
网络威胁情报(CTI)蕴含丰富的威胁行为知识,及时分析处理威胁情报能够促进网络攻防由被动防御向主动防御的转变。当前多数威胁情报以自然语言文本的形式存在,包含大量非结构化数据,需要利用实体抽取方法将其转换为结构化数据以便后续处... 网络威胁情报(CTI)蕴含丰富的威胁行为知识,及时分析处理威胁情报能够促进网络攻防由被动防御向主动防御的转变。当前多数威胁情报以自然语言文本的形式存在,包含大量非结构化数据,需要利用实体抽取方法将其转换为结构化数据以便后续处理。然而,由于威胁情报中包含大量漏洞名称、恶意软件、APT组织等专业词汇,且实体分布极不平衡,导致通用领域的实体抽取方法应用于威胁情报时受到极大限制。为此,提出一种融合Focal Loss的实体抽取模型,通过引入平衡因子和调制系数改进交叉熵损失函数,平衡样本分布。此外,针对威胁情报结构复杂且来源广泛,包含大量专业词汇的问题,在模型中增加单词和字符特征,有效改善了威胁情报中的OOV问题。实验结果表明,相较于现有主流模型BiLSTM和BiLSTM-CRF,所提模型在F1分数上分别提高了7.07%和4.79%,验证了引入Focal Loss和字符特征的有效性。 展开更多
关键词 网络安全 威胁情报 实体抽取 样本不平衡
在线阅读 下载PDF
基于深度表示的中医病历症状表型命名实体抽取研究 被引量:23
19
作者 原旎 卢克治 +5 位作者 袁玉虎 舒梓心 杨扩 张润顺 李晓东 周雪忠 《世界科学技术-中医药现代化》 CSCD 北大核心 2018年第3期355-362,共8页
目的:命名实体识别在自然语言处理中是最基本的任务之一,本文通过应用深度表示的方法实现临床上的现病史数据的自动标识。方法:本文随机选取了10 426条现病史句子作为主要的文本研究对象,分别用词嵌入(word2vec)和网络结构特征(node2vec... 目的:命名实体识别在自然语言处理中是最基本的任务之一,本文通过应用深度表示的方法实现临床上的现病史数据的自动标识。方法:本文随机选取了10 426条现病史句子作为主要的文本研究对象,分别用词嵌入(word2vec)和网络结构特征(node2vec)两种构建向量的方法生成不同的词向量特征,再在基于条件随机场(Conditional Random Field,CRF)和结构化支持向量机(Structured Support Vector Machines,SSVM)的方法上进行十重交叉验证,计算并比较基于深度表示的症状表型命名实体抽取的性能。结果:传统的CRF算法的三个评价指标(准确率,召回率,F值)为(0.888 9,0.786 9,0.834 8);基于WENER方法下的CRF和SSVM的评价指标为(0.975 0,0.984 9,0.979 8)和(0.992 8,0.988 9,0.990 8);在GENER方法下基于词的CRF和SSVM算法的三个评价指标为(0.972 8,0.976 8,0.975 2)和(0.983 3,0.974 5,0.978 8);GENER方法下基于字的CRF和SSVM算法的评价指标为(0.927 8,0.862 8,0.887 9)和(0.943 7,0.946 8,0.941 3)。结论:深度表示的命名实体抽取算法性能要比传统的非深度表示的命名实体标识算法性能好。另外,通过比较深度表示的两种算法的性能后发现,无论是基于word2vec生成的词向量还是基于node2vec生成的词向量,SSVM模型算法性能均优于CRF算法的性能。 展开更多
关键词 条件随机场 结构化支持向量机 命名实体抽取 中医病历
在线阅读 下载PDF
实体抽取综述及其在中医药领域的应用 被引量:9
20
作者 孔静静 于琦 +4 位作者 李敬华 于彤 张竹绿 田野 祖雅琪 《世界科学技术-中医药现代化》 CSCD 北大核心 2022年第8期2957-2963,共7页
随着机器学习、深度学习与人工智能的兴起与发展,自然语言处理技术也不断革新,其中实体抽取作为自然语言处理的子任务,自其提出以来,实现了从基于匹配模式的抽取到基于传统的机器学习方法抽取,再到基于深度学习的抽取的进步与发展。在... 随着机器学习、深度学习与人工智能的兴起与发展,自然语言处理技术也不断革新,其中实体抽取作为自然语言处理的子任务,自其提出以来,实现了从基于匹配模式的抽取到基于传统的机器学习方法抽取,再到基于深度学习的抽取的进步与发展。在医疗信息抽取方面,自然语言处理技术也得到了很好地应用,医学信息得到了更深层次的处理和挖掘。面对中医药领域中灵活的、复杂的和海量的中医药信息,利用实体抽取技术可以将中医药领域更为重要的信息抽取,这也是进一步对中医药信息挖掘的关键一步,基础一步。本文概括了中医药各领域实体抽取技术的应用研究情况,为实体抽取技术在中医药领域的进一步应用发展提供参考,以期促进中医药的传承发展,守正创新。 展开更多
关键词 中医药 命名实体识别 实体抽取 中医应用 综述
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部