期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于深度学习的非结构化医学文本知识抽取 被引量:2
1
作者 耿飙 梁成全 +1 位作者 魏炜 朱长元 《计算机工程与设计》 北大核心 2024年第1期177-186,共10页
为解决一词多义和关系重叠问题,以糖尿病领域文本数据为对象,基于序列标注的新型标注策略,提出一种轻量级端到端神经模型。采用头部实体优先策略,使用BERT获取输入字向量,通过BiLSTM深度学习捕获时间特征和上下文相关性。引入multi_head... 为解决一词多义和关系重叠问题,以糖尿病领域文本数据为对象,基于序列标注的新型标注策略,提出一种轻量级端到端神经模型。采用头部实体优先策略,使用BERT获取输入字向量,通过BiLSTM深度学习捕获时间特征和上下文相关性。引入multi_head attention机制,采用CRF模型根据相邻标签的相互依赖关系得到最优预测序列。旨在将非结构化的医学文本转换成结构化的数据,在阿里云天池中文糖尿病标注数据集上进行综合实验,实验结果表明,该模型在医学文本知识抽取中具有优越的性能。 展开更多
关键词 深度学习 非结构化文本 医学文本 知识抽取 实体识别 关系抽取 序列标注
在线阅读 下载PDF
基于NER 的石油非结构化信息抽取研究 被引量:11
2
作者 钟原 刘小溶 +2 位作者 王杰 陈雁 张泰 《西南石油大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期165-173,共9页
随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这... 随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。 展开更多
关键词 命名实体识别 Bi LSTM+CRF 信息抽取 非结构化文本
在线阅读 下载PDF
面向中文网络百科的属性和属性值抽取 被引量:12
3
作者 贾真 杨宇飞 +2 位作者 何大可 刘胜久 尹红风 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期41-47,共7页
针对面向中文网络百科条目文章的属性和属性值抽取,提出一种无监督方法。此方法将属性值看做命名实体,利用频繁模式挖掘和关联分析,从文本中抽取类别属性;采用自扩展方法为属性建立触发词表;基于属性触发词和属性值实体标注挖掘属性值... 针对面向中文网络百科条目文章的属性和属性值抽取,提出一种无监督方法。此方法将属性值看做命名实体,利用频繁模式挖掘和关联分析,从文本中抽取类别属性;采用自扩展方法为属性建立触发词表;基于属性触发词和属性值实体标注挖掘属性值抽取模式,利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验,结果表明所提方法行之有效。 展开更多
关键词 知识获取 属性抽取 非结构化文本 模式挖掘
在线阅读 下载PDF
基于旋转森林集成学习的涉恐实体挖掘研究 被引量:12
4
作者 孙菲菲 林平 曹卓 《情报杂志》 CSSCI 北大核心 2015年第5期190-195,共6页
近期,我国出现了一系列暴力恐怖袭击事件,面临的反恐形势日趋严峻。传统的被动警务防范模型弊端日益凸显,亟需有效应对恐怖袭击的智能化防范策略。作为近年来的研究热点,数据挖掘技术和应用发展迅速。文章充分利用数据挖掘的前沿技术和... 近期,我国出现了一系列暴力恐怖袭击事件,面临的反恐形势日趋严峻。传统的被动警务防范模型弊端日益凸显,亟需有效应对恐怖袭击的智能化防范策略。作为近年来的研究热点,数据挖掘技术和应用发展迅速。文章充分利用数据挖掘的前沿技术和成果,提出了一个相对完整的涉恐实体挖掘模型,以期为反恐实战工作服务。其中,简要介绍针对中文和维吾尔文非结构化文本数据的挖掘流程,提出一个有效应用于识别和预测涉恐实体的基于旋转森林的集成分类模型,并用实验证明这一模型较之一般的分类器会有更优越的分类性能。 展开更多
关键词 反恐 非结构化文本 数据挖掘 旋转森林 集成学习
在线阅读 下载PDF
基于本体和依存句法的词汇语义关系标注及评价方法研究
5
作者 熊晶 支丽平 袁冬 《中文信息学报》 CSCD 北大核心 2015年第3期58-64,共7页
为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关... 为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关系进行识别,利用词语间的依存关系对词语进行语义组合,从而实现词汇语义关系标注。结合语义标注过程中的语义匹配度、语义丰富度等特征,设计了评价算法,用以衡量标注结果的正确性。实验结果表明,该标注算法能获得较高的准确率,在大规模语料下效果尤为显著。 展开更多
关键词 语义标注 本体 非结构化文本 依存句法
在线阅读 下载PDF
基于异构中文在线百科的层次话题构建
6
作者 王煦中 刘琰 +1 位作者 胡琳梅 陈静 《计算机科学》 CSCD 北大核心 2017年第5期226-231,共6页
中文在线百科包含大量有价值的信息,很多工作成功地将其用于各类知识获取任务。例如,拥有相似话题的文档可以被归为一个概念。从这些在线百科中构建出的针对某一概念的层次话题对于搜索与浏览、信息组织和检索等应用都有很大的帮助。然... 中文在线百科包含大量有价值的信息,很多工作成功地将其用于各类知识获取任务。例如,拥有相似话题的文档可以被归为一个概念。从这些在线百科中构建出的针对某一概念的层次话题对于搜索与浏览、信息组织和检索等应用都有很大的帮助。然而,目前尚未出现对在线百科中某一概念层次话题构建的研究。针对中文在线百科的异构性与粗糙性的问题,提出了一种基于贝叶斯网络的话题层次构建方法。该方法同时综合文档的结构化目录信息和非结构化文本信息,采用最大树形图算法自动地在文档所属概念的贝叶斯话题网络中建立层次话题。实验证明,与原有的百科话题结构相比较,所提方法在保持75%的准确性的同时扩充了4倍的内容。 展开更多
关键词 中文在线百科 层次话题 结构化目录信息 非结构化文本信息
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部