期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
利用海量知识库实现实体标注的一种方法 被引量:1
1
作者 汤效琴 刘立波 周涛 《计算机工程与科学》 CSCD 北大核心 2015年第5期895-900,共6页
互联网上聚集了大量的文本、图像等非结构化信息,RDF作为W3C提出的互联网上的资源描述框架,非常适合于描述网络上的非结构化信息,因此形成了大量的RDF知识库,如Freebase、Yago、DBPedia等。RDF知识库中包含丰富的语义信息,可以对来自网... 互联网上聚集了大量的文本、图像等非结构化信息,RDF作为W3C提出的互联网上的资源描述框架,非常适合于描述网络上的非结构化信息,因此形成了大量的RDF知识库,如Freebase、Yago、DBPedia等。RDF知识库中包含丰富的语义信息,可以对来自网页的名字实体进行标注,实现语义扩充。将网页上的名字实体映射到知识库中对应实体上称作实体标注。实体标注包括两个主要部分:实体间的映射和标注去歧义。利用海量RDF知识库的特性,提出了一种有效的实体标注方法。该方法采用简单的图加权及计算解决实体标注的去歧义问题。该方法已在云平台上实现,并通过实验验证了其准确度和可扩展性。 展开更多
关键词 RDF知识库 实体标注 图加权 去岐义
在线阅读 下载PDF
融合页面结构与内容的在线百科实体标注方法 被引量:2
2
作者 李晓静 林海伦 +2 位作者 贾岩涛 王元卓 程学旗 《计算机科学与探索》 CSCD 北大核心 2015年第10期1238-1246,共9页
在线百科实体标注目的是标注出属于特定类别(如人名、地名、机构名等)的实体。百科实体标注对大量的应用,诸如实体消歧、实体关系挖掘、知识库构建都很重要。百科实体特征可以分为结构特征(属性框、标题、类别等)和内容特征(页面正文)... 在线百科实体标注目的是标注出属于特定类别(如人名、地名、机构名等)的实体。百科实体标注对大量的应用,诸如实体消歧、实体关系挖掘、知识库构建都很重要。百科实体特征可以分为结构特征(属性框、标题、类别等)和内容特征(页面正文)。现有的标注方法大多只考虑一种特征或者一种分类器,导致F1值较低,无法充分发挥两种特征的优势。因此,提出了融合页面结构特征和内容特征的在线百科实体标注方法。该方法考虑了两种特征对标注结果的影响,分别构造分类器,并且对结果进行线性组合,能够更准确地实现百科实体的实体标注。实验表明,该方法在实体标注中F1值较其他对比实验方法均有所提高。 展开更多
关键词 实体标注 在线百科 命名实体 实体分类
在线阅读 下载PDF
面向实体标注的军事语料库建设 被引量:7
3
作者 周彬彬 张宏军 +2 位作者 张睿 冯蕴天 徐有为 《计算机科学》 CSCD 北大核心 2019年第B06期540-546,共7页
军事语料的识别和标注是军事语料库建设的关键。针对军事语料的实体,提出了一套统一的军语词性标记规范和军事语料标注规范,设计了一种基于军语词典的自动扩展的军事语料实体特征提取框架。该框架借助设计的高精分类器进行基本特征的选... 军事语料的识别和标注是军事语料库建设的关键。针对军事语料的实体,提出了一套统一的军语词性标记规范和军事语料标注规范,设计了一种基于军语词典的自动扩展的军事语料实体特征提取框架。该框架借助设计的高精分类器进行基本特征的选择和提取,结合军语的典型特征组成特征集,构建基于军语词典校正的特征空间,对军事语料进行实体识别之后按照指定的标注规范和词形标记规范进行军事语料实体的标注,构建一个较大规模的高质量军事语料库。实验表明,该框架可以较好地完成语料实体的识别和语料标注工作,有利于军事语料库的建设工作和认清其在军事上的广泛作用和应用前景。 展开更多
关键词 军事实体标注 军语词性标记 特征提取 军事语料库
在线阅读 下载PDF
融合词汇信息的煤矿安全事故实体提取
4
作者 吕惠林 董佳瑶 +1 位作者 袁林 李利 《工矿自动化》 北大核心 2025年第4期131-139,共9页
命名实体识别是构建煤矿安全事故领域知识图谱的基本任务,但中文缺乏明显的词汇边界特征,导致现有实体提取模型对词汇信息利用不充分。针对上述问题,提出了一种融合词汇信息的煤矿安全事故实体提取模型——融合词汇信息的RoBERTa-BiLSTM... 命名实体识别是构建煤矿安全事故领域知识图谱的基本任务,但中文缺乏明显的词汇边界特征,导致现有实体提取模型对词汇信息利用不充分。针对上述问题,提出了一种融合词汇信息的煤矿安全事故实体提取模型——融合词汇信息的RoBERTa-BiLSTM-CRF模型。首先,构建煤矿安全领域专业词典,采用RoBERTa获取字符特征向量,采用AC自动机算法进行字词匹配,得到字符对应的潜在词汇,采用Glove获取词汇特征向量。然后,通过自注意机制分配权重,将基于RoBERTa得到的字符特征向量和基于GloVe得到的词汇特征向量进行融合,得到包含词汇信息的融合向量。最后,将融合向量作为BiLSTM-CRF的输入,得到最优预测序列结果,实现煤矿安全事故实体提取。实验结果表明:(1)融合词汇信息的RoBERTa-BiLSTM-CRF模型对煤矿安全领域12种实体提取的F_1达91.63%,较RoBERTa-BiLSTM-CRF模型提高了1.63%。(2)融合词汇信息的RoBERTa-BiLSTM-CRF模型在整体实体提取任务及各类实体类型的提取任务中,综合性能优于其他模型,说明模型架构设计对不同实体类型具有广泛适用性。 展开更多
关键词 煤矿安全事故 实体提取 词汇信息 本体模型 实体标注 命名实体识别
在线阅读 下载PDF
面向医疗文本的实体及关系标注平台的构建及应用 被引量:16
5
作者 张坤丽 赵旭 +3 位作者 关同峰 尚柏羽 李羽蒙 昝红英 《中文信息学报》 CSCD 北大核心 2020年第6期36-44,共9页
医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标... 医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标注方法费力费时,已难以适应大数据发展的需求。该文以构建中文医学知识图谱的任务为驱动,构建了半自动化实体及关系标注平台。该平台融合多种算法,能够实现文本预标注、进度控制、质量把控和数据分析等多种功能。利用该平台,进行了医学知识图谱中实体和关系标注,结果表明该平台能够在文本资源建设中控制标注过程,保证标注质量,提高标注效率。同时该平台也被应用于其他文本标注任务,表明该平台具有较好的任务移植性。 展开更多
关键词 文本标注 标注平台 实体标注 关系标注 数据分析
在线阅读 下载PDF
KECVS:一个面向专业文献知识实体的类型标注及可视化系统
6
作者 温雯 伍思杰 +2 位作者 蔡瑞初 郝志峰 王丽娟 《计算机应用与软件》 2017年第8期87-91,144,共6页
知识实体的类型标注是专业文献结构化管理和知识脉络挖掘中的一个重要任务。由于专业文献的知识实体具有专业性强、类型多样、随时间变化的特点,如何在无监督的情况下对其进行类型标签抽取、实体类型标注及知识关系挖掘具有重要的意义... 知识实体的类型标注是专业文献结构化管理和知识脉络挖掘中的一个重要任务。由于专业文献的知识实体具有专业性强、类型多样、随时间变化的特点,如何在无监督的情况下对其进行类型标签抽取、实体类型标注及知识关系挖掘具有重要的意义。设计并实现了一个面向专业文献知识实体的类型标注及可视化系统,提供文献数据的实体识别、实体类型标注、知识实体关系图构建及其可视化等功能,帮助科研工作者更加便捷、直观、准确地把握知识关系和研究热点。 展开更多
关键词 信息抽取 实体类型标注 知识关系挖掘 数据可视化 专业文献
在线阅读 下载PDF
糖尿病电子病历实体及关系标注语料库构建 被引量:1
7
作者 叶娅娟 胡斌 +1 位作者 张坤丽 昝红英 《中文信息学报》 CSCD 北大核心 2023年第12期17-25,共9页
电子病历是医疗信息的重要来源,包含大量与医疗相关的领域知识。该文从糖尿病电子病历文本入手,在调研了国内外已有的电子病历语料库的基础上,参考I2B2实体及关系分类,建立了糖尿病电子病历实体及实体关系分类体系,并制定了标注规范。... 电子病历是医疗信息的重要来源,包含大量与医疗相关的领域知识。该文从糖尿病电子病历文本入手,在调研了国内外已有的电子病历语料库的基础上,参考I2B2实体及关系分类,建立了糖尿病电子病历实体及实体关系分类体系,并制定了标注规范。利用实体及关系标注平台,进行了实体及关系预标注及多轮人工校对工作,形成了糖尿病电子病历实体及关系标注语料库(Diabetes Electronic Medical Record entity and relation Corpus, DEMRC)。DEMRC共包含8 899个实体、456个实体修饰及16 564个关系,对其进行一致性评价和分析,发现实体及关系标注一致性达到了0.854 2和0.941 6。针对实体识别和实体关系抽取任务,分别采用基于迁移学习的BiLSTM-CRF模型和RoBERTa模型进行初步实验,并对语料库中的各类实体及关系进行评估,为后续糖尿病电子病历实体识别、关系抽取研究及糖尿病知识图谱构建打下基础。 展开更多
关键词 糖尿病 电子病历 实体及关系标注体系 语料库构建
在线阅读 下载PDF
基于关系过滤和实体对标注的中文关系抽取方法 被引量:1
8
作者 刘旭 杨航 +1 位作者 张啸成 张永刚 《吉林大学学报(理学版)》 CAS 北大核心 2023年第5期1095-1102,共8页
针对关系三元组抽取任务中的冗余关系问题和实体重叠问题,提出一种基于关系过滤器的二维实体对标注方案(RF2DTagging).RF2DTagging模型由两部分组成:1)用于过滤冗余关系的关系过滤器(relation filter);2)能有效解决各种实体重叠问题的... 针对关系三元组抽取任务中的冗余关系问题和实体重叠问题,提出一种基于关系过滤器的二维实体对标注方案(RF2DTagging).RF2DTagging模型由两部分组成:1)用于过滤冗余关系的关系过滤器(relation filter);2)能有效解决各种实体重叠问题的二维实体对标注方案(2D entity-pair tagging scheme).为进一步验证RF2DTagging模型,在3个公开的中文关系抽取数据集(CCKS2019-Task3,CMeIE和DuIE2.0)上进行实验.实验结果表明,该模型能有效解决上述两个问题,且总体性能比对比模型更好. 展开更多
关键词 中文关系抽取 知识图谱 二维实体标注 自然语言处理
在线阅读 下载PDF
结合GAN与BiLSTM-Attention-CRF的领域命名实体识别 被引量:32
9
作者 张晗 郭渊博 李涛 《计算机研究与发展》 EI CSCD 北大核心 2019年第9期1851-1858,共8页
领域内命名实体识别通常面临领域内标注数据缺乏以及由于实体名称多样性导致的同一文档中实体标注不一致等问题.针对以上问题,利用生成式对抗网络(generative adversarial network, GAN)可以生成数据的特点,将生成式对抗网络与BiLSTM-At... 领域内命名实体识别通常面临领域内标注数据缺乏以及由于实体名称多样性导致的同一文档中实体标注不一致等问题.针对以上问题,利用生成式对抗网络(generative adversarial network, GAN)可以生成数据的特点,将生成式对抗网络与BiLSTM-Attention-CRF模型相结合.首先以BiLSTM-Attention作为生成式对抗网络的生成器模型,以CNN作为判别器模型,从众包标注数据集中整合出与专家标注数据分布一致的正样本标注数据来解决领域内标注数据缺乏的问题;然后通过在BiLSTM-Attention-CRF模型中引入文档层面的全局向量,计算每个单词与该全局向量的关系得出其新的特征表示以解决由于实体名称多样化造成的同一文档中实体标注不一致问题;最后,在基于信息安全领域众包标注数据集上的实验结果表明,该模型在各项指标上显著优于同类其他模型方法. 展开更多
关键词 领域命名实体识别 生成式对抗网络 众包标注数据 实体标注一致 BiLSTM-Attention-CRF模型
在线阅读 下载PDF
数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例 被引量:48
10
作者 李斌 王璐 +1 位作者 陈小荷 王东波 《大学图书馆学报》 CSSCI 北大核心 2020年第5期72-80,90,共10页
在数字人文研究范式下,传统的以电子化和全文检索为基础的古籍研究模式已难以满足历史学、文献学、语言学等学科深度研究的需要。古籍文本特别是史书所记载的词语、时间、地点、人物、事件等要素都需要结构化的历史人文数据库,从而实现... 在数字人文研究范式下,传统的以电子化和全文检索为基础的古籍研究模式已难以满足历史学、文献学、语言学等学科深度研究的需要。古籍文本特别是史书所记载的词语、时间、地点、人物、事件等要素都需要结构化的历史人文数据库,从而实现历史要素的定量分析与可视化。文章以古汉语自动分析技术为基础,结合人工标注和校对,以实体标注方法解决历史人物的同名异指和异名同指问题,对史学名著《左传》进行了词语切分、词性、时间、人物ID、地点GIS信息标注,进而实现了热点人物、人物关系网、人物游历轨迹与距离等量化统计与可视化,为古籍文本的内容标注、结构化人文知识库建设提供新的研究路径。最后,讨论了知识库进一步的完善方案与应用场景。 展开更多
关键词 数字人文 《左传》 实体标注 数据库 古文信息处理
在线阅读 下载PDF
高校学业文本命名实体识别及数据集构建研究 被引量:2
11
作者 何晨 苑迎春 +1 位作者 王克俭 陶佳 《计算机工程与应用》 CSCD 北大核心 2023年第22期322-328,共7页
近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开... 近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开适用的标注数据集,因此开展面向具有普遍性和通识性的高校学业命名实体识别数据集变得极为迫切。依据学业管理专家的领域知识,对某高校13万余字学业文本制定了8类学业数据构建标准,并根据构建标准以及文本特性完成了标注工作。将BiLSTM-CRF等4种识别模型在公开数据集和构建数据集上进行实验测试,结果表明构建的数据集可以应用于高校学业领域的命名实体识别任务,构建方法具有普适性,而且分类标注后的数据集识别效果相较未分类数据集有明显提升,进一步验证了该分类标准的有效性。 展开更多
关键词 高校学业 命名实体识别 数据集构建 实体标注 BiLSTM-CRF
在线阅读 下载PDF
基于语料库的明清小说人名与称谓研究 被引量:4
12
作者 熊丹 陆勤 +2 位作者 罗凤珠 石定栩 赵天成 《中文信息学报》 CSCD 北大核心 2015年第1期19-27,43,共10页
在自然语言处理及其应用领域,人名和称谓作为重要的命名实体,是信息处理的关键部分之一。该文从命名实体识别和资讯提取的角度出发,在对4部明清古典小说的语料库进行标注的前提下,建构了姓名、字号和称谓作为命名实体的分类及标注系统... 在自然语言处理及其应用领域,人名和称谓作为重要的命名实体,是信息处理的关键部分之一。该文从命名实体识别和资讯提取的角度出发,在对4部明清古典小说的语料库进行标注的前提下,建构了姓名、字号和称谓作为命名实体的分类及标注系统。人名和称谓总体上分为单一型和复合型,根据复合型的内部组成元素和组合方式,将其进一步分为固定式、同位式、附属嵌套式、灵活嵌套式。结合语料库的完整数据统计,该文对各类型人名和称谓进行了比较分析,并分别展示了4部名著在人名、称谓使用上的特点。 展开更多
关键词 命名实体标注 人名和称谓分类 语料库构建
在线阅读 下载PDF
基于典籍文本挖掘的明清时期色彩知识研究 被引量:4
13
作者 徐娟 刘东华 刘宇 《图书馆论坛》 CSSCI 北大核心 2023年第3期42-53,共12页
色彩作为承载中国传统思想观念、文化习俗、社会礼制的重要载体,是传统文化不可或缺的部分,全面探析明清时期色彩的演变发展、思想流变及其文化内涵,对弘扬传统色彩文化具有重要意义。文章以明清时期的4本典籍文本为语料,提出一种基于... 色彩作为承载中国传统思想观念、文化习俗、社会礼制的重要载体,是传统文化不可或缺的部分,全面探析明清时期色彩的演变发展、思想流变及其文化内涵,对弘扬传统色彩文化具有重要意义。文章以明清时期的4本典籍文本为语料,提出一种基于文本挖掘进行明清时期色彩知识探究的研究方法,通过实体标注、实体关系抽取、色彩演变分析、色彩与社会阶层关系探究,探索明清时期色彩的演变特征,在此基础上揭示其文化内涵。与传统方法相比,文章通过量化的方式更加清晰地展现了明清时期色彩的演变特征;通过分析文本内容,进一步发现明清时期色彩等级随着政治、经济、染色工艺的变化,呈现出动态变化的特点。分析结果得到历史学、艺术学相关研究资料的佐证,验证了方法的有效性。 展开更多
关键词 色彩知识 文本挖掘 实体标注 演变特征 文化内涵
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部