期刊文献+
共找到66篇文章
< 1 2 4 >
每页显示 20 50 100
D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:17
1
作者 寇月 李冬 +2 位作者 申德荣 于戈 聂铁铮 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DO... 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 展开更多
关键词 实体抽取 DOM树 DEEPweb 数据区域定位 实体区域定位
在线阅读 下载PDF
基于中文Web社会网络的提取、测量与分析 被引量:6
2
作者 邸楠 姚从磊 李晓明 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期169-172,共4页
从中文Web中提取人名实体,设计了3种人物间关系定义,并以此为基础构建一个人物间关系网络。通过计算一些社会网络研究中常用的属性指标,验证了社会网络中的一些常见现象,例如“小世界现象”。对社会网络的分析工作包括两个方面:一方面,... 从中文Web中提取人名实体,设计了3种人物间关系定义,并以此为基础构建一个人物间关系网络。通过计算一些社会网络研究中常用的属性指标,验证了社会网络中的一些常见现象,例如“小世界现象”。对社会网络的分析工作包括两个方面:一方面,使用主成份分析来帮助划分人物关系网络,并将划分结果与对应的人物属性相比较,结果表明人物职业较之籍贯和性别等属性更符合来自Web社会网络中的结构划分;另一方面,根据人名在Web中热点程度排序,并按照顺序依次选择3组不同大小的人物列表分别构建社会网络,以此来观察随着人物的增加该社会网络的演化现象,并发现构建的人物关系网络结构是一个单核心的网络。 展开更多
关键词 社会网络分析 中文web 命名实体提取 命名实体关系
在线阅读 下载PDF
面向中文病历的实体关系抽取模型研究
3
作者 单涛 许鑫 +4 位作者 王园梦 王宇翱 景慎旗 叶继元 郭永安 《现代情报》 北大核心 2025年第5期24-33,共10页
[目的/意义]关系抽取是电子病历处理的核心组成部分,对于提高电子病历处理的准确性和效率至关重要。为解决中文电子病历关系抽取中实体冗余、实体词嵌套和实体重叠问题,提高医疗信息抽取效率,提出了一种新型的中文病历关系抽取模型。[方... [目的/意义]关系抽取是电子病历处理的核心组成部分,对于提高电子病历处理的准确性和效率至关重要。为解决中文电子病历关系抽取中实体冗余、实体词嵌套和实体重叠问题,提高医疗信息抽取效率,提出了一种新型的中文病历关系抽取模型。[方法/过程]将关系抽取任务分解为关系优先解码器、全局实体提取和主体—客体对齐三部分。首先通过解码器预测和过滤关系,并基于预测的关系限制实体提取;其次采用关系特定的注意机制和全局指针网络,有效处理信息重叠和主体/客体嵌套问题;最后引入实体对应矩阵将主体、客体及其关系对齐为三元组。[结果/结论]分别在CMeIE中文病历数据集和DiaKG真实糖尿病中文数据集上进行综合实验并与6种常用模型进行了对比分析,发现本文模型在数据集CMeIE和DiaKG上的F1值较主流模型CasRel分别提升了6.6%和5.8%。研究结果表明,本文模型可有效解决中文病历复杂性带来的实体嵌套和实体重叠问题,对医疗信息提取和数据处理流程具有良好价值。 展开更多
关键词 关系抽取 中文病例 电子病例 实体嵌套 实体重叠 注意力机制 全局指针 糖尿病
在线阅读 下载PDF
Web藏文文本资源挖掘与利用研究 被引量:6
4
作者 刘汇丹 诺明花 +2 位作者 马龙龙 吴健 贺也平 《中文信息学报》 CSCD 北大核心 2015年第1期170-177,共8页
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧... 该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。 展开更多
关键词 web 语料 文本挖掘 信息抽取 藏文信息处理 中文信息处理
在线阅读 下载PDF
基于网页布局相似度的Web论坛数据抽取 被引量:9
5
作者 王允 李弼程 林琛 《中文信息学报》 CSCD 北大核心 2010年第2期68-75,共8页
Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低... Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低的不足。该方法充分利用Web论坛网页布局结构上的特点,采用分级处理的方式,先识别出主题信息块、再利用待抽取数据的统计规律在主题信息块中完成抽取,整个过程不需要任何人工干预。实验结果表明,新方法对不同的BBS站点有很好的通用性,且具有较高的准确率和召回率。 展开更多
关键词 计算机应用 中文信息处理 web论坛 数据抽取 相似度
在线阅读 下载PDF
主题Deep Web爬虫框架研究 被引量:3
6
作者 黄聪会 张水平 胡洋 《计算机工程与设计》 CSCD 北大核心 2010年第5期929-931,935,共4页
为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不... 为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术。实验结果表明了该框架采用的技术是可行的。 展开更多
关键词 深网 爬虫 搜索引擎 信息抽取 常用字
在线阅读 下载PDF
中文网络安全威胁情报实体关系抽取
7
作者 甄珍 高见 宋佳林 《科学技术与工程》 北大核心 2025年第24期10344-10350,共7页
为实现中文网络安全威胁情报知识图谱的构建,探索一种融合改进的Focal Loss和多粒度卷积神经网络的多分类方法,对情报中文本的实体关系进行抽取。针对中文网络安全威胁情报多种关系类型中存在的长尾问题,通过改进Focal Loss损失函数,增... 为实现中文网络安全威胁情报知识图谱的构建,探索一种融合改进的Focal Loss和多粒度卷积神经网络的多分类方法,对情报中文本的实体关系进行抽取。针对中文网络安全威胁情报多种关系类型中存在的长尾问题,通过改进Focal Loss损失函数,增强对难区分样本的学习,提高模型的分类能力;针对情报内中英文词汇混杂以及专业词汇众多导致的关键词汇长度的方差较大,模型学习困难的问题,提出采用多粒度卷积神经网络的方法捕捉不同粒度的语句特征,提升模型在分类任务上的效果。对比实验表明,与在其他领域常用的分类方法相比,所提出的MCNNFL模型的Weighted-F1值和正确率显著提高,提升了中文网络安全威胁情报文本实体关系抽取的效果。消融实验表明,针对上述两个问题提出的两种方法皆可提升模型性能,且可以同时使用。 展开更多
关键词 中文网络安全威胁情报 实体关系抽取 卷积神经网络(CNN)
在线阅读 下载PDF
基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法 被引量:1
8
作者 李斌 林民 +3 位作者 斯日古楞 高颖杰 王玉荣 张树钧 《计算机应用》 北大核心 2025年第1期75-81,共7页
基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠的问题,限制了实体关系联合抽取的效果;管道式抽取... 基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠的问题,限制了实体关系联合抽取的效果;管道式抽取方法存在错误传播问题,影响抽取效果。针对以上问题,提出一种基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法。首先,利用区间抽取式阅读理解的提示学习方法对预训练语言模型(PLM)注入领域知识以统一预训练和微调的优化目标,并对输入句子进行编码表示;其次,使用全局指针网络分别对主、客实体边界和不同关系下的主、客实体边界进行预测和联合解码,对齐成实体关系三元组,并构建了PTBG(Prompt Tuned BERT with Global pointer)模型,解决实体嵌套和关系重叠问题,同时避免了管道式解码的错误传播问题;最后,在上述工作基础上分析了不同提示模板对抽取性能的影响。在《史记》数据集上进行实验的结果表明,相较于注入领域知识前后的OneRel模型,PTBG模型所取得的F1值分别提升了1.64和1.97个百分点。可见,PTBG模型能更好地对中文古籍实体关系进行联合抽取,为低资源的小样本深度学习场景提供了新的研究思路与方法。 展开更多
关键词 实体关系联合抽取 全局指针网络 提示学习 预训练语言模型 中文古籍
在线阅读 下载PDF
Deep Web下基于中文分词的聚类算法
9
作者 刘荣辉 郑建国 《计算机工程与应用》 CSCD 北大核心 2011年第4期138-140,145,共4页
随着Deep Web飞速的发展,使用商业网站上所提供的查询接口从Web数据库中获取高质量数据并对这些数据进行分析加工处理显得尤为重要。通过动态提交关键词,利用查询接口得到检索页面,对检索页面中的中文信息进行抽取并进行分词处理,对分... 随着Deep Web飞速的发展,使用商业网站上所提供的查询接口从Web数据库中获取高质量数据并对这些数据进行分析加工处理显得尤为重要。通过动态提交关键词,利用查询接口得到检索页面,对检索页面中的中文信息进行抽取并进行分词处理,对分词的结果进行统计分析,通过引入DF进行降维得到特征项,使用TF/IDF计算得到特征项的权重向量矩阵,对权重矩阵进行聚类从而实现文档的分类。通过仿真实验检验了算法的合理性和可行性。 展开更多
关键词 DEEP web 数据抽取 中文分词 TF/IDF 聚类
在线阅读 下载PDF
数字文献中特殊实体的增强型WEB搜索引擎模型
10
作者 周佳骏 《图书馆论坛》 CSSCI 北大核心 2013年第2期111-115,共5页
针对采用图像结构方式存储在文献中的特殊实体难以检索,其索引需要人工创建,检索需要专门的服务商提供特权且需使用专门的检索工具等问题,以化学期刊中分子式和化学公式的检索为例,给出增强型WEB搜索引擎模型,能基于语义自动抽取文档中... 针对采用图像结构方式存储在文献中的特殊实体难以检索,其索引需要人工创建,检索需要专门的服务商提供特权且需使用专门的检索工具等问题,以化学期刊中分子式和化学公式的检索为例,给出增强型WEB搜索引擎模型,能基于语义自动抽取文档中的实体名称、结构及关系并生成索引,通过Google和Yahoo!等常用免费搜索工具即可完成文献检索。实验表明该系统具有较好的客观性、准确性和全面性。 展开更多
关键词 搜索引擎 特殊实体 数字资源 网页搜索 信息提取
在线阅读 下载PDF
基于Web弱指导的本体概念实例及属性的同步提取 被引量:4
11
作者 康为 穗志方 《中文信息学报》 CSCD 北大核心 2010年第1期54-59,共6页
该文提出了一种基于Web弱指导的本体概念实例和属性的同步提取方法,利用小规模的种子实例和属性集,该文从Web上自动获取实例和属性共现的上下文模式,并利用种子实例和属性的关联性来评价这些模式。进一步,根据上下文模式提取候选概念实... 该文提出了一种基于Web弱指导的本体概念实例和属性的同步提取方法,利用小规模的种子实例和属性集,该文从Web上自动获取实例和属性共现的上下文模式,并利用种子实例和属性的关联性来评价这些模式。进一步,根据上下文模式提取候选概念实例和属性后,该文提出两种方法来评价提取的候选实例和属性。第一,利用概念实例和属性的关联性来互相评价对方的准确度;第二,利用候选实例或候选属性与种子实例或属性在上下文模式分布上的相似度来评价准确度。在疾病类实验结果表明,人工确认候选实例的准确率在前500个结果达到94%,前1 000个结果的准确率也高达93%。 展开更多
关键词 计算机应用 中文信息处理 web 概念实例提取 属性提取 弱指导 上下文模式
在线阅读 下载PDF
基于探测查询的Deep Web实体识别
12
作者 李石生 刘海博 +1 位作者 路小英 王亮 《江西师范大学学报(自然科学版)》 CAS 北大核心 2008年第2期166-170,共5页
目前,Web上存在很多Deep Web网站,而各个网站的数据表现形式有很大的差别.因此要集成这些网站就需要正确抽取其中的数据,并将其中表示同一实体的数据合并.该文提出了一种基于探测查询的方法来自动完成页面的数据抽取及实体识别工作,该... 目前,Web上存在很多Deep Web网站,而各个网站的数据表现形式有很大的差别.因此要集成这些网站就需要正确抽取其中的数据,并将其中表示同一实体的数据合并.该文提出了一种基于探测查询的方法来自动完成页面的数据抽取及实体识别工作,该方法通过提交查询可以在提取数据的同时确定实体的各个属性,根据实体的各个属性进行实体识别.实验表明,该方法具有较高的实体识别准确率. 展开更多
关键词 DEEP web 数据抽取 实体识别
在线阅读 下载PDF
Web页面信息块的自动分割 被引量:10
13
作者 瞿有利 于浩 +1 位作者 徐国伟 西野文人 《中文信息学报》 CSCD 北大核心 2004年第1期6-13,共8页
随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称... 随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用 ,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法 :首先通过创建Web页面结构化的HMTL分析树 ,然后根据包含有效文本量等确定包含信息块的子树 ,最后根据子树深度信息利用 2 -rankPAT算法进行分割。通过对BBS页面的信息块抽取实验 ,证明了该方法的有效性。 展开更多
关键词 计算机应用 中文信息处理 web页面 信息提取 信息块
在线阅读 下载PDF
基于平行交互注意力网络的中文电子病历实体及关系联合抽取 被引量:2
14
作者 李丽双 王泽昊 +1 位作者 秦雪洋 袁光辉 《中文信息学报》 CSCD 北大核心 2024年第6期108-118,共11页
基于电子病历构建医学知识图谱对医疗技术的发展具有重要意义,实体和关系抽取是构建知识图谱的关键技术。该文针对目前实体关系联合抽取中存在的特征交互不充分的问题,提出了一种平行交互注意力网络(PIAN)以充分挖掘实体与关系的相关性... 基于电子病历构建医学知识图谱对医疗技术的发展具有重要意义,实体和关系抽取是构建知识图谱的关键技术。该文针对目前实体关系联合抽取中存在的特征交互不充分的问题,提出了一种平行交互注意力网络(PIAN)以充分挖掘实体与关系的相关性,在多个标准的医学和通用数据集上取得最优结果;当前中文医学实体及关系标注数据集较少,该文基于中文电子病历构建了实体和关系抽取数据集(CEMRIE),与医学专家共同制定了语料标注规范,并基于该文所提出的模型实验得出基准结果。 展开更多
关键词 实体关系联合抽取 双向特征交互模块 自注意力机制 中文电子病历 数据集标注与构建
在线阅读 下载PDF
基于实体级联类型的中文关系抽取管道模型
15
作者 饶东宁 吴倩梅 黄观琚 《计算机应用研究》 CSCD 北大核心 2024年第9期2685-2689,共5页
端到端实体关系抽取任务可以被分解成命名实体识别和关系抽取两个子任务,最近的工作多将这两个子任务联合建模。现有的流水线方法验证了在关系模型中融合实体类型信息的重要性和管道模型的潜力,但是它们忽略了文本中的某些实体可能同时... 端到端实体关系抽取任务可以被分解成命名实体识别和关系抽取两个子任务,最近的工作多将这两个子任务联合建模。现有的流水线方法验证了在关系模型中融合实体类型信息的重要性和管道模型的潜力,但是它们忽略了文本中的某些实体可能同时具有多个类型,这种多义性的情况在中文数据集中尤为常见。为解决上述问题,提出了一种实体级联类型机制,并在此基础上开发了一个更适合中文关系抽取的管道模型,取名为CENTRELINE。该流水线方法的实体模块是一个词-词关系分类模型,它以BERT和双向LSTM作为编码器、经过条件层归一化后引入空洞卷积,最后通过级联类型预测器输出实体及其级联类型。关系模块的输入仅由实体模块构建。该方法在DuIE1.0、DuIE2.0和CMeIE-V2数据集上的F_(1)值分别比基线方法提高了7.23、6.93和8.51百分点,并在DuIE1.0和DuIE2.0数据集上都实现了最先进的性能。消融实验表明,提出的级联类型机制和根据中文语言特征改进的管道模型,均对关系抽取性能具有明显的促进作用。 展开更多
关键词 中文关系抽取 管道模型 空洞卷积 实体级联类型
在线阅读 下载PDF
中文电子病历信息提取方法研究综述 被引量:4
16
作者 吉旭瑞 魏德健 +2 位作者 张俊忠 张帅 曹慧 《计算机工程与科学》 CSCD 北大核心 2024年第2期325-337,共13页
电子病历里承载的大量医疗信息能够帮助医生更好地了解患者的情况,辅助医生进行临床诊断。作为中文电子病历信息提取的2大核心任务,命名实体识别和实体关系抽取的目标是识别出电子病历文本中的医学实体并提取出各个实体间的医学关系。首... 电子病历里承载的大量医疗信息能够帮助医生更好地了解患者的情况,辅助医生进行临床诊断。作为中文电子病历信息提取的2大核心任务,命名实体识别和实体关系抽取的目标是识别出电子病历文本中的医学实体并提取出各个实体间的医学关系。首先,系统阐述了中文电子病历的研究现状,指出命名实体识别和实体关系抽取2大任务在中文电子病历信息提取中所发挥的重要作用。随后,介绍了面向中文电子病历信息提取的命名实体识别和关系抽取算法的最新研究成果,并分析了每个阶段各个模型的优缺点。最后,讨论了中文电子病历现阶段所存在的问题并对未来的研究趋势进行展望。 展开更多
关键词 中文电子病历 命名实体识别 实体关系抽取 自然语言处理 深度学习
在线阅读 下载PDF
结合全局对应矩阵和相对位置信息的古汉语实体关系联合抽取
17
作者 胡益裕 左家莉 +3 位作者 涂传龙 曾雪强 万中英 王明文 《中文信息学报》 CSCD 北大核心 2024年第11期35-45,共11页
目前,基于全局对应矩阵的联合抽取模型在英文领域和现代汉语领域的实体关系抽取任务上取得了SOTA(state-of-the-art)结果,然而在古汉语实体关系抽取任务上表现相对较差。这首先由于当前的古汉语实体关系数据集具有数据规模小、数据标注... 目前,基于全局对应矩阵的联合抽取模型在英文领域和现代汉语领域的实体关系抽取任务上取得了SOTA(state-of-the-art)结果,然而在古汉语实体关系抽取任务上表现相对较差。这首先由于当前的古汉语实体关系数据集具有数据规模小、数据标注稀疏的特点,模型无法从数据中学习到足量的信息;其次是因为该模型训练时缺少实体的跨度信息,使得模型容易生成长度异常的实体。针对上述问题,该文在研究了开源的《资治通鉴》语料后,人工构建了一个古汉语实体关系数据集,并设计了一种结合全局对应矩阵和相对位置信息的实体关系联合抽取方法。该方法在古汉语实体关系数据集上的精确率和F1值分别达到了81.0%和67.0%,相较于基线模型提升了6.8%和1.4%。同时,该文通过实验验证了上述融合相对位置信息的方法对于解决“容易生成长度异常实体”问题的有效性。 展开更多
关键词 古汉语数据集构建 实体关系联合抽取 全局对应矩阵 相对位置信息
在线阅读 下载PDF
基于Tri-training的社交媒体药物不良反应实体抽取
18
作者 何忠玻 严馨 +2 位作者 徐广义 张金鹏 邓忠莹 《计算机工程与应用》 CSCD 北大核心 2024年第3期177-186,共10页
社交媒体因其数据的实时性,对其充分利用可以弥补传统医疗文献药物不良反应中实体抽取的迟滞性问题,但社交媒体文本面临标注数据成本高、数据噪声大等问题,使得模型难以发挥良好的效果。针对社交媒体大量未标注语料存在标注成本高的问题... 社交媒体因其数据的实时性,对其充分利用可以弥补传统医疗文献药物不良反应中实体抽取的迟滞性问题,但社交媒体文本面临标注数据成本高、数据噪声大等问题,使得模型难以发挥良好的效果。针对社交媒体大量未标注语料存在标注成本高的问题,采用Tri-training半监督的方法进行社交媒体药物不良反应实体抽取,通过三个学习器Transformer+CRF、BiLSTM+CRF和IDCNN+CRF对未标注数据进行标注,再利用一致性评价函数迭代地扩展训练集,最后通过加权投票整合模型输出标签。针对社交媒体的文本不正式性(口语化严重、错别字等)问题,通过融合字与词两个粒度的向量作为整个模型嵌入层的输入,来提取更丰富的语义信息。实验结果表明,提出的模型在“好大夫在线”网站获取的数据集上取得了良好表现。 展开更多
关键词 中文社交媒体 药物不良反应 实体抽取 半监督学习 TRI-TRAINING
在线阅读 下载PDF
中文实体关系抽取中的特征选择研究 被引量:55
19
作者 董静 孙乐 +1 位作者 冯元勇 黄瑞红 《中文信息学报》 CSCD 北大核心 2007年第4期80-85,91,共7页
命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为:包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了... 命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为:包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF模型框架下,以ACE2007的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。 展开更多
关键词 计算机应用 中文信息处理 实体关系抽取 包含关系 非包含关系 特征选择 ACE评测
在线阅读 下载PDF
《同义词词林》在中文实体关系抽取中的作用 被引量:28
20
作者 刘丹丹 彭成 +1 位作者 钱龙华 周国栋 《中文信息学报》 CSCD 北大核心 2014年第2期91-99,共9页
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了... 语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。 展开更多
关键词 中文实体关系抽取 树核函数 同义词词林 语义信息
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部