期刊文献+
共找到671篇文章
< 1 2 34 >
每页显示 20 50 100
基于大语言模型的参考文献自动识别与著录信息抽取
1
作者 陈和 《情报杂志》 北大核心 2025年第7期192-198,共7页
[研究目的]利用大语言模型从参考文献文本数据中自动逐条识别出参考文献,并对识别出的参考文献的著录信息进行自动抽取,为文本识别相关工作提供新的思路和方法。[研究方法]通过Python编程和案例研究法,设计并优化Prompt模板,调用百度千... [研究目的]利用大语言模型从参考文献文本数据中自动逐条识别出参考文献,并对识别出的参考文献的著录信息进行自动抽取,为文本识别相关工作提供新的思路和方法。[研究方法]通过Python编程和案例研究法,设计并优化Prompt模板,调用百度千帆ERNIE-Speed大语言模型的服务API接口进行问答交互,实现从参考文献文本数据中自动逐条识别出参考文献,并进一步自动抽取每条参考文献中的作者、题名、出版物名称、出版年份等著录信息。[研究结果/结论]相较于传统文本识别方法,利用大语言模型自动识别参考文献并抽取著录信息,具有使用门槛低、对目标文本数据要求宽松、文本识别准确率高、抽取效率高等优点。同时,大语言模型也存在输入与输出内容长度受限制、“幻觉”和“礼貌性”行为增加数据处理复杂度的局限性。 展开更多
关键词 大语言模型 文本挖掘 文本识别 信息抽取 参考文献 著录规则
在线阅读 下载PDF
多模态信息抽取研究综述 被引量:3
2
作者 王永胜 李培峰 +1 位作者 王中卿 朱巧明 《软件学报》 北大核心 2025年第4期1665-1691,共27页
多模态信息抽取任务是指从非结构化或半结构化的多模态数据(包含文本和图像等)中提取结构化知识.其研究内容主要包含多模态命名实体识别、多模态实体关系抽取和多模态事件抽取.首先对多模态信息抽取任务进行分析,然后对多模态命名实体... 多模态信息抽取任务是指从非结构化或半结构化的多模态数据(包含文本和图像等)中提取结构化知识.其研究内容主要包含多模态命名实体识别、多模态实体关系抽取和多模态事件抽取.首先对多模态信息抽取任务进行分析,然后对多模态命名实体识别、多模态实体关系抽取和多模态事件抽取这3个子任务的共同部分,即多模态表示和融合模块进行归纳和总结.随后梳理上述3个子任务的常用数据集和主流研究方法.最后总结多模态信息抽取的研究趋势并分析该研究存在的问题和挑战,为后续相关研究提供参考. 展开更多
关键词 多模态信息抽取 多模态命名实体识别 多模态实体关系抽取
在线阅读 下载PDF
基于知识提示微调的标书信息抽取方法
3
作者 孙熠衡 刘茂福 《计算机应用》 北大核心 2025年第4期1169-1176,共8页
当前信息抽取任务主要依赖大语言模型(LLM),而标书信息中广泛存在领域术语,模型缺乏相关先验知识,导致微调效率低且抽取性能不佳。此外,模型的抽取和泛化性能在很大程度上依赖于提示信息的质量和提示模板的构建方式。针对上述问题,提出... 当前信息抽取任务主要依赖大语言模型(LLM),而标书信息中广泛存在领域术语,模型缺乏相关先验知识,导致微调效率低且抽取性能不佳。此外,模型的抽取和泛化性能在很大程度上依赖于提示信息的质量和提示模板的构建方式。针对上述问题,提出一种基于提示学习的标书信息抽取方法(TIEPL)。首先,利用生成式信息抽取的提示学习方法对LLM注入领域知识,以实现预训练和微调阶段的统一优化;其次,以LoRA(Low-Rank Adaption)微调方法为框架,单独设计提示训练旁路,并设计标书场景关键词提示模板,从而增强模型信息抽取与提示的双向关联。在自建的招中标数据集上的实验结果表明,相较于次优的UIE(Universal Information Extraction)方法,TIEPL的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation)和BLEU-4(BiLingual Evaluation Understudy)分别提高1.05和4.71个百分点,能更准确和完整地生成抽取结果,验证了所提方法在提高标书信息抽取准确性和泛化性方面的有效性。 展开更多
关键词 生成式信息抽取 大语言模型 提示学习 LoRA微调 标书
在线阅读 下载PDF
一种基于并行多尺度特征学习的招聘信息抽取模型
4
作者 郭雯靓 吕楠 +3 位作者 纪淑娟 步朝晖 王永政 曹宁 《山东科技大学学报(自然科学版)》 北大核心 2025年第3期97-106,共10页
随着网络招聘的普及,基于招聘广告的自动实体抽取,已成为职位和人才推荐等下游智能应用系统开发的重要基础。现有招聘广告实体抽取模型存在抽取内容分类覆盖不全面和超长文本序列语义稀释问题。本研究将招聘文本中的实体划分为四类,提... 随着网络招聘的普及,基于招聘广告的自动实体抽取,已成为职位和人才推荐等下游智能应用系统开发的重要基础。现有招聘广告实体抽取模型存在抽取内容分类覆盖不全面和超长文本序列语义稀释问题。本研究将招聘文本中的实体划分为四类,提出一种基于并行多尺度特征学习的招聘信息抽取模型(MUBLC)。首先,模型利用长短时记忆网络(LSTM)从原始数据中提取初始特征。然后,使用自注意力机制学习全局特征,采用动态深度卷积网络与自注意力共享投影的方式并行学习局部特征,同时在自注意力机制的每一层并行连接前馈神经网络,并行学习文本的逐点特征。最后,模型将并行学习得到的三种尺度特征进行向量融合,并输入条件随机场(CRF)获得预测的标签序列。实验结果表明,与现有最优模型相比,本研究所提模型的F 1值提高了2.53%,表明并行学习三种特征能够有效缓解长序列语义稀释问题,显著提升招聘信息抽取性能。 展开更多
关键词 网络招聘广告 招聘信息抽取 并行多尺度特征学习 动态深度卷积网络 命名实体识别
在线阅读 下载PDF
多模态预训练模型在金融票据信息抽取中的应用
5
作者 颜政锦 叶正 葛君 《计算机工程与应用》 北大核心 2025年第9期186-193,共8页
金融领域的票据信息抽取是一项复杂且具有挑战的任务,其目标是从金融文档中准确抽取票据所包含的关键信息。金融票据作为商业活动中重要的信息载体,其准确提取对于商业决策和财务分析具有重要意义。然而,由于票据格式的不规范性,在实际... 金融领域的票据信息抽取是一项复杂且具有挑战的任务,其目标是从金融文档中准确抽取票据所包含的关键信息。金融票据作为商业活动中重要的信息载体,其准确提取对于商业决策和财务分析具有重要意义。然而,由于票据格式的不规范性,在实际应用中可能导致关键信息的丢失,如数据中键值对不完整或缺失等问题,给金融票据信息抽取任务带来了挑战。当前,LayoutLMV3模型是主流的信息抽取的方法之一,它结合了自然语言处理和多模态技术,能够在大规模金融文档中进行信息抽取。但它在处理复杂布局的文档时准确性会下降,处理长文本时因包含大量的字符可能难以捕捉其中重要的信息。为了解决上述挑战和问题,以LayoutLMV3为基线模型,引入了P-Tuning V1技术,不仅能够解决特定问题(如金融票据中的键值关系),还具备适应不同情境和任务的能力,而且可以利用多模态的文本、图像和布局信息来更全面地理解票据内容。P-Tuning V1通过引入可训练的连续提示嵌入,即“prompt”,作为模型输入的一部分,用以表示文本数据中的“键”信息。同时,采用离散提示作为“值”的一部分,两者相结合构成完整的键值对。实验结果表明,相较于基于LayoutLMV3的方法,结合的新方法在Finance-Receipts数据集上取得了显著的提升,在F1得分上从95.95%提高到96.69%。 展开更多
关键词 信息抽取 多模态 预训练 LayoutLMv3 P-Tuning V1
在线阅读 下载PDF
基于提示学习的ERNIE-BiLSTM-PN通用信息抽取方法研究
6
作者 刘万里 雍新有 +3 位作者 曹开臣 陈俞舟 刘禄波 蔡世民 《电子科技大学学报》 北大核心 2025年第3期411-423,共13页
随着大数据时代的到来,信息抽取已成为自然语言处理领域的重要研究方向。信息抽取涉及多项任务,包括命名实体识别、关系抽取和事件抽取等,每项任务通常需要依靠专用模型来应对其特定的挑战。该文提出一种基于提示学习的ERNIE-BiLSTM-PN... 随着大数据时代的到来,信息抽取已成为自然语言处理领域的重要研究方向。信息抽取涉及多项任务,包括命名实体识别、关系抽取和事件抽取等,每项任务通常需要依靠专用模型来应对其特定的挑战。该文提出一种基于提示学习的ERNIE-BiLSTM-PN通用信息抽取方法(EBP-UIE),结合预训练语言模型(ERNIE)、双向长短期记忆网络(BiLSTM)和指针网络(PN),旨在通过一个统一的框架解决信息抽取任务的复杂性,并实现跨任务知识的共享。ERNIE优化了对文本的深层理解和上下文分析,BiLSTM的应用加强了对序列特征的捕捉及长距离依赖关系的解析,PN则提高了对文本中信息元素起止位置的精确标定,提示学习机制灵活实现多个信息抽取任务的统一建模。实验结果显示:在命名实体识别任务,EBP-UIE在MSRA和PeopleDaily数据集上的F1分数比UIE模型分别高出7.12%和0.53%;在关系抽取任务,EBP-UIE在DuIE数据集上的F1分数超过UIE模型6.84%;对于事件抽取任务,EBP-UIE在DuEE数据集上的触发词和论元抽取F1分数分别比UIE模型高出4.49%和0.95%。 展开更多
关键词 通用信息抽取 深度学习 指针网络 提示学习
在线阅读 下载PDF
基于双仿射注意力的迭代式开放域信息抽取
7
作者 李欣 邵靖淇 +2 位作者 王昊 何丽 段建勇 《计算机应用研究》 CSCD 北大核心 2024年第7期2046-2051,共6页
当前的开放域信息抽取(OpenIE)方法无法同时兼顾抽取结果的紧凑性和模型的性能,导致其抽取结果不能更好地被应用到下游任务中。为此,提出一个基于双仿射注意力进行表格填充及迭代抽取的模型。首先,该模型通过双仿射注意力学习单词之间... 当前的开放域信息抽取(OpenIE)方法无法同时兼顾抽取结果的紧凑性和模型的性能,导致其抽取结果不能更好地被应用到下游任务中。为此,提出一个基于双仿射注意力进行表格填充及迭代抽取的模型。首先,该模型通过双仿射注意力学习单词之间的方向信息、捕获单词对之间的相互作用,随后对二维表格进行填充,使句子中的成分相互共享并识别紧凑成分;其次,使用多头注意力机制将谓词和参数的表示应用于上下文的嵌入中,使谓词和参数的提取相互依赖,更好地链接关系成分和参数成分;最后,对于含有多个关系成分的句子,使用迭代抽取的方式在无须重新编码的情况下捕获每次提取之间固有的依赖关系。在公开数据集CaRB和Wire57上的实验表明,该方法比基线方法实现了更高的精度和召回率,F_(1)值提升了至少1.4%和3.2%,同时产生了更短、语义更丰富的提取。 展开更多
关键词 开放域信息抽取 双仿射注意力 紧凑性 多头注意力 迭代抽取
在线阅读 下载PDF
基于大型语言模型指令微调的心理健康领域联合信息抽取 被引量:7
8
作者 蔡子杰 方荟 +2 位作者 刘建华 徐戈 龙云飞 《中文信息学报》 CSCD 北大核心 2024年第8期112-127,共16页
信息抽取目的在于从文本中提取关键的信息。心理健康领域的信息抽取能力反映了语言模型对人类心理健康相关信息的自然语言理解能力。提高语言模型的领域信息抽取能力,还能为AI心理健康服务提供重要的知识来源。但目前心理健康信息抽取... 信息抽取目的在于从文本中提取关键的信息。心理健康领域的信息抽取能力反映了语言模型对人类心理健康相关信息的自然语言理解能力。提高语言模型的领域信息抽取能力,还能为AI心理健康服务提供重要的知识来源。但目前心理健康信息抽取的中文指令数据集十分匮乏,这限制了相关研究和应用的发展。针对以上问题,该文在心理学专家的指导下提示ChatGPT生成样本实例,并通过设计生成指令以及数据增强,构建了5641条包含命名实体识别、关系抽取和事件抽取三项基本抽取任务的心理健康领域联合信息抽取指令数据集,旨在填补心理健康领域信息抽取中文指令数据集的不足。随后使用该指令数据集对大型语言模型进行参数高效微调。与基线模型的性能对比以及人工评估的实验结果表明,大型语言模型经过有效的指令微调后可以完成心理健康领域信息抽取的联合任务。 展开更多
关键词 信息抽取 心理健康 大型语言模型 指令微调
在线阅读 下载PDF
基于Transformer交互指导的医患对话联合信息抽取方法 被引量:1
9
作者 林致中 王华珍 《计算机应用研究》 CSCD 北大核心 2024年第8期2315-2321,共7页
针对电子病历构建过程中难以捕捉信息抽取任务之间的关联性和医患对话上下文信息的问题,提出了一种基于Transformer交互指导的联合信息抽取方法,称为CT-JIE(collaborative Transformer for joint information extraction)。首先,该方法... 针对电子病历构建过程中难以捕捉信息抽取任务之间的关联性和医患对话上下文信息的问题,提出了一种基于Transformer交互指导的联合信息抽取方法,称为CT-JIE(collaborative Transformer for joint information extraction)。首先,该方法使用滑动窗口并结合Bi-LSTM获取对话中的历史信息,利用标签感知模块捕捉对话语境中与任务标签相关的信息;其次,通过全局注意力模块提高了模型对于症状实体及其状态的上下文感知能力;最后,通过交互指导模块显式地建模了意图识别、槽位填充与状态识别三个任务之间的交互关系,以捕捉多任务之间的复杂语境和关系。实验表明,该方法在IMCS21和CMDD两个数据集上的性能均优于其他基线模型和消融模型,在处理联合信息抽取任务时具有较强的泛化能力和性能优势。 展开更多
关键词 联合信息抽取 医患对话 电子病历 多任务学习
在线阅读 下载PDF
面向开源情报的信息抽取大语言模型 被引量:4
10
作者 赵勤博 王又辰 +3 位作者 陈荣 宋颖毅 栾真 田夫兰 《计算机工程与设计》 北大核心 2024年第12期3772-3778,共7页
针对开源情报信息抽取过程依赖多类专用模型和抽取属性限制强等问题,基于一种GLM大语言模型进行指令微调和上下文学习提高信息抽取准确率,利用指令自动化生成方法对原始问题进行泛化,构建SFT数据集。开展多任务统一的微调学习常见抽取模... 针对开源情报信息抽取过程依赖多类专用模型和抽取属性限制强等问题,基于一种GLM大语言模型进行指令微调和上下文学习提高信息抽取准确率,利用指令自动化生成方法对原始问题进行泛化,构建SFT数据集。开展多任务统一的微调学习常见抽取模式,通过自动思维链扩充提示增强模型推理能力。实验结果表明,该方法在开源情报命名实体识别、关系抽取和事件抽取任务上,微调模型能满足不同场景下的抽取要求,具有较好的抽取效果。 展开更多
关键词 开源情报 大语言模型 信息抽取 指令自动化生成 指令微调 上下文学习 自动思维链
在线阅读 下载PDF
面向合同信息抽取的动态多任务学习方法 被引量:1
11
作者 王浩畅 郑冠彧 赵铁军 《软件学报》 EI CSCD 北大核心 2024年第7期3377-3391,共15页
对于合同文本中要素和条款两类信息的准确提取,可以有效提升合同的审查效率,为贸易各方提供便利化服务.然而当前的合同信息抽取方法一般训练单任务模型对要素和条款分别进行抽取,并没有深挖合同文本的特征,忽略了不同任务间的关联性.因... 对于合同文本中要素和条款两类信息的准确提取,可以有效提升合同的审查效率,为贸易各方提供便利化服务.然而当前的合同信息抽取方法一般训练单任务模型对要素和条款分别进行抽取,并没有深挖合同文本的特征,忽略了不同任务间的关联性.因此,采用深度神经网络结构对要素抽取和条款抽取两个任务间的相关性进行研究,并提出多任务学习方法.所提方法首先将上述两种任务进行融合,构建一种应用于合同信息抽取的基本多任务学习模型;然后对其进行优化,利用Attention机制进一步挖掘其相关性,形成基于Attention机制的动态多任务学习模型;最后针对篇章级合同文本中复杂的语义环境,在前两者的基础上提出一种融合词汇知识的动态多任务学习模型.实验结果表明,所提方法可以充分捕捉任务间的共享特征,不仅取得了比单任务模型更好的信息抽取结果,而且能够有效解决合同文本中要素与条款间实体嵌套的问题,实现合同要素与条款的信息联合抽取.此外,为了验证该方法的鲁棒性,在多个领域的公开数据集上进行实验,结果表明该方法的效果均优于基线方法. 展开更多
关键词 多任务学习 合同文本 信息联合抽取 注意力机制 实体嵌套
在线阅读 下载PDF
融入结构先验知识的隐私信息抽取算法
12
作者 赵玉媛 王斌 +2 位作者 张泽丹 李青山 胡建斌 《信息安全研究》 CSCD 北大核心 2024年第2期139-147,共9页
随着数据脱敏技术的持续进步,精确识别隐私数据已成为关键挑战.目前,隐私信息抽取算法主要基于传统自然语言处理技术,如双向循环神经网络和基于注意力机制的预训练语言模型(如BERT).这些模型利用其强大的上下文特征表示能力,克服了传统... 随着数据脱敏技术的持续进步,精确识别隐私数据已成为关键挑战.目前,隐私信息抽取算法主要基于传统自然语言处理技术,如双向循环神经网络和基于注意力机制的预训练语言模型(如BERT).这些模型利用其强大的上下文特征表示能力,克服了传统方法在多义词表示方面的限制.然而,它们在精确判断实体边界方面仍有改进空间.提出了一种新颖的隐私信息抽取算法,该算法融合结构先验知识,通过一种隐私数据结构知识增强机制,提高模型对句子语义结构的理解,从而提高了隐私信息边界判断的准确性.此外,还在多个公开数据集上对模型进行评估,详细的实验结果展示了其有效性. 展开更多
关键词 结构先验知识 结构增强机制 隐私信息抽取算法 实体边界判断 数据脱敏 自然语言处理
在线阅读 下载PDF
一种针对对话文本属性级情感信息抽取的词对关系建模方法
13
作者 曾涛 王晶晶 +1 位作者 张涵 刘一丁 《计算机工程与科学》 CSCD 北大核心 2024年第12期2239-2251,共13页
属性级情感分析旨在获取文本中包含的细粒度情感信息,因其应用广泛而备受关注。然而传统的属性级情感分析研究大多基于非交互场景下的普通评价文本,针对对话文本的交互式场景下属性级情感分析的研究工作则非常稀缺。基于此现状,提出了... 属性级情感分析旨在获取文本中包含的细粒度情感信息,因其应用广泛而备受关注。然而传统的属性级情感分析研究大多基于非交互场景下的普通评价文本,针对对话文本的交互式场景下属性级情感分析的研究工作则非常稀缺。基于此现状,提出了针对对话文本交互式场景下的属性级情感信息联合抽取任务,获取由目标属性、意见表达以及意见对应的情感极性构成的完整的细粒度情感信息三元组,旨在通过一个任务获取交互式对话中最后一条发言包含的完整细粒度情感信息。针对该任务设计了一种端到端的基于词对关系建模的抽取方法,对词对间关系进行建模后将对话文本映射成一个有向图,将解码过程转换为在有向图中寻找特定环结构的过程。为了提升词对关系建模的准确率,设计了一种新颖的模型结构,在构建词对关系表征时融合词对相对距离信息与对话轮次信息,并通过多粒度二维卷积加强词对间的信息交互。此外,设计了一种动态损失权重方法,有效缓解了对话文本中词对关系类别分布不平衡问题。实验结果显示,本文方法与选用的强基线方法对比,F 1分数平均提升了7.70%,最高提升了15.05%。 展开更多
关键词 属性级情感分析 细粒度情感信息抽取 对话文本 词对关系建模
在线阅读 下载PDF
信息抽取技术的发展现状及构建方法的研究 被引量:41
14
作者 刘迁 焦慧 贾惠波 《计算机应用研究》 CSCD 北大核心 2007年第7期6-9,共4页
介绍了信息抽取(IE)技术的基本概念、信息抽取系统的抽取过程。对现有的信息抽取系统构建方法进行了分类和介绍,并对这些方法进行了讨论和比较,同时指出了构建中文信息抽取系统所需要解决的关键的基础问题。
关键词 自然语言处理 信息抽取 构建信息抽取系统方法
在线阅读 下载PDF
基于规则的人物信息抽取算法的研究 被引量:10
15
作者 乔磊 李存华 +2 位作者 仲兆满 王俊 刘冬冬 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2012年第4期134-139,共6页
随着互联网的快速发展,信息也呈爆炸式增长,如何从海量的文本信息中获取所需的信息成为当今一门重要的课题.检索、分类、抽取等文本信息处理技术取得了长足发展,但面向人物属性的自动信息提取却没有引起人们的重视.基于规则的人物信息... 随着互联网的快速发展,信息也呈爆炸式增长,如何从海量的文本信息中获取所需的信息成为当今一门重要的课题.检索、分类、抽取等文本信息处理技术取得了长足发展,但面向人物属性的自动信息提取却没有引起人们的重视.基于规则的人物信息抽取算法,首先对需要抽取的信息进行规则描述,重点是时间、地点、籍贯等信息.在规则的基础上,研究开发人物信息抽取系统,最终实现了半结构化人物属性信息的自动提取. 展开更多
关键词 文本信息抽取 人物信息抽取 人物属性规则 抽取算法
在线阅读 下载PDF
信息抽取模式自动生成方法的研究 被引量:22
16
作者 郑家恒 王兴义 李飞 《中文信息学报》 CSCD 北大核心 2004年第1期48-54,共7页
模式匹配是信息抽取系统通常使用的方法 ,如何生成信息抽取模式就成为信息抽取的关键问题。由于手工编写模式的代价太大 ,本文尝试采用聚类方法自动生成针对中文文本的信息抽取模式。通过计算模式实例间的相似度 ,采用单链法聚类 ,将模... 模式匹配是信息抽取系统通常使用的方法 ,如何生成信息抽取模式就成为信息抽取的关键问题。由于手工编写模式的代价太大 ,本文尝试采用聚类方法自动生成针对中文文本的信息抽取模式。通过计算模式实例间的相似度 ,采用单链法聚类 ,将模式实例划分为不同的类别 ,每个类别对应一个模式 ,将同一类别中的模式实例进行合并就可以得到最终的信息抽取模式。以农作物信息文本为实验语料 ,进行了聚类测试 ,错分率与漏分率分别为 0 2 1%和 1 0 7% ,合并后的模式覆盖了人工分析提出的 2 5类中的 2 展开更多
关键词 人工智能 自然语言处理 信息抽取 模式匹配 信息抽取模式
在线阅读 下载PDF
多语种投资信息抽取系统的实现 被引量:3
17
作者 李芳 盛焕烨 张冬茉 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第1期21-25,共5页
多语种投资信息抽取实验系统可以用中文、英文和德文的关键字或限定的自然语言问句查询语料库中的中文投资信息.它由语言处理模块、查询处理模块、信息抽取核心和动态交互获取模块组成.其主要特点:基于语种无关的模板和与语种有关的模式... 多语种投资信息抽取实验系统可以用中文、英文和德文的关键字或限定的自然语言问句查询语料库中的中文投资信息.它由语言处理模块、查询处理模块、信息抽取核心和动态交互获取模块组成.其主要特点:基于语种无关的模板和与语种有关的模式,实现不同语种信息抽取处理的一致性;事先定义的抽取模板结合动态获取的模板,来弥补信息抽取技术依赖于固定模板的缺陷,增加系统的健壮性.系统抽取的各个槽的平均精度为86.27%.动态获取模板的精度为85.27%,如果人工对约5个例句修改,动态交互获取模板的精度可达88.55%,提高了3%左右. 展开更多
关键词 模板生成 信息抽取 多语种信息抽取 INTERNET应用
在线阅读 下载PDF
健康领域Web信息抽取 被引量:6
18
作者 李汝君 张俊 +1 位作者 张晓民 桂小庆 《计算机应用》 CSCD 北大核心 2016年第1期163-170,共8页
针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于Web Harvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于Web Harvest的自动抽取健康实体及其属性的算法;再把抽取的实体... 针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于Web Harvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于Web Harvest的自动抽取健康实体及其属性的算法;再把抽取的实体及其属性进行一致性检查后存入关系数据库中,然后对关系数据库中隐含健康实体的属性值利用Ansj自然语言处理方法进行实体识别,进而抽取健康实体之间的联系。该技术在健康实体抽取实验中,平均F值达到99.9%,在实体联系抽取实验中,平均F值达到80.51%。实验结果表明提出的Web信息抽取技术在健康领域抽取的健康信息具有较高的质量和可信性。 展开更多
关键词 信息抽取 健康信息抽取 一致性检查 实体识别 实体联系抽取
在线阅读 下载PDF
基于最大熵的隐马尔可夫模型文本信息抽取 被引量:48
19
作者 林亚平 刘云中 +2 位作者 周顺先 陈治平 蔡立军 《电子学报》 EI CAS CSCD 北大核心 2005年第2期236-240,共5页
文本信息抽取是处理海量文本的重要手段之一 .最大熵模型提供了一种自然语言处理的方法 .提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法 .该算法结合最大熵模型在处理规则知识上的优势 ,以及隐马尔可夫模型在序列处理和统计学... 文本信息抽取是处理海量文本的重要手段之一 .最大熵模型提供了一种自然语言处理的方法 .提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法 .该算法结合最大熵模型在处理规则知识上的优势 ,以及隐马尔可夫模型在序列处理和统计学习上的技术基础 ,将每个观察文本单元所有特征的加权之和用来调整隐马尔可夫模型中的转移概率参数 ,实现文本信息抽取 .实验结果表明 ,新的算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能 . 展开更多
关键词 人工智能 文本信息抽取 隐马尔可夫模型 最大熵
在线阅读 下载PDF
基于样本实例的Web信息抽取 被引量:19
20
作者 张绍华 徐林昊 +2 位作者 杨文柱 薛文玲 李天柱 《河北大学学报(自然科学版)》 CAS 2001年第4期431-437,共7页
主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识... 主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识库对其他同类页面自动抽取所需的信息 ,存入数据库中 .本方法可用于Web查询 ,也可用于信息集成的包装器 . 展开更多
关键词 HTML 模式 抽取 信息抽取 WEB查询 INTERNET INTRANET
在线阅读 下载PDF
上一页 1 2 34 下一页 到第
使用帮助 返回顶部