期刊文献+
共找到117篇文章
< 1 2 6 >
每页显示 20 50 100
基于大语言模型的矿山事故知识图谱构建 被引量:2
1
作者 张朋杨 生龙 +2 位作者 王巍 魏忠诚 赵继军 《工矿自动化》 北大核心 2025年第2期76-83,105,共9页
现有矿山领域知识图谱构建方法在预训练阶段需要大量人工标注的高质量监督数据,人力成本高且效率低。大语言模型(LLM)可在少量人工标注的高质量数据下显著提高信息抽取的质量且效率较高,然而LLM结合Prompt的方法会产生灾难性遗忘问题。... 现有矿山领域知识图谱构建方法在预训练阶段需要大量人工标注的高质量监督数据,人力成本高且效率低。大语言模型(LLM)可在少量人工标注的高质量数据下显著提高信息抽取的质量且效率较高,然而LLM结合Prompt的方法会产生灾难性遗忘问题。针对上述问题,将图结构信息嵌入到Prompt模板中,提出了图结构Prompt,通过在LLM上嵌入图结构Prompt,实现基于LLM的矿山事故知识图谱高质量构建。首先,收集煤矿安全生产网公开的矿山事故报告并进行格式修正、冗余信息剔除等预处理。其次,利用LLM挖掘矿山事故报告文本中蕴含的知识,对矿山事故报告文本中的实体及实体间关系进行K−means聚类,完成矿山事故本体构建。然后,依据构建的本体进行少量数据标注,标注数据用于LLM的学习与微调。最后,采用嵌入图结构Prompt的LLM进行信息抽取,实例化实体关系三元组,从而构建矿山事故知识图谱。实验结果表明:在实体抽取和关系抽取任务中,LLM的表现优于通用信息抽取(UIE)模型,且嵌入图结构Prompt的LLM在精确率、召回率、F1值方面均高于未嵌入图结构Prompt的LLM。 展开更多
关键词 矿山事故 知识图谱 大语言模型 图结构Prompt 本体构建 信息抽取
在线阅读 下载PDF
基于关联邻接矩阵的关系抽取方法研究
2
作者 杨润 陈艳平 +1 位作者 闫家鑫 秦永彬 《计算机工程》 北大核心 2025年第10期121-129,共9页
图神经网络能够有效地聚合节点间的信息、编码句子的结构信息,因此被广泛应用于关系抽取任务。然而,目前基于图神经网络的关系抽取方法常需要借助外部解析工具构建依赖树,这一过程可能会产生误差,导致错误的信息传递。为了解决上述问题... 图神经网络能够有效地聚合节点间的信息、编码句子的结构信息,因此被广泛应用于关系抽取任务。然而,目前基于图神经网络的关系抽取方法常需要借助外部解析工具构建依赖树,这一过程可能会产生误差,导致错误的信息传递。为了解决上述问题,提出一种基于关联邻接矩阵的图卷积神经网络(GCN)模型用于关系抽取。首先,通过RoBERTa(Robustly optimized BERT approach)预训练语言模型(PLM)将每个词转换为向量表示,并通过点乘计算词向量之间的关联度。然后,基于词之间的关联度和相对实体位置特征构建关联邻接矩阵,并利用GCN提取句子的语义结构特征。最后,利用残差连接缓解模型训练过程中的梯度消失问题,并通过融合句子表示和实体表示得到最终的分类表示。该模型避免了使用外部解析工具可能引起的误差传播。实验结果表明,与现有基于图卷积的模型相比,其在TACRED(Temporal Action and Relation Corpus)和Re-TACRED数据集的关系抽取任务上精确率、召回率、F1值分别获得了68.8%、77.5%、72.8%和90.5%、91.3%、90.9%的良好性能,验证了该模型的有效性和可行性。 展开更多
关键词 关系抽取 位置信息 关联邻接矩阵 图神经网络 结构信息
在线阅读 下载PDF
语义信息提取和图结构挖掘的事件骨架生成方法
3
作者 黄凯 马廷淮 +3 位作者 孙圣杰 龚智恒 汤毅翔 陈思 《计算机工程与应用》 北大核心 2025年第12期187-195,共9页
事件骨架生成旨在从一系列的事件图中归纳出包含事件类型及其时序关系的事件骨架图。这是在时间复杂事件模式归纳任务中的一个核心步骤。尽管现有的方法在这项任务上已经取得了一定的效果,但是由于事件图的复杂性和多变性,这些方法在挖... 事件骨架生成旨在从一系列的事件图中归纳出包含事件类型及其时序关系的事件骨架图。这是在时间复杂事件模式归纳任务中的一个核心步骤。尽管现有的方法在这项任务上已经取得了一定的效果,但是由于事件图的复杂性和多变性,这些方法在挖掘事件图的结构信息和语义信息方面仍显不足。因此,为解决该问题,提出了一种事件骨架生成模型。在图编码阶段,模型使用了拉普拉斯位置编码,以精准捕捉和编码图结构的局部信息。同时,模型采用了多头注意力机制和图卷积网络,以提取语义信息和图结构信息,全面总结事件发展的全局结构信息,构建出更泛化、更全面的事件骨架图。实验证明,在事件骨架生成任务上,该模型在Event Match指标上提升了8.83%,Event Sequence Match指标上提升了11.2%(L=2)和7.6%(L=3),实现了较大的性能提升。 展开更多
关键词 事件模式归纳 事件骨架生成 图生成 语义信息提取 图结构挖掘
在线阅读 下载PDF
西藏地区传统民居建筑典型特征遥感提取方法
4
作者 陈善静 李震 +2 位作者 王正刚 刘宁波 何韵 《计算机工程与应用》 北大核心 2025年第3期349-358,共10页
传统的民居建筑典型特征提取主要是通过大量现地观察、测量和采样后,凭借个人经验进行提炼总结,抽象概括出有代表性民居建筑形状、颜色和样式等造型特征。该类方法容易受个人主观因素影响,工作量大,可复现性不强,稳定性、可靠性和科学... 传统的民居建筑典型特征提取主要是通过大量现地观察、测量和采样后,凭借个人经验进行提炼总结,抽象概括出有代表性民居建筑形状、颜色和样式等造型特征。该类方法容易受个人主观因素影响,工作量大,可复现性不强,稳定性、可靠性和科学性不高。针对以上问题,结合计算机视觉、统计分析和遥感成像等技术手段提出一种西藏地区高原民居建筑典型特征遥感提取方法。利用K-means无监督聚类对民居建筑形状特征进行提取,获取典型民居建筑长度、宽度和长宽比等典型形状特征指标;将RGB三色的民居建筑样本转换到Lab色彩空间,通过色差阈值分割与统计分析提取民居建筑典型颜色特征;引入样本多尺度结构相似度对建筑样式进行定量化表征,通过样本精选、结构特征模板提取和最大相似度匹配提取典型民居建筑样式。以西藏地区的桑耶镇和曲水镇作为实验区分别选择四种经典主流方法开展了两组对比验证实验。实验结果表明,该方法提取的建筑典型特征一致性较好,结果稳定、可靠,受人为因素影响较小。同时也发现,高原民居建筑长宽比约为1.1∶1,长度约24~29m,宽度略窄。民居建筑颜色主要为浅灰褐色,占比最大的前3~4种主色与当地的裸土颜色非常相似。典型民居建筑样式主要呈“回”字形结构,中间有庭院和四周为围墙。 展开更多
关键词 民居建筑 典型特征 信息提取 计算机视觉 多尺度结构相似度
在线阅读 下载PDF
改进的区域生长算法在三维激光点云识别岩体结构面中的应用 被引量:9
5
作者 徐志华 郭戈 +3 位作者 孙钱程 丰光亮 何钰铭 谢迪 《水文地质工程地质》 CAS CSCD 北大核心 2024年第2期101-112,共12页
交错分布的结构面构成了岩体中的薄弱部位,准确高效的岩体结构面识别和特征信息提取可为岩体稳定性评价提供重要依据。三维激光扫描技术可以极大地提高结构面勘测效率和精度,但目前主流的点云分析算法存在结构面边缘识别模糊、点云分割... 交错分布的结构面构成了岩体中的薄弱部位,准确高效的岩体结构面识别和特征信息提取可为岩体稳定性评价提供重要依据。三维激光扫描技术可以极大地提高结构面勘测效率和精度,但目前主流的点云分析算法存在结构面边缘识别模糊、点云分割准确性不能满足结构面特征信息提取精度等问题。因此,考虑岩体结构面点云位置与其邻域的空间关系,利用KD-tree数据结构进行最邻近搜索的体素下采样,在稳健随机Hough变换的基础上改进了区域生长算法,通过多特征值对区域生长分割参数进行修正,依据点云法向量差值和特征终值进行结构面分割,实现了结构面产状、间距、延展度信息的提取。研究结果表明:与传统的主成分分析法和随机抽样一致法相比,在室内块体模型组成的24个结构面中,该方法在相同区域具有更高的识别率和准确率,既能在复杂变化的平面区域保证数据的完整识别,也能在平面的尖锐位置较好地分割边缘点云。利用该方法可以将24个结构面分为6组,并在识别数据中获取对应的结构面特征信息,与实际测量结果相比,角度信息误差约为1°,距离信息误差1cm以内。利用该方法在长江干流蟒蛇寨斜坡岩体中成功识别出3组结构面同时计算各组结构面间距与延展度信息,并采用赤平投影图分析不同结构面组对斜坡稳定性的影响。所提出的方法在室内模型及现场斜坡验证效果良好,可以为岩体结构面识别分割提供稳定且有效的技术支撑。 展开更多
关键词 三维激光扫描 点云信息提取 区域生长算法 智能识别 岩体结构面
在线阅读 下载PDF
基于潜层关系增强的实体和关系联合抽取
6
作者 王鹏 刘小明 +2 位作者 杨关 刘杰 刘阳 《计算机工程与设计》 北大核心 2024年第6期1780-1788,共9页
为充分发掘文本序列中潜层语义关系信息,提出一种实体和关系联合抽取的潜层关系增强模型SREM(text subtext relationship enhancement model)。在潜层关系表示层利用结构化对齐的方式,获取并保持文本序列中的语义信息结构。在融合注意... 为充分发掘文本序列中潜层语义关系信息,提出一种实体和关系联合抽取的潜层关系增强模型SREM(text subtext relationship enhancement model)。在潜层关系表示层利用结构化对齐的方式,获取并保持文本序列中的语义信息结构。在融合注意力机制的关系网络层中对数据进行建模,提高模型对文本词汇间关系信息的捕获能力。结合注意力机制获取细粒度语义信息,对上下文信息进行选择过滤。实验结果表明,在数据集NYT和WebNLG上取得的F1值分别为92.40%和92.52%,验证了模型的有效性。 展开更多
关键词 联合抽取 语义关系 结构化知识 潜层表示 注意力机制 关系网路 信息过滤
在线阅读 下载PDF
基于依存结构的关系三元组抽取方法
7
作者 陈筱 黄琪 +2 位作者 罗文兵 罗凯威 王明文 《江西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期351-358,共8页
信息抽取是自然语言处理领域的关键任务,关系三元组抽取是信息抽取的核心子任务.在关系三元组抽取任务中,利用句子的依存结构信息可以加强对句子的全局理解,从而提升模型的抽取效果.该文提出了一种基于依存结构分析和图神经网络的抽取方... 信息抽取是自然语言处理领域的关键任务,关系三元组抽取是信息抽取的核心子任务.在关系三元组抽取任务中,利用句子的依存结构信息可以加强对句子的全局理解,从而提升模型的抽取效果.该文提出了一种基于依存结构分析和图神经网络的抽取方法.首先利用预训练模型得到文本向量语义表示;其次获取文本的依存结构信息并构建成图;接着利用图神经网络编码图的结构信息获取全局理解;最后通过特定的解码方式抽取出文本蕴含的关系三元组.实验结果表明:该抽取方法在NYT29、NYT24和WebNLG数据集上的精确率比已有的联合抽取模型精确率提升0.1%~0.6%,召回率提升0.2%~0.5%,F_(1)值提升0.1%~0.3%. 展开更多
关键词 信息抽取 关系三元组 依存结构分析 图神经网络
在线阅读 下载PDF
融入结构先验知识的隐私信息抽取算法
8
作者 赵玉媛 王斌 +2 位作者 张泽丹 李青山 胡建斌 《信息安全研究》 CSCD 北大核心 2024年第2期139-147,共9页
随着数据脱敏技术的持续进步,精确识别隐私数据已成为关键挑战.目前,隐私信息抽取算法主要基于传统自然语言处理技术,如双向循环神经网络和基于注意力机制的预训练语言模型(如BERT).这些模型利用其强大的上下文特征表示能力,克服了传统... 随着数据脱敏技术的持续进步,精确识别隐私数据已成为关键挑战.目前,隐私信息抽取算法主要基于传统自然语言处理技术,如双向循环神经网络和基于注意力机制的预训练语言模型(如BERT).这些模型利用其强大的上下文特征表示能力,克服了传统方法在多义词表示方面的限制.然而,它们在精确判断实体边界方面仍有改进空间.提出了一种新颖的隐私信息抽取算法,该算法融合结构先验知识,通过一种隐私数据结构知识增强机制,提高模型对句子语义结构的理解,从而提高了隐私信息边界判断的准确性.此外,还在多个公开数据集上对模型进行评估,详细的实验结果展示了其有效性. 展开更多
关键词 结构先验知识 结构增强机制 隐私信息抽取算法 实体边界判断 数据脱敏 自然语言处理
在线阅读 下载PDF
基于图神经网络的代码抄袭检测方法
9
作者 陈昌奉 赵宏州 周恺卿 《计算机工程与科学》 CSCD 北大核心 2024年第10期1815-1824,共10页
随着数据开源的不断深化,代码抄袭成本降低,严重影响软件行业的健康发展。因此,针对现有抄袭检测方法无法深度挖掘源代码语义和结构信息导致语义抄袭检测效果不佳的问题,提出一种基于图神经网络的代码抄袭检测方法。该方法利用图神经网... 随着数据开源的不断深化,代码抄袭成本降低,严重影响软件行业的健康发展。因此,针对现有抄袭检测方法无法深度挖掘源代码语义和结构信息导致语义抄袭检测效果不佳的问题,提出一种基于图神经网络的代码抄袭检测方法。该方法利用图神经网络对源代码包括语义和结构信息在内的特征进行有效表征,并利用图注意力网络进行特征强化,进一步利用神经张量网络得到不同源代码之间的相似向量。最后,利用全连接网络计算不同源代码之间的相似度。同时,加入dropout机制平衡神经元权重,优化模型设计,防止过拟合。为了验证所提方法的有效性,在OJ系统数据集上进行实验验证,并将此方法与当前流行的检测方法进行了对比。实验结果表明,所提方法具有更好的检测效果。 展开更多
关键词 代码抄袭检测 深度语义和结构信息提取 图神经网络 图注意力网络 特征强化
在线阅读 下载PDF
基于结构信息提取的图像质量评价 被引量:43
10
作者 叶盛楠 苏开娜 +1 位作者 肖创柏 段娟 《电子学报》 EI CAS CSCD 北大核心 2008年第5期856-861,共6页
结构相似性理论是一种关于图像质量评价的新思想.与自底向上地模拟人眼视觉系统(HVS)低阶的组成结构不同,结构相似性理论自顶向下地模拟HVS的整体功能.作为结构相似性理论的一个实现,结构相似度(SSIM)指数有着简单高效的优点,但SSIM在... 结构相似性理论是一种关于图像质量评价的新思想.与自底向上地模拟人眼视觉系统(HVS)低阶的组成结构不同,结构相似性理论自顶向下地模拟HVS的整体功能.作为结构相似性理论的一个实现,结构相似度(SSIM)指数有着简单高效的优点,但SSIM在交叉失真类型和失真严重时的准确性不够好.本文将结构信息重新解释为图像中能量足够大的中高频成分,从新的角度将SSIM理解为一种更好的局部误差度量方式.提出一种基于结构信息提取(SIExt)的图像质量评价方法,将图像中的结构信息分离出来给予较大的权重,并用SSIM作为误差度量估计局部失真.实验结果表明,SIExt比PSNR和SSIM等方法有更好的准确性. 展开更多
关键词 图像质量评价 结构相似度(SSIM) 结构信息提取(siext) 人眼视觉系统(HIVS)
在线阅读 下载PDF
桥梁结构动态应变监测信息的分离与提取 被引量:17
11
作者 吴佰建 李兆霞 +1 位作者 王滢 T.H.T.Chan 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第5期767-773,共7页
对工作应变传感器和温度应变传感器的数据进行了对比分析,利用能量谱比指标将监测系统输出的原始应变数据按照温度、应力和测量噪声3种类型在频域中进行分类,分别确定了温度变形与结构应变的分界频率.提出了一个多分辨递阶方法,可将3类... 对工作应变传感器和温度应变传感器的数据进行了对比分析,利用能量谱比指标将监测系统输出的原始应变数据按照温度、应力和测量噪声3种类型在频域中进行分类,分别确定了温度变形与结构应变的分界频率.提出了一个多分辨递阶方法,可将3类不同信息分离并提取出由结构应力导致的应变信息,在分离信息基础上考察了干扰部分和温度应力部分对疲劳评估的影响.研究结果表明,2个分界频率值对同类桥梁有较强的参考价值,提出的算法具有多分辨和递阶的特征,适合于海量应变数据的压缩与预处理,便于在结构健康监测系统软件中集成.虽然变温变形部分的能量很大,但其对疲劳评估产生的误差很小;而干扰信息虽然能量很小,但对疲劳评估产生的影响很大,其主要原因是干扰信息使得应力应变中提取的应变幅发生偏移. 展开更多
关键词 结构健康监测 结构应变 信息分离 信息提取 疲劳评估
在线阅读 下载PDF
基于Web的快速信息抽取 被引量:12
12
作者 张绍华 薛文玲 李天柱 《计算机应用》 CSCD 北大核心 2001年第7期18-19,31,共3页
介绍了一种基于Web的信息抽取的快速实现方法 ,该方法将信息抽取划分为两个阶段 ,在每个阶段采用不同的数据模型。
关键词 半结构数据 信息抽取 装配器 WEB 数据模型 信息处理
在线阅读 下载PDF
一种全自动生成网页信息抽取Wrapper的方法 被引量:21
13
作者 梅雪 程学旗 +2 位作者 郭岩 张刚 丁国栋 《中文信息学报》 CSCD 北大核心 2008年第1期22-29,共8页
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页... Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。 展开更多
关键词 计算机应用 中文信息处理 网页信息抽取 网页结构分离 包装器
在线阅读 下载PDF
基于多知识的Web网页信息抽取方法 被引量:10
14
作者 朱明 黄云 蔡庆生 《小型微型计算机系统》 CSCD 北大核心 2001年第9期1058-1061,共4页
从 Web网页中自动抽取所需要的信息内容 ,是互联网信息智能搜取的一个重要研究课题 .为有效解决网页信息抽取所需的信息描述知识获取问题 ,这里提出了一种基于多知识的 Web网页信息抽取方法 (简称 MKIE方法 ) .该方法将网页信息抽取所... 从 Web网页中自动抽取所需要的信息内容 ,是互联网信息智能搜取的一个重要研究课题 .为有效解决网页信息抽取所需的信息描述知识获取问题 ,这里提出了一种基于多知识的 Web网页信息抽取方法 (简称 MKIE方法 ) .该方法将网页信息抽取所需的知识分为二类 .一类是描绘网页内容本身表示特点 ,以及识别各网页信息对象的确定模式知识 ;另一类则描述网页信息记录块 ,以及各网页信息对象的非确定模式知识 .MKIE方法根据前一类知识 ,动态分析获得后一类知识 ;并利用这两类知识 ,最终完成从信息内容类似但其表现形式各异的网页中 ,抽取出所需要的信息 .美大学教员论文网页信息抽取实验结果表明 。 展开更多
关键词 WEB 网页 信息抽取 知识 互联网
在线阅读 下载PDF
Web信息抽取 被引量:17
15
作者 李晶 陈恩红 《计算机科学》 CSCD 北大核心 2003年第6期78-81,共4页
With the tremendous amount of information available on the Web, the ability to quickly obtain information has become a crucial problem. It is not enough for us to acquire information only with Web information retrieva... With the tremendous amount of information available on the Web, the ability to quickly obtain information has become a crucial problem. It is not enough for us to acquire information only with Web information retrieval technology. Therefore more and more people pay attention to Web information extraction technology. This paper first in- troduces some concepts of information extraction technology, then introduces and analyzes several typical Web information extraction methods based on the differences in extraction patterns. 展开更多
关键词 WEB 信息抽取 信息搜索 互联网 信息资源 搜索引擎
在线阅读 下载PDF
遥感线性构造分形统计和蚀变信息提取在桂东地区金铅锌锡多金属成矿预测中的应用 被引量:31
16
作者 赵少杰 钱建平 陈宏毅 《大地构造与成矿学》 EI CAS CSCD 北大核心 2011年第3期364-371,共8页
在桂东地区ETM+遥感影像742波段融合的基础上,进行了线性构造和环形构造解译,运用分形几何学的原理和方法对研究区的遥感线性构造进行定量分析,利用计盒维数法求得研究区的线性构造分维值,得出该区线性构造具有良好的统计自相似性和分... 在桂东地区ETM+遥感影像742波段融合的基础上,进行了线性构造和环形构造解译,运用分形几何学的原理和方法对研究区的遥感线性构造进行定量分析,利用计盒维数法求得研究区的线性构造分维值,得出该区线性构造具有良好的统计自相似性和分形特征,利用Surfer软件求得线性构造分维等值线图,采用主成分分析和比值法组合提取遥感蚀变异常信息。结果表明,本区环形构造、线性构造集中区、铁染羟基异常和地球化学异常区在空间上基本重合,且呈NE、NW向点阵式分布。线性构造分维值(D)介于1.4到1.85的强构造活动带为成矿优势区域。综合分析线性构造分维等值线、遥感蚀变信息异常、区域地质和地球化学等信息、已知矿床(点)信息,确定了三级成矿远景区。其中Ⅰ级远景区3个,Ⅱ级远景区2个,Ⅲ级远景区3个。 展开更多
关键词 遥感影像 线性构造 环形构造 分维 蚀变信息提取 成矿预测
在线阅读 下载PDF
基于标记树对象抽取技术的Hidden Web获取研究 被引量:9
17
作者 宋晖 张岭 +1 位作者 叶允明 马范援 《计算机工程与应用》 CSCD 北大核心 2002年第23期9-12,24,共5页
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该... 目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。 展开更多
关键词 标记树 对象抽取 HiddenWeb 互联网 搜索引擎 信息检索 结构化查询 数据库
在线阅读 下载PDF
基于网页结构树的Web信息抽取方法 被引量:24
18
作者 陈琼 苏文健 《计算机工程》 EI CAS CSCD 北大核心 2005年第20期54-55,140,共3页
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构... 提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。 展开更多
关键词 信息抽取 半结构 网页结构树 模式
在线阅读 下载PDF
基于扩展DOM树的Web页面信息抽取 被引量:12
19
作者 王磊 蒋建中 郭军利 《计算机应用与软件》 CSCD 北大核心 2007年第6期137-139,共3页
随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document O... 随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document ObjectModel)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取。该算法能对多信息块的Web页面进行信息抽取。 展开更多
关键词 DOM树 信息抽取 包装器 半结构化
在线阅读 下载PDF
基于XML的Web数据半自动采集 被引量:4
20
作者 蒋宏潮 王大亮 +1 位作者 班晓娟 阮进喜 《计算机工程》 CAS CSCD 北大核心 2009年第21期51-53,共3页
如何在信息量巨大的互联网上准确获取并长期跟踪用户关注的内容,是数据采集和挖掘的重要方面。探讨Web数据采集理论及其应用技术,给出一个半自动采集模型,设计基于旅游业数据的采集系统,验证数据半自动采集的可行性。
关键词 数据采集 信息采集 半结构化数据
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部