期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
基于移动LiDAR和TLS的单木地上生物量估算对比研究
1
作者 张怡颖 高洋 +4 位作者 莘晓玥 吕佳 张天慧 卢慧翠 杨金明 《山东林业科技》 2025年第3期41-50,63,共11页
为比较移动激光雷达(Light Detection And Ranging,LiDAR)与地基激光雷达(Terrestrial Laser scanning,TLS)结合定量结构模型(TreeQSM)进行地上生物量估算的差异,本研究以青岛农业大学城阳校区内26棵乔木为研究对象,分别使用TLS设备Trim... 为比较移动激光雷达(Light Detection And Ranging,LiDAR)与地基激光雷达(Terrestrial Laser scanning,TLS)结合定量结构模型(TreeQSM)进行地上生物量估算的差异,本研究以青岛农业大学城阳校区内26棵乔木为研究对象,分别使用TLS设备Trimble X7及移动LiDAR设备LiGrip H120和欧思徕R8+对树木进行点云数据采集,通过去噪、地面点分类、根据地面点归一化和单木分割等预处理,利用优化的定量结构模型(Quantitative Structure Models,QSMs)构建单木枝干的三维几何模型,并提取树木胸径(DBH)和树高。结合树种的木材基本密度,将单木体积转化为地上生物量。结果显示:(1)移动LiDAR和TLS点云在TreeQSM建模的最优参数上差异不显著;(2)利用TreeQSM从TLS、LiGrip和R8+点云提取的DBH与实测值相比,线性拟合的R2分别为0.945、0.926和0.942,RMSE分别为2.1 cm(5.9%)、4.4 cm(12.4%)和2.7 cm(7.6%),树高与无人机LiDAR提取结果相比,线性拟合的R2分别为0.878、0.871和0.822,RMSE分别为1 m(4.6%)、1.2 m(5.6%)和1 m(4.6%);(3)利用LiGrip和R8+估算的单木地上生物量与TLS相比,线性拟合的R2分别为0.913和0.955,RMSE分别为0.836 t(53.9%)和0.503 t(32.5%),一致性相关系数(Concordance Correlation Coefficient,CCC)分别为0.739和0.88。树干生物量的偏差小于树枝生物量,线性拟合的R2分别为0.967和0.932,RMSE分别为0.04 t(10.6%)和0.036 t(9.7%),CCC分别为0.95和0.96。本研究表明移动LiDAR结合定量结构模型提取树木参数并估算单木生物量的方法可在一定程度上替代TLS。当移动LiDAR点云精度更高时,估算结果更加准确。本研究为使用移动LiDAR开展单木及区域生物量估算研究提供参考。 展开更多
关键词 林木参数提取 单木分割 定量结构模型 单木生物量
在线阅读 下载PDF
不同林分密度时激光雷达点云数据单木分割及参数提取 被引量:2
2
作者 张燕妮 张学霞 +5 位作者 张建军 程家琪 胡亚伟 赵炯昌 李阳 杨锐 《东北林业大学学报》 CAS CSCD 北大核心 2024年第7期36-43,共8页
为了准确高效提取人工林结构参数,以晋西黄土区蔡家川流域人工油松林为研究对象,利用30块样地的激光雷达点云数据和样地实测数据,通过改变点云距离判别聚类算法的格网值和调整分水岭算法的冠层高度分辨率的方法,对比分析关键参数对单木... 为了准确高效提取人工林结构参数,以晋西黄土区蔡家川流域人工油松林为研究对象,利用30块样地的激光雷达点云数据和样地实测数据,通过改变点云距离判别聚类算法的格网值和调整分水岭算法的冠层高度分辨率的方法,对比分析关键参数对单木分割的敏感性,探求点云距离判别聚类算法和分水岭算法对树高提取精度的最优参量。结果表明:(1)点云距离判别聚类算法单木提取的召回率为87.3%、准确率为86.0%、调和值为86.7%,优于分水岭算法(召回率为83.0%、准确率为83.8%、调和值为83.4%)。(2)点云距离判别聚类算法分割单木的敏感性,采用最小冠幅1/5的格网值,其召回率为87.3%、准确率为86.0%、调和值为86.7%,分割精度最高。分水岭算法分割单木的最优关键参量随林分密度不同而变化,当林分密度≤3600株/hm^(2),采用冠层高度分辨率0.3 m时,分割效果最优,其召回率为78.9%、准确率为85.2%、调和值为81.9%;当林分密度≥3700株/hm^(2),采用冠层高度分辨率0.2 m时,分割效果最优,召回率为87.2%、准确率为82.5%、调和值为84.8%。(3)分水岭算法提取树高精度(决定系数为0.88,均方根误差为0.93 m)优于点云距离判别聚类算法。 展开更多
关键词 机载激光雷达 单木分割 结构参数提取 CHM分辨率 格网值
在线阅读 下载PDF
基于FFT的网页正文提取算法研究与实现 被引量:15
3
作者 李蕾 王劲林 +1 位作者 白鹤 胡晶晶 《计算机工程与应用》 CSCD 北大核心 2007年第30期148-151,共4页
主要研究"正文式"网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特... 主要研究"正文式"网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特征,将问题转化为——给定一个底层网页的HTML源文件,求解最佳的正文区间;从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分段的方法,利用统计学原理和FFT,得出每个可能区间的权值,从而求解出最佳正文区间。实验结果表明,此种方法能比较准确的对"正文式"网页的有效信息进行提取。 展开更多
关键词 中文信息处理 WEB页面 信息提取 页面结构 FFT 区域分割
在线阅读 下载PDF
结合网页结构与文本特征的正文提取方法 被引量:15
4
作者 熊忠阳 蔺显强 +1 位作者 张玉芳 牙漫 《计算机工程》 CAS CSCD 2013年第12期200-203,210,共5页
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去... 网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 展开更多
关键词 正文提取 网页去噪 网页分块 主题爬行 信息检索 WEB挖掘
在线阅读 下载PDF
基于网页结构树的Web信息抽取方法 被引量:24
5
作者 陈琼 苏文健 《计算机工程》 EI CAS CSCD 北大核心 2005年第20期54-55,140,共3页
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构... 提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。 展开更多
关键词 信息抽取 半结构 网页结构树 模式
在线阅读 下载PDF
基于正文结构和长句提取的网页去重算法 被引量:13
6
作者 黄仁 冯胜 +2 位作者 杨吉云 刘宇 敖民 《计算机应用研究》 CSCD 北大核心 2010年第7期2489-2491,2497,共4页
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证... 针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。 展开更多
关键词 网页去重 正文结构树 长句提取 层次指纹
在线阅读 下载PDF
基于局部标签树匹配的改进网页聚类算法 被引量:14
7
作者 李睿 曾俊瑀 周四望 《计算机应用》 CSCD 北大核心 2010年第3期818-820,共3页
Web信息抽取中需要对目标网站的网页进行聚类分析,以检测并生成信息抽取所需的模板。传统的基于DOM树编辑距离的网页聚类算法不适合文档对象模型(DOM)树结构复杂的动态模板网页,提出了一种基于局部标签树匹配的改进网页聚类算法,利用标... Web信息抽取中需要对目标网站的网页进行聚类分析,以检测并生成信息抽取所需的模板。传统的基于DOM树编辑距离的网页聚类算法不适合文档对象模型(DOM)树结构复杂的动态模板网页,提出了一种基于局部标签树匹配的改进网页聚类算法,利用标签树中模板节点和非模板节点的层次差异性,根据节点对布局影响的大小赋予节点不同的匹配权值,使用局部树匹配完成对网页结构相似性的有效计算。实验结果表明,改进的算法较传统的基于DOM树编辑距离的网页聚类算法,在对采用模板生成的动态网页进行聚类分析时具有更高的准确率,且时间复杂度低。 展开更多
关键词 WEB信息抽取 网页聚类 树编辑距离 局部标签树匹配
在线阅读 下载PDF
基于标记树对象抽取技术的Hidden Web获取研究 被引量:9
8
作者 宋晖 张岭 +1 位作者 叶允明 马范援 《计算机工程与应用》 CSCD 北大核心 2002年第23期9-12,24,共5页
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该... 目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。 展开更多
关键词 标记树 对象抽取 HiddenWeb 互联网 搜索引擎 信息检索 结构化查询 数据库
在线阅读 下载PDF
基于机载LiDAR点云多层聚类的单木信息提取及其精度评价 被引量:17
9
作者 霍朗宁 张晓丽 《林业科学》 EI CAS CSCD 北大核心 2021年第1期85-94,共10页
【目的】针对已有三维点云数据单木分割方法提取下层林木困难、准确提取林木数量占总体比例偏低导致提取工作有效性不高、提取效果受点云密度和林分结构复杂程度影响等问题,改进单木提取策略和算法,为LiDAR单木提取技术向生产实践应用... 【目的】针对已有三维点云数据单木分割方法提取下层林木困难、准确提取林木数量占总体比例偏低导致提取工作有效性不高、提取效果受点云密度和林分结构复杂程度影响等问题,改进单木提取策略和算法,为LiDAR单木提取技术向生产实践应用转化提供支撑。【方法】以机载LiDAR点云数据为基础,提出一种基于分层聚类的三维立体单木分割方法,并对点云分层、分割、单木匹配等环节进行算法改进,实现空间异质性较高林分的单木分割和信息提取。【结果】改进后的算法可在高密度、高空间异质性林分中进行单木分割和信息提取,并能更合理地与地面实测林木信息匹配,可匹配的林木比例最高达88.70%,单木树高、林分平均高精度最高分别达92.38%、99.84%,树高基尼指数、树高变异系数精度最高达89.65%。【结论】通过多水平分层和纵向聚类融合,可提升对于林下层尤其是更新层林木的提取能力;构建提取有效性指标,更加关注成果的适用性;评价指标中加入空间结构精确度指标,可充分发挥LiDAR对空间结构的反演能力。 展开更多
关键词 机载LIDAR 单木分割 提取有效性 林分结构
在线阅读 下载PDF
基于扩展DOM树的Web页面信息抽取 被引量:12
10
作者 王磊 蒋建中 郭军利 《计算机应用与软件》 CSCD 北大核心 2007年第6期137-139,共3页
随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document O... 随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document ObjectModel)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取。该算法能对多信息块的Web页面进行信息抽取。 展开更多
关键词 DOM树 信息抽取 包装器 半结构化
在线阅读 下载PDF
基于模拟退火算法和二阶HMM的Web信息抽取 被引量:7
11
作者 李伟男 李书琴 +2 位作者 景旭 魏露 李新乐 《计算机工程与设计》 CSCD 北大核心 2014年第4期1264-1268,共5页
针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-... 针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-HMM2训练算法获取HMM2全局最优模型参数,用改进的Viterbi算法实现了Web信息的抽取。实验结果表明,该方法在平均综合值方面比HMM、GA-HMM分别提高约21%和7%。 展开更多
关键词 WEB信息抽取 隐马尔科夫模型 二阶隐马尔科夫模型 模拟退火算法 基于视觉的网页分割算法
在线阅读 下载PDF
一种垂直页面分割与信息提取方法的研究 被引量:3
12
作者 李军 陈君 +1 位作者 王玲芳 倪宏 《计算机应用研究》 CSCD 北大核心 2013年第3期844-847,852,共5页
在综合分析不同页面分割算法和适用条件的基础上,研究针对垂直型网站的页面分割和信息提取算法。以DOM(document object model)树为基础,提出页面内容聚集度的概念,统计获取页面分割标签和样式层叠表映射,对页面进行分割;采用正文识别... 在综合分析不同页面分割算法和适用条件的基础上,研究针对垂直型网站的页面分割和信息提取算法。以DOM(document object model)树为基础,提出页面内容聚集度的概念,统计获取页面分割标签和样式层叠表映射,对页面进行分割;采用正文识别和前缀匹配的方法,完成从页面分块信息提取。结合实际的网络视频项目需求,实现面向垂直型网站页面的分割和信息提取器。实验结果表明,该网页分割和信息提取方法对垂直页面信息提取具有良好的性能,满足实际项目需求。 展开更多
关键词 页面分割 信息获取 垂直网站 内容聚集度 分割标签 前缀匹配
在线阅读 下载PDF
基于DOM模型扩展的Web信息提取 被引量:21
13
作者 顾韵华 田伟 《计算机科学》 CSCD 北大核心 2009年第11期235-237,289,共4页
提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的... 提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的特点。提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中。 展开更多
关键词 文档对象模型 WEB信息提取 影响度因子 DOM树扩展
在线阅读 下载PDF
一种基于SVM和AdaBoost的Web实体信息抽取方法 被引量:3
14
作者 孙明 陆春生 +2 位作者 徐秀星 李庆忠 彭朝晖 《计算机应用与软件》 CSCD 北大核心 2013年第4期101-106,152,共7页
提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标... 提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。 展开更多
关键词 WEB信息抽取 页面分割 集成学习
在线阅读 下载PDF
基于多特征匹配的视频拷贝检测算法 被引量:5
15
作者 吴潇 高科 +2 位作者 郭俊波 李锦涛 张勇东 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第11期1856-1865,共10页
针对已有的视频拷贝检测算法仅使用单一特征进行视频内容匹配,难以应对多种不同形式的拷贝变化的问题,提出一种基于多种视觉特征的视频拷贝检测算法.该算法采用级联式检测过滤框架,在提取视频帧图像的全局特征用于检测画面轻微变化的重... 针对已有的视频拷贝检测算法仅使用单一特征进行视频内容匹配,难以应对多种不同形式的拷贝变化的问题,提出一种基于多种视觉特征的视频拷贝检测算法.该算法采用级联式检测过滤框架,在提取视频帧图像的全局特征用于检测画面轻微变化的重复视频片段后,使用更精准的局部特征等来检测各种复杂变化后的拷贝内容.为在大规模数据库中实现快速检测,使用kd树型索引结构实现特征近邻检索.在标准评测数据集上的实验结果表明,文中算法对多种拷贝变化具有鲁棒性,并具有较高的检测效率. 展开更多
关键词 视频拷贝检测 图像特征提取 视觉信息检索 树型索引结构
在线阅读 下载PDF
基于多种策略的页面内容提取算法 被引量:4
16
作者 高琰 谷士文 谭立球 《西南交通大学学报》 EI CSCD 北大核心 2007年第4期473-477,共5页
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构... 针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容. 展开更多
关键词 VIPS(基于视觉信息的页面分割算法) 内聚度 最大深度 内容信息 结构信息
在线阅读 下载PDF
Web信息抽取技术在统一检索系统中的应用研究 被引量:7
17
作者 王权 施韶亭 《计算机应用与软件》 CSCD 2010年第10期120-122,137,共4页
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统... 结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。 展开更多
关键词 WEB信息抽取 统一检索 页面结构分析 关键信息块 子树广度
在线阅读 下载PDF
一种新颖的CRE用户评论信息抽取技术 被引量:2
18
作者 李慧 张舒 +2 位作者 顾天竺 陈晓红 吴颜 《计算机应用》 CSCD 北大核心 2006年第10期2509-2512,共4页
准确挖掘商务网站中的用户评论对于商家进行有效的推荐具有重要意义。提出了一种新颖的用户评论抽取(CRE)算法进行评论信息的抽取。该算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。实验结果证明了该算法具... 准确挖掘商务网站中的用户评论对于商家进行有效的推荐具有重要意义。提出了一种新颖的用户评论抽取(CRE)算法进行评论信息的抽取。该算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。实验结果证明了该算法具有较高的查全率与查准率。 展开更多
关键词 用户评论抽取 信息抽取 基于视觉的页面分块
在线阅读 下载PDF
基于网页结构挖掘的信息提取 被引量:2
19
作者 李媛 耿桦 +1 位作者 张甍 潘金贵 《计算机科学》 CSCD 北大核心 2006年第3期191-193,218,共4页
本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析。
关键词 信息提取 网页结构挖掘 重复模式 时间特征 RSS
在线阅读 下载PDF
一种基于后缀树的包装器自动生成方法研究 被引量:2
20
作者 李永丽 张玉良 《计算机工程与应用》 CSCD 北大核心 2007年第34期114-118,共5页
包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种... 包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种基于后缀树的包装器自动生成方法,生成的包装器不仅可以处理简单结构数据,还可以处理嵌套结构数据,具有较低的时间复杂度,有一定的实用价值。 展开更多
关键词 网页 信息抽取 后缀树 半结构化数据 包装器自动生成
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部