期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
面向不规则列表的网页数据抽取技术的研究 被引量:1
1
作者 常丽君 钱钢 《计算机应用研究》 CSCD 北大核心 2015年第9期2651-2654,2658,共5页
抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性... 抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记录的标签树之间的匹配结果,再采用部分树对齐算法生成一个数据记录的最大匹配结构,进而用于抽取出所有数据记录。实验结果表明,提出的改进算法有效提高了自动抽取列表页数据的准确率和适应性。 展开更多
关键词 列表页 网页数据抽取 标签树匹配 部分树对齐
在线阅读 下载PDF
基于网页内容的广告推介研究 被引量:1
2
作者 施水才 程涛 +1 位作者 王霞 吕学强 《中文信息学报》 CSCD 北大核心 2007年第4期42-47,54,共7页
网页与广告关联是基于网页内容的网络广告的核心技术,本文提出了一种基于语义的、以实现网页和广告精确匹配为目标的广告推介方法。首先对一个Web网页进行主题信息提取,获得网页的主题词;然后再对这些主题词语作同义词扩展、上位词扩展... 网页与广告关联是基于网页内容的网络广告的核心技术,本文提出了一种基于语义的、以实现网页和广告精确匹配为目标的广告推介方法。首先对一个Web网页进行主题信息提取,获得网页的主题词;然后再对这些主题词语作同义词扩展、上位词扩展、下位词扩展和相关词扩展,最后从待匹配的广告中选择匹配度最高的广告。对该方法进行了模型系统实现并进行了测试运行,结果表明该方法是行之有效的。 展开更多
关键词 计算机应用 中文信息处理 同义词词林 主题词 网页数据抽取 关联度
在线阅读 下载PDF
基于特征相似度计算的网页包装器自适应 被引量:4
3
作者 陈迎仁 郭莹楠 +2 位作者 郭享 倪一涛 陈星 《计算机科学》 CSCD 北大核心 2021年第S02期218-224,257,共8页
随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加... 随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%。 展开更多
关键词 网页数据抽取 自适应 包装器 相似度计算 网页特征
在线阅读 下载PDF
基于Web挖掘技术的信息检索系统设计与实现 被引量:3
4
作者 王艳 张帆 《情报学报》 CSSCI 北大核心 2007年第3期339-343,共5页
本文详细介绍一个基于Web文本挖掘技术的信息检索系统的设计与实现。基于Web文本挖掘技术的信息检索技术融合了文本挖掘的思想,它将单一的资源发现或者单一的信息提取的传统的信息检索方法结合起来,从而达到在WWW发现资源并将其中的... 本文详细介绍一个基于Web文本挖掘技术的信息检索系统的设计与实现。基于Web文本挖掘技术的信息检索技术融合了文本挖掘的思想,它将单一的资源发现或者单一的信息提取的传统的信息检索方法结合起来,从而达到在WWW发现资源并将其中的信息提取出来进行处理的目的。 展开更多
关键词 网页数据抽取 分词 文本自动分类 向量空间模型
在线阅读 下载PDF
海量信息搜索共享服务系统的设计与实现
5
作者 夏绪虎 杨炳儒 《计算机工程与应用》 CSCD 北大核心 2006年第28期164-166,共3页
如何更有效和更智能地利用网络上的资源是信息处理领域中的一项重要研究课题。文章阐述了一个海量信息搜索共享服务系统的设计与实现,该系统将相关领域的网站上的网页抓取下来,并将其提取为文本的形式,然后利用自然语言处理技术进行分... 如何更有效和更智能地利用网络上的资源是信息处理领域中的一项重要研究课题。文章阐述了一个海量信息搜索共享服务系统的设计与实现,该系统将相关领域的网站上的网页抓取下来,并将其提取为文本的形式,然后利用自然语言处理技术进行分词和分类。 展开更多
关键词 计算机应用 网页数据抽取 分词 文本分类 向量空间模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部