期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向Deep Web本地化数据集成的数据源两层选择模型 被引量:3
1
作者 鲜学丰 崔志明 +2 位作者 方立刚 顾才东 孙逊 《计算机工程》 CAS CSCD 北大核心 2017年第3期32-39,共8页
针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增... 针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。 展开更多
关键词 深层网页 数据集成 数据源选择 数据源质量 效用模型 递归增量策略
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部