-
题名Web信息整合中的数据去重方法
被引量:4
- 1
-
-
作者
刘雪琼
武刚
邓厚平
-
机构
北京林业大学信息学院
-
出处
《计算机应用》
CSCD
北大核心
2013年第9期2493-2496,共4页
-
基金
中央高校基本科研业务费专项基金资助项目(BLYX200928)
-
文摘
针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率。实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%。该方法已应用于林业黄页系统中,取得了较好的应用效果。
-
关键词
web信息整合
相似重复记录
动态权重
模糊实体匹配
-
Keywords
web information integration
approximately duplicate record
dynamic weight
fuzzy entity matching
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名林产品本体的构建方法研究
- 2
-
-
作者
杨抒
武刚
王欢
彭恩强
-
机构
北京林业大学信息学院
新疆农业大学计算机与信息工程学院
-
出处
《黑龙江农业科学》
2010年第7期147-151,共5页
-
文摘
针对林产品商务Web信息整合的过程出现的林产品语义冲突、共享困难等问题,从现有的本体相关理论出发,使用本体的形式化定义形式,对林产品的概念进行语义形式化描述,确定林产品本体的六元组。进而建立了林产品的核心本体。并给出该本体的关联可视图。
-
关键词
web信息整合
林产品
领域本体
概念语义
-
Keywords
web information integration
forest products
domain ontology
concept semantic
-
分类号
F326.2
[经济管理—产业经济]
-