期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于K-means的大数据相似重复记录检测
1
作者
张平
程新莲
《现代信息科技》
2022年第8期89-91,共3页
目前大型企业存储了大量的数据,但是数据质量令人担忧,集中表现在相似重复冗余的数据特别多,以及多个数据源的合并加重数据的冗余。大数据相似记录检测环节是数据清洗研究的重要方向。针对大数据中存在的相似重复数据的检测问题,文章提...
目前大型企业存储了大量的数据,但是数据质量令人担忧,集中表现在相似重复冗余的数据特别多,以及多个数据源的合并加重数据的冗余。大数据相似记录检测环节是数据清洗研究的重要方向。针对大数据中存在的相似重复数据的检测问题,文章提出了一种基于k-means分组聚类的检测算法,实验分析表明,该方法在确保精度不变的情况下提高了检测效率。
展开更多
关键词
相似重复记录
K-MEANS
SNM
在线阅读
下载PDF
职称材料
题名
基于K-means的大数据相似重复记录检测
1
作者
张平
程新莲
机构
安徽职业技术学院信息工程学院
嘉善万顺达电子有限公司
出处
《现代信息科技》
2022年第8期89-91,共3页
基金
2021年校级质量工程项目(2021xjtz107)。
文摘
目前大型企业存储了大量的数据,但是数据质量令人担忧,集中表现在相似重复冗余的数据特别多,以及多个数据源的合并加重数据的冗余。大数据相似记录检测环节是数据清洗研究的重要方向。针对大数据中存在的相似重复数据的检测问题,文章提出了一种基于k-means分组聚类的检测算法,实验分析表明,该方法在确保精度不变的情况下提高了检测效率。
关键词
相似重复记录
K-MEANS
SNM
Keywords
similar duplicate record
K-means
SNM
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于K-means的大数据相似重复记录检测
张平
程新莲
《现代信息科技》
2022
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部