-
题名基于可信度模型的重复主数据检测算法
被引量:3
- 1
-
-
作者
王继奎
李少波
-
机构
中国科学院成都计算机应用研究所
贵州大学省部共建现代制造技术教育部重点实验室
兰州商学院信息工程学院
-
出处
《计算机工程》
CAS
CSCD
2014年第5期31-35,40,共6页
-
基金
国家科技支撑计划基金资助项目(2012BAF12B14)
-
文摘
针对来源于多个业务系统的重复主数据影响主数据质量、主数据同步及主数据挖掘等问题,提出重复主数据检测算法fastCdrDetection。从数据可信度的角度出发,在考虑数据源可信度、数据最后更新时间及数据长度的基础上,建立主数据可信度模型,并实现可信记录生成算法。设计非递归的字符串相似度计算算法FiledMatch,解决了由中文简写、缩写、错误拼写造成的主数据重复问题,采用sourceKeys算法对来源于同一业务系统、具有同样业务主键的重复记录进行预处理,从而提高重复主数据检测效率。通过对某电网基建物资63万余条供应商存量数据及23万余条模拟数据进行实验,结果表明,与PQS算法相比,fastCdrDetection算法的召回率由74%提高到88%,准确率由61%提高到95%,证明了算法的有效性。
-
关键词
多数据源
重复主数据
可信度模型
检测算法
数据可信度
-
Keywords
multiple data source
duplicate master data
credibility model
detection algorithm
data credibility
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-