期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于遗传神经网络的相似重复记录检测方法
被引量:
13
1
作者
孟祥逢
鲁汉榕
郭玲
《计算机工程与设计》
CSCD
北大核心
2010年第7期1550-1553,共4页
为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络...
为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络组合多个字段上的相似度来检测相似重复记录。在不同领域数据集上的测试结果表明,该方法能够提高相似重复记录检测的准确率和检测精度。
展开更多
关键词
相似重复记录检测
神经网络
遗传算法
数据清洗
数据集成
在线阅读
下载PDF
职称材料
基于分块和滑窗技术的相似重复记录检测算法研究
被引量:
8
2
作者
陈亮
杜璐
胡康
《计算机应用与软件》
北大核心
2019年第4期262-267,共6页
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计...
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。
展开更多
关键词
数据质量
相似重复记录检测
窗口技术
分块技术
在线阅读
下载PDF
职称材料
基于CNN的安防数据相似重复记录检测模型
被引量:
1
3
作者
王巍
刘阳
+1 位作者
洪惠君
梁雅静
《计算机应用与软件》
北大核心
2023年第2期17-25,共9页
安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种...
安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种是输入为相似度矩阵的模型。实验表明,输入为词向量矩阵的模型的精确率和召回率均达到了96%以上,输入为相似度矩阵的模型的精确率和召回率高达98%,并且K折交叉验证的结果说明模型具有较强的泛化能力。
展开更多
关键词
安防行业
数据清洗
相似重复记录检测
CNN
LeNet-5
在线阅读
下载PDF
职称材料
相似重复记录检测研究与发展动态的知识图谱分析
被引量:
1
4
作者
顾晴
董永权
胡杨
《计算机应用与软件》
北大核心
2022年第3期1-7,95,共8页
在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务。近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理。以2008—...
在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务。近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理。以2008—2019年的国内外相似重复记录检测相关文献为研究样本,结合社会网络和知识图谱对其发文量、核心机构、作者合作群、研究热点和研究趋势进行分析。分析发现,作者合作结构整体上较松散,相似重复记录各类检测方式的集成、应用领域的扩展和通用框架的研究成为热点,缺失数据值的处理、多数据源的识别、大数据量的分块处理成为相似重复记录领域的挑战。
展开更多
关键词
相似重复记录检测
知识合作
研究热点
研究趋势
在线阅读
下载PDF
职称材料
基于多目标蚁群优化的单类支持向量机相似重复记录检测
被引量:
12
5
作者
吕国俊
曹建军
+3 位作者
郑奇斌
常宸
翁年凤
彭琮
《兵工学报》
EI
CAS
CSCD
北大核心
2020年第2期324-331,共8页
为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记...
为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记录样本对进行训练;选择合适的属性相似度函数计算记录对之间的相似特征向量,将其作为单类支持向量机分类器的输入进行二分类检测;建立以查准率、查全率、特征数量综合最优为目标的多目标特征选择模型,结合训练样本为单类样本的特点,将启发式因子定义为类内散度最小化约束,设计了求解模型的多目标蚁群算法。通过将单类支持向量机算法和支持向量域描述算法、传统二分类支持向量机算法进行对比,结果验证了单类支持向量机算法的有效性和优越性。
展开更多
关键词
数据清洗
相似重复记录检测
多目标蚁群算法
特征选择
单类支持向量机
支持向量域描述
在线阅读
下载PDF
职称材料
一种改进的相似重复记录检测算法
被引量:
7
6
作者
郭文龙
《计算机应用与软件》
CSCD
北大核心
2014年第1期293-295,共3页
数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原...
数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原子,进一步计算原子的权值,通过判定属性相似度进而判定记录相似度,提高查准率和查全率。采用均分大数据集为若干数据子集,并行采用MPN算法进行判重,提高判重时间效率。理论和实验分析表明该方法提高了相似重复记录检测的准确率和时间效率。
展开更多
关键词
相似
重复记录
属性
检测
MPN算法
在线阅读
下载PDF
职称材料
信息集成中数据获取关键技术的研究
7
作者
缪嘉嘉
李爱平
+1 位作者
贾焰
吴泉源
《计算机研究与发展》
EI
CSCD
北大核心
2007年第z3期452-457,共6页
信息集成是消除信息孤岛,实现信息共享,为企业决策提供支持的核心技术,而数据获取过程是信息集成系统的基础.在数据同步更新研究中,通过根据失配元组的间隔自适应调整窗口大小,在不牺牲效率的前提下有效提高快照差分算法的查全率.进一步...
信息集成是消除信息孤岛,实现信息共享,为企业决策提供支持的核心技术,而数据获取过程是信息集成系统的基础.在数据同步更新研究中,通过根据失配元组的间隔自适应调整窗口大小,在不牺牲效率的前提下有效提高快照差分算法的查全率.进一步,在相似重复记录检测方法的研究中,结合一种新的字符串距离度量算法,并利用二次聚类,提出一种高效的基于条件概率分布的相似重复记录检测方法.最后通过实验对比测试,对快照差分算法以及相似重复记录检测算法的性能和效率进行分析,理论分析和实验结果均证明了提出的改进算法是非常有效的.
展开更多
关键词
数据集成
快照差分算法
相似重复记录检测
概率后缀树
在线阅读
下载PDF
职称材料
题名
基于遗传神经网络的相似重复记录检测方法
被引量:
13
1
作者
孟祥逢
鲁汉榕
郭玲
机构
空军雷达学院研究生管理大队
空军雷达学院信息与指挥自动化系
出处
《计算机工程与设计》
CSCD
北大核心
2010年第7期1550-1553,共4页
基金
国家863高技术研究发展计划基金项目(2009AAJ127)
文摘
为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络组合多个字段上的相似度来检测相似重复记录。在不同领域数据集上的测试结果表明,该方法能够提高相似重复记录检测的准确率和检测精度。
关键词
相似重复记录检测
神经网络
遗传算法
数据清洗
数据集成
Keywords
approximately duplicate record detection
neural network
genetic algorithm
data cleaning
data integration
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于分块和滑窗技术的相似重复记录检测算法研究
被引量:
8
2
作者
陈亮
杜璐
胡康
机构
西安工程大学计算机科学学院
出处
《计算机应用与软件》
北大核心
2019年第4期262-267,共6页
基金
陕西省工业攻关资助项目(2014K05-43)
陕西省教育厅专项科研项目(14JK1310)
广东省计算机集成制造重点实验室(CIMSOF2016001)
文摘
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。
关键词
数据质量
相似重复记录检测
窗口技术
分块技术
Keywords
Data quality
Duplicate detection
Windowing Blocking
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于CNN的安防数据相似重复记录检测模型
被引量:
1
3
作者
王巍
刘阳
洪惠君
梁雅静
机构
河北工程大学信息与电气工程学院
河北省安防信息感知与处理重点实验室
江南大学物联网工程学院
出处
《计算机应用与软件》
北大核心
2023年第2期17-25,共9页
基金
国家自然科学基金项目(61802107)
教育部-中国移动科研基金项目(MCM20170204)
江苏省博士后科研资助计划项目(1601085C)。
文摘
安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种是输入为相似度矩阵的模型。实验表明,输入为词向量矩阵的模型的精确率和召回率均达到了96%以上,输入为相似度矩阵的模型的精确率和召回率高达98%,并且K折交叉验证的结果说明模型具有较强的泛化能力。
关键词
安防行业
数据清洗
相似重复记录检测
CNN
LeNet-5
Keywords
Security industry
Data cleaning
Approximately duplicate record detection
CNN
LeNet-5
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
相似重复记录检测研究与发展动态的知识图谱分析
被引量:
1
4
作者
顾晴
董永权
胡杨
机构
江苏师范大学智慧教育学院
出处
《计算机应用与软件》
北大核心
2022年第3期1-7,95,共8页
基金
国家自然科学基金项目(61872168)
江苏省研究生科研与创新计划省级项目(KYCX20_2396)。
文摘
在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务。近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理。以2008—2019年的国内外相似重复记录检测相关文献为研究样本,结合社会网络和知识图谱对其发文量、核心机构、作者合作群、研究热点和研究趋势进行分析。分析发现,作者合作结构整体上较松散,相似重复记录各类检测方式的集成、应用领域的扩展和通用框架的研究成为热点,缺失数据值的处理、多数据源的识别、大数据量的分块处理成为相似重复记录领域的挑战。
关键词
相似重复记录检测
知识合作
研究热点
研究趋势
Keywords
Similar duplicate record detection
Knowledge cooperation
Research hot spots
Research trends
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
在线阅读
下载PDF
职称材料
题名
基于多目标蚁群优化的单类支持向量机相似重复记录检测
被引量:
12
5
作者
吕国俊
曹建军
郑奇斌
常宸
翁年凤
彭琮
机构
陆军工程大学指挥控制工程学院
国防科技大学第六十三研究所
出处
《兵工学报》
EI
CAS
CSCD
北大核心
2020年第2期324-331,共8页
基金
国家自然科学基金面上项目(61371196)
中国博士后科学基金项目(2015M582832)
文摘
为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记录样本对进行训练;选择合适的属性相似度函数计算记录对之间的相似特征向量,将其作为单类支持向量机分类器的输入进行二分类检测;建立以查准率、查全率、特征数量综合最优为目标的多目标特征选择模型,结合训练样本为单类样本的特点,将启发式因子定义为类内散度最小化约束,设计了求解模型的多目标蚁群算法。通过将单类支持向量机算法和支持向量域描述算法、传统二分类支持向量机算法进行对比,结果验证了单类支持向量机算法的有效性和优越性。
关键词
数据清洗
相似重复记录检测
多目标蚁群算法
特征选择
单类支持向量机
支持向量域描述
Keywords
data cleaning
similar duplicate record detection
multi-objective ant colony algorithm
feature selection
one-class support vector machine
support vector domain description
分类号
TP311.11 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种改进的相似重复记录检测算法
被引量:
7
6
作者
郭文龙
机构
福建江夏学院电子信息科学学院
出处
《计算机应用与软件》
CSCD
北大核心
2014年第1期293-295,共3页
基金
福建省教育厅科技项目(JA12335)
文摘
数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原子,进一步计算原子的权值,通过判定属性相似度进而判定记录相似度,提高查准率和查全率。采用均分大数据集为若干数据子集,并行采用MPN算法进行判重,提高判重时间效率。理论和实验分析表明该方法提高了相似重复记录检测的准确率和时间效率。
关键词
相似
重复记录
属性
检测
MPN算法
Keywords
Similar and duplicated records Attribute Detect MPN algorithm
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
信息集成中数据获取关键技术的研究
7
作者
缪嘉嘉
李爱平
贾焰
吴泉源
机构
国防科学技术大学计算机学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第z3期452-457,共6页
基金
国家"八六三"高技术研究发展计划基金项目(2004AA112020,2005AA112030)
国家"九七三"重点基础研究发展规划基金项目(2005CB321804)
文摘
信息集成是消除信息孤岛,实现信息共享,为企业决策提供支持的核心技术,而数据获取过程是信息集成系统的基础.在数据同步更新研究中,通过根据失配元组的间隔自适应调整窗口大小,在不牺牲效率的前提下有效提高快照差分算法的查全率.进一步,在相似重复记录检测方法的研究中,结合一种新的字符串距离度量算法,并利用二次聚类,提出一种高效的基于条件概率分布的相似重复记录检测方法.最后通过实验对比测试,对快照差分算法以及相似重复记录检测算法的性能和效率进行分析,理论分析和实验结果均证明了提出的改进算法是非常有效的.
关键词
数据集成
快照差分算法
相似重复记录检测
概率后缀树
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于遗传神经网络的相似重复记录检测方法
孟祥逢
鲁汉榕
郭玲
《计算机工程与设计》
CSCD
北大核心
2010
13
在线阅读
下载PDF
职称材料
2
基于分块和滑窗技术的相似重复记录检测算法研究
陈亮
杜璐
胡康
《计算机应用与软件》
北大核心
2019
8
在线阅读
下载PDF
职称材料
3
基于CNN的安防数据相似重复记录检测模型
王巍
刘阳
洪惠君
梁雅静
《计算机应用与软件》
北大核心
2023
1
在线阅读
下载PDF
职称材料
4
相似重复记录检测研究与发展动态的知识图谱分析
顾晴
董永权
胡杨
《计算机应用与软件》
北大核心
2022
1
在线阅读
下载PDF
职称材料
5
基于多目标蚁群优化的单类支持向量机相似重复记录检测
吕国俊
曹建军
郑奇斌
常宸
翁年凤
彭琮
《兵工学报》
EI
CAS
CSCD
北大核心
2020
12
在线阅读
下载PDF
职称材料
6
一种改进的相似重复记录检测算法
郭文龙
《计算机应用与软件》
CSCD
北大核心
2014
7
在线阅读
下载PDF
职称材料
7
信息集成中数据获取关键技术的研究
缪嘉嘉
李爱平
贾焰
吴泉源
《计算机研究与发展》
EI
CSCD
北大核心
2007
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部