期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于相对编辑相似度的近似重复视频检索和定位 被引量:6
1
作者 赵清杰 王浩 +1 位作者 刘浩 张聪 《北京理工大学学报》 EI CAS CSCD 北大核心 2018年第1期85-90,共6页
为有效对近似重复视频进行检索和定位,提出了一种基于相对编辑相似度的检索和定位算法.算法包括基于局部特征的视频编码和基于相对编辑相似度的在线检索和定位两部分.基于局部特征的视频编码首先提取数据库视频的关键帧,然后在关键帧中... 为有效对近似重复视频进行检索和定位,提出了一种基于相对编辑相似度的检索和定位算法.算法包括基于局部特征的视频编码和基于相对编辑相似度的在线检索和定位两部分.基于局部特征的视频编码首先提取数据库视频的关键帧,然后在关键帧中提取Root-SIFT特征描述符并应用层次K-Means聚类算法构建词典,之后将关键帧量化至词袋模型的单词并编码.基于相对编辑相似度的在线检索和定位首先对查询视频进行编码,然后应用相对编辑相似度算法,筛选近似重复视频并对近似重复片段进行定位.实验结果表明,LD算法比Yeh等提出的算法在平均F1评价准则上效果要高8.55%,并且NDCR降低为原来的29%,效果提升明显. 展开更多
关键词 近似重复视频检索 近似重复视频定位 相对编辑相似度
在线阅读 下载PDF
一种基于条件概率分布的近似重复记录检测方法 被引量:3
2
作者 缪嘉嘉 吴刚 +2 位作者 毛捍东 杨强 邓苏 《小型微型计算机系统》 CSCD 北大核心 2004年第12期2164-2168,共5页
数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的... 数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的算法忽略序列结构特点的问题 ,基于条件概率分布定义了记录间的距离 ;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数 ,采用动态聚类算法完成对序列数据集的聚类 .使用该方法 ,对仿真数据进行了聚类实验 。 展开更多
关键词 信息集成 近似重复记录 动态聚类 概率后缀树
在线阅读 下载PDF
近似重复记录的增量式识别算法 被引量:4
3
作者 许向阳 佘春红 《计算机工程与应用》 CSCD 北大核心 2003年第12期191-193,220,共4页
摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IM... 摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IMPN(IncrementalMulti-Passsorted-Neighborhood)。文章最后给出了实验结果。 展开更多
关键词 数据清理 近似重复记录 增量式识别 特征记录
在线阅读 下载PDF
近似重复记录的自适应距离度量检测 被引量:2
4
作者 黄健斌 姬红兵 孙鹤立 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2007年第2期331-336,共6页
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机... 提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力. 展开更多
关键词 近似重复记录检测 记录链接 实体匹配 数据集成
在线阅读 下载PDF
基于Bag-of-words和Hash编码的近似重复图像检测算法
5
作者 王誉天 袁江涛 +1 位作者 秦海权 刘鑫 《计算机应用》 CSCD 北大核心 2013年第3期667-669,共3页
针对近似重复图像检测的传统算法存在检测效率和准确率不够高的缺点,提出了基于Bag-of-words和哈希编码的近似重复图像检测算法。该算法首先利用Bag-of-words把一幅图像表示成一个500维的特征向量;然后,利用主成分分析(PCA)和尺度不变... 针对近似重复图像检测的传统算法存在检测效率和准确率不够高的缺点,提出了基于Bag-of-words和哈希编码的近似重复图像检测算法。该算法首先利用Bag-of-words把一幅图像表示成一个500维的特征向量;然后,利用主成分分析(PCA)和尺度不变特征转换(SIFT)进行特征降维,并利用Hash编码技术对特征进行编码;最后,利用动态距离度量技术实现近似重复图像的检测。实验结果表明,利用该算法进行近似重复图像检测是完全可行的,在准确度和查全率之间做到了较好的平衡,查准率可达90%~95%,查全率可达70%~80%。 展开更多
关键词 近似重复图像 BAG-OF-WORDS 主成分分析 哈希编码 动态距离度量
在线阅读 下载PDF
基于BIC的新闻视频近似重复帧检测方法
6
作者 白志杰 李弼程 彭天强 《计算机应用》 CSCD 北大核心 2009年第6期1694-1695,1701,共3页
近似重复帧检测是新闻视频检索和追踪的重要组成部分。简要介绍了近似重复帧的定义,给出了所使用的角点检测方法及优点,提出了使用BIC对两个帧的特征值序列进行判决来确定是否近似重复的方案。实验结果表明,该方法在不需要设定阈值和机... 近似重复帧检测是新闻视频检索和追踪的重要组成部分。简要介绍了近似重复帧的定义,给出了所使用的角点检测方法及优点,提出了使用BIC对两个帧的特征值序列进行判决来确定是否近似重复的方案。实验结果表明,该方法在不需要设定阈值和机器学习的同时,召回率和准确率都有很好的表现。 展开更多
关键词 贝叶斯信息准则 角点检测 近似重复
在线阅读 下载PDF
基于优先队列的增量式重复记录识别 被引量:7
7
作者 佘春红 《计算机应用》 CSCD 北大核心 2003年第9期61-63,共3页
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
关键词 数据清理 近似重复记录 增量式识别 特征记录
在线阅读 下载PDF
基于Low-IDF-SIG的句子重复检测
8
作者 俞昊旻 张玥 +1 位作者 张奇 黄萱菁 《中文信息学报》 CSCD 北大核心 2011年第1期123-128,共6页
随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的... 随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的重复检测正是解决这类问题的一个必要步骤。该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的Shingle特征以表示句子内容。真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度。 展开更多
关键词 近似重复检测 特征抽取 Low-IDF-SIG
在线阅读 下载PDF
基于生物信息学特征的DNA序列数据压缩算法 被引量:8
9
作者 纪震 周家锐 +1 位作者 朱泽轩 Q H Wu 《电子学报》 EI CAS CSCD 北大核心 2011年第5期991-995,共5页
本文通过将生物学特征和生物学含义引入DNA序列数据的压缩处理中,提出了基于生物信息学特征的BioLZMA压缩算法.在BioLZMA算法中,DNA序列根据组成部分生物学含义的不同切分重组为四个集合:编码序列CDS集合、内含子序列集合、RNA序列集合... 本文通过将生物学特征和生物学含义引入DNA序列数据的压缩处理中,提出了基于生物信息学特征的BioLZMA压缩算法.在BioLZMA算法中,DNA序列根据组成部分生物学含义的不同切分重组为四个集合:编码序列CDS集合、内含子序列集合、RNA序列集合以及剩余序列的集合.根据各集合中序列的具体生物学特征分别使用针对性的压缩策略进行预处理,并通过LZMA算法进行压缩编码.实验结果表明,BioLZMA算法在基准测试序列上的压缩性能优于原有的DNA序列压缩方法.特别是对于生物信息学特征清晰的长序列,算法能够在较短的时间内获得较高的压缩率. 展开更多
关键词 DNA数据压缩 生物信息学 序列重组 近似重复片段 LZMA
在线阅读 下载PDF
基于Memetic优化的智能DNA序列数据压缩算法 被引量:2
10
作者 周家锐 纪震 +1 位作者 朱泽轩 陈思平 《电子学报》 EI CAS CSCD 北大核心 2013年第3期513-518,共6页
提出近似重复矢量(Approximate Repeat Vector,ARV)模型用于DNA序列冗余片段的描述.通过将数据生物信息学特征引入压缩预处理,并使用ARV矢量构造编码码本,提出了非对称DNA序列压缩算法BioLZMA-2.算法引入基于粒子群优化的Memetic改进方... 提出近似重复矢量(Approximate Repeat Vector,ARV)模型用于DNA序列冗余片段的描述.通过将数据生物信息学特征引入压缩预处理,并使用ARV矢量构造编码码本,提出了非对称DNA序列压缩算法BioLZMA-2.算法引入基于粒子群优化的Memetic改进方法CLIPSO-MA用于压缩码本的智能优化设计,有效提升了编码性能.在标准测试序列上的实验结果表明,BioLZMA-2可获得比现有DNA序列数据压缩方法更高的压缩率. 展开更多
关键词 DNA序列数据压缩 生物信息学 近似重复矢量 MEMETIC算法
在线阅读 下载PDF
基于聚类分析技术的数据清洗研究 被引量:11
11
作者 刘芳 何飞 《计算机工程与科学》 CSCD 2005年第6期70-71,77,共3页
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据... 数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。 展开更多
关键词 数据清洗 近似重复记录 聚类 ICAD
在线阅读 下载PDF
基于Memetic算法的DNA序列数据压缩方法 被引量:2
12
作者 谭丽 孙季丰 郭礼华 《电子与信息学报》 EI CSCD 北大核心 2014年第1期121-127,共7页
该文提出一种基于CPMA(Collaborative Particle swarm optimization-based Memetic Algorithm)算法的DNA序列数据压缩方法,CPMA分别采用综合学习粒子群优化(Comprehensive Learning Particle Swarm Optimization,CLPSO)算法和动态调整... 该文提出一种基于CPMA(Collaborative Particle swarm optimization-based Memetic Algorithm)算法的DNA序列数据压缩方法,CPMA分别采用综合学习粒子群优化(Comprehensive Learning Particle Swarm Optimization,CLPSO)算法和动态调整的混沌搜索算子(Dynamic Adjustive Chaotic Search Operator,DACSO)进行全局搜索和局部搜索。该文采用CPMA寻找全局最优的基于扩展操作的近似重复矢量(Extended Approximate Repeat Vector,EARV)码书,并用此码书压缩DNA序列数据。实验结果表明,CPMA比其它优化算法有很大的改善,对文中采用的大部分测试函数,其解都非常接近全局最优点;对于DNA基准测序序列,与文中所列的经典DNA序列压缩算法相比,基于CPMA算法的压缩性能得到了显著提升。 展开更多
关键词 DNA序列压缩 MEMETIC算法 扩展的近似重复矢量(EARV) 粒子群优化(PSO) 动态混沌局部搜索
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部