期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种基于规范互信息和动态冗余信号识别技术的特征选择方法
1
作者 陈圣 熊钦 《电子设计工程》 2012年第18期142-144,147,共4页
为了实现对模式识别、信号处理等领域中数据的有效表达,提出了一种基于规范互信息和动态冗余信号识别技术的特征选择方法。该方法采用规范互信息对特征相关性和冗余性进行测量,并通过一种动态冗余信号识别技术在特征全集中进行冗余特征... 为了实现对模式识别、信号处理等领域中数据的有效表达,提出了一种基于规范互信息和动态冗余信号识别技术的特征选择方法。该方法采用规范互信息对特征相关性和冗余性进行测量,并通过一种动态冗余信号识别技术在特征全集中进行冗余特征的筛选。分类实验结果表明所提特征选择方法性能优于典型的特征选择方法。 展开更多
关键词 特征选择 规范互信息 冗余信号识别 分类
在线阅读 下载PDF
基于MapReduce模型的大数据相似重复记录检测算法 被引量:41
2
作者 宋人杰 余通 +2 位作者 陈宇红 陈宇阳 夏滨 《上海交通大学学报》 EI CAS CSCD 北大核心 2018年第2期214-221,共8页
针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权... 针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性. 展开更多
关键词 云环境 大数据 相似重复记录 并行检测 冗余识别
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部