期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
一种高效的分布式FDR假阳性控制算法
1
作者 刘旭泽 王慧颖 +1 位作者 褚良宇 赵宇海 《东北大学学报(自然科学版)》 北大核心 2025年第5期37-45,共9页
为了解决大数据挖掘中多重假设检验导致的假阳性问题,以及控制伪发现率(false discovery rate,FDR)理论结果计算过程极其耗时的问题,针对理论FDR值的计算效率问题,提出了一种分布式假阳性控制算法DPFDR(distributed permutation testing... 为了解决大数据挖掘中多重假设检验导致的假阳性问题,以及控制伪发现率(false discovery rate,FDR)理论结果计算过程极其耗时的问题,针对理论FDR值的计算效率问题,提出了一种分布式假阳性控制算法DPFDR(distributed permutation testing-based false discovery rat, DPFDR).该算法首先基于条件频繁模式树(conditional frequent pattern tree,CFP)方法进行代表模式挖掘,利用代表模式对模式空间进行压缩.然后,根据代表模式对相应任务的工作量进行预估,按照工作量进行数据划分,并通过负载均衡策略将任务分配到各计算结点上.最后,通过合并、排序各结点的计算结果,获得有效的FDR假阳性控制阈值.真实数据集上的一系列实验结果表明,提出的DPFDR算法能极大提升FDR假阳性控制阈值的计算效率. 展开更多
关键词 假阳性 数据挖掘 分布式计算 伪发现率 显著性阈值
在线阅读 下载PDF
应用位置信息损失的Listwise排序学习方法的研究 被引量:3
2
作者 薛剑 吕立 +1 位作者 孙咏 王丹妮 《小型微型计算机系统》 CSCD 北大核心 2017年第1期20-23,共4页
排序学习是机器学习与信息检索相互结合的研究领域,它利用机器学习的方法自动调节参数、综合多种排序特征、同时可以避免过拟合,进而得到新的排序模型用于排序被检索的文档.在排序学习方法中,Listwise方法的排序效果相对较好,但是目前... 排序学习是机器学习与信息检索相互结合的研究领域,它利用机器学习的方法自动调节参数、综合多种排序特征、同时可以避免过拟合,进而得到新的排序模型用于排序被检索的文档.在排序学习方法中,Listwise方法的排序效果相对较好,但是目前已有的属于此类学习算法也有很多缺点:由于是基于列表所有的置换进行训练,时间复杂度太高;其损失函数并未充分利用极其重要的排序位置信息.本文基于此提出了新的学习算法,引入了位置信息损失因子,构建了新的损失函数,同时使用了效率更高的训练方法.最后在LETOR 4.0数据集上的实验结果表明,新学习算法的排序性能得到了较为明显的提升. 展开更多
关键词 信息检索 排序学习 Listwise 损失函数
在线阅读 下载PDF
一种自动读取指针式仪表读数的方法 被引量:20
3
作者 李巍 王鸥 +2 位作者 刚毅凝 周杨浩 郝跃冬 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第1期117-124,共8页
介绍一种基于机器学习和图像处理算法,针对自然场景中的指针仪表图片进行仪表检测和读数识别.首先,检测并提取出图像中恰好包含仪表的部分,再针对不同的图像中仪表存在大小的多尺度特点,使用图像金字塔方法对原图进行多次的缩小和放大操... 介绍一种基于机器学习和图像处理算法,针对自然场景中的指针仪表图片进行仪表检测和读数识别.首先,检测并提取出图像中恰好包含仪表的部分,再针对不同的图像中仪表存在大小的多尺度特点,使用图像金字塔方法对原图进行多次的缩小和放大操作.再使用固定大小的滑动窗口对缩放后的图像进行遍历,提取每个窗口图像HOG(Histogram of Oriented Gradient)特征,使用线性SVM(Support Vector Machine)分类器对窗口是否含有仪表进行判断.然后对检测得到的仪表图像,通过图像处理的方法进行图像预处理,减少阴影的干扰,获取梯度、边缘等信息,再结合改进的霍夫变换,结合仪表图像的灰度信息检测指针的位置,以计算指针的角度.最后,根据指针的角度以及量程信息,计算当前指针的读数.实验证明,该方法具有较好的稳定性与准确性. 展开更多
关键词 指针仪表 HOG特征 支持向量机 霍夫变换
在线阅读 下载PDF
应用语义相似的海量网页文本去重策略研究 被引量:2
4
作者 薛剑 吕立 +1 位作者 孙咏 王丹妮 《小型微型计算机系统》 CSCD 北大核心 2016年第6期1143-1147,共5页
互联网的高速发展使得信息的获取以及发布几乎变的无成本,因此不免会存在着大量的近似网页,这些网页之间仅仅只有少量的内容是不同的,但其要传递的信息主体却是一致的.而搜索引擎在从互联网上抓取数据时,必须能够准确的检测出近似网页... 互联网的高速发展使得信息的获取以及发布几乎变的无成本,因此不免会存在着大量的近似网页,这些网页之间仅仅只有少量的内容是不同的,但其要传递的信息主体却是一致的.而搜索引擎在从互联网上抓取数据时,必须能够准确的检测出近似网页并放弃抓取.主要针对中文网页,改进了提取中文文本内容特征及计算其权值的方法,同时结合词语之间的语义联系,提出利用特征之间的语义相似性生成网页指纹的方法.在大规模真实网页数据集上,利用分布式编程模型进行实验,近似网页检测的效果得到了明显的提升,更加适用于当今海量数据环境下. 展开更多
关键词 语义相似 近似检测 信息指纹 特征提取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部