期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种高效的分布式FDR假阳性控制算法
1
作者
刘旭泽
王慧颖
+1 位作者
褚良宇
赵宇海
《东北大学学报(自然科学版)》
北大核心
2025年第5期37-45,共9页
为了解决大数据挖掘中多重假设检验导致的假阳性问题,以及控制伪发现率(false discovery rate,FDR)理论结果计算过程极其耗时的问题,针对理论FDR值的计算效率问题,提出了一种分布式假阳性控制算法DPFDR(distributed permutation testing...
为了解决大数据挖掘中多重假设检验导致的假阳性问题,以及控制伪发现率(false discovery rate,FDR)理论结果计算过程极其耗时的问题,针对理论FDR值的计算效率问题,提出了一种分布式假阳性控制算法DPFDR(distributed permutation testing-based false discovery rat, DPFDR).该算法首先基于条件频繁模式树(conditional frequent pattern tree,CFP)方法进行代表模式挖掘,利用代表模式对模式空间进行压缩.然后,根据代表模式对相应任务的工作量进行预估,按照工作量进行数据划分,并通过负载均衡策略将任务分配到各计算结点上.最后,通过合并、排序各结点的计算结果,获得有效的FDR假阳性控制阈值.真实数据集上的一系列实验结果表明,提出的DPFDR算法能极大提升FDR假阳性控制阈值的计算效率.
展开更多
关键词
假阳性
数据挖掘
分布式计算
伪发现率
显著性阈值
在线阅读
下载PDF
职称材料
应用位置信息损失的Listwise排序学习方法的研究
被引量:
3
2
作者
薛剑
吕立
+1 位作者
孙咏
王丹妮
《小型微型计算机系统》
CSCD
北大核心
2017年第1期20-23,共4页
排序学习是机器学习与信息检索相互结合的研究领域,它利用机器学习的方法自动调节参数、综合多种排序特征、同时可以避免过拟合,进而得到新的排序模型用于排序被检索的文档.在排序学习方法中,Listwise方法的排序效果相对较好,但是目前...
排序学习是机器学习与信息检索相互结合的研究领域,它利用机器学习的方法自动调节参数、综合多种排序特征、同时可以避免过拟合,进而得到新的排序模型用于排序被检索的文档.在排序学习方法中,Listwise方法的排序效果相对较好,但是目前已有的属于此类学习算法也有很多缺点:由于是基于列表所有的置换进行训练,时间复杂度太高;其损失函数并未充分利用极其重要的排序位置信息.本文基于此提出了新的学习算法,引入了位置信息损失因子,构建了新的损失函数,同时使用了效率更高的训练方法.最后在LETOR 4.0数据集上的实验结果表明,新学习算法的排序性能得到了较为明显的提升.
展开更多
关键词
信息检索
排序学习
Listwise
损失函数
在线阅读
下载PDF
职称材料
一种自动读取指针式仪表读数的方法
被引量:
20
3
作者
李巍
王鸥
+2 位作者
刚毅凝
周杨浩
郝跃冬
《南京大学学报(自然科学版)》
CAS
CSCD
北大核心
2019年第1期117-124,共8页
介绍一种基于机器学习和图像处理算法,针对自然场景中的指针仪表图片进行仪表检测和读数识别.首先,检测并提取出图像中恰好包含仪表的部分,再针对不同的图像中仪表存在大小的多尺度特点,使用图像金字塔方法对原图进行多次的缩小和放大操...
介绍一种基于机器学习和图像处理算法,针对自然场景中的指针仪表图片进行仪表检测和读数识别.首先,检测并提取出图像中恰好包含仪表的部分,再针对不同的图像中仪表存在大小的多尺度特点,使用图像金字塔方法对原图进行多次的缩小和放大操作.再使用固定大小的滑动窗口对缩放后的图像进行遍历,提取每个窗口图像HOG(Histogram of Oriented Gradient)特征,使用线性SVM(Support Vector Machine)分类器对窗口是否含有仪表进行判断.然后对检测得到的仪表图像,通过图像处理的方法进行图像预处理,减少阴影的干扰,获取梯度、边缘等信息,再结合改进的霍夫变换,结合仪表图像的灰度信息检测指针的位置,以计算指针的角度.最后,根据指针的角度以及量程信息,计算当前指针的读数.实验证明,该方法具有较好的稳定性与准确性.
展开更多
关键词
指针仪表
HOG特征
支持向量机
霍夫变换
在线阅读
下载PDF
职称材料
应用语义相似的海量网页文本去重策略研究
被引量:
2
4
作者
薛剑
吕立
+1 位作者
孙咏
王丹妮
《小型微型计算机系统》
CSCD
北大核心
2016年第6期1143-1147,共5页
互联网的高速发展使得信息的获取以及发布几乎变的无成本,因此不免会存在着大量的近似网页,这些网页之间仅仅只有少量的内容是不同的,但其要传递的信息主体却是一致的.而搜索引擎在从互联网上抓取数据时,必须能够准确的检测出近似网页...
互联网的高速发展使得信息的获取以及发布几乎变的无成本,因此不免会存在着大量的近似网页,这些网页之间仅仅只有少量的内容是不同的,但其要传递的信息主体却是一致的.而搜索引擎在从互联网上抓取数据时,必须能够准确的检测出近似网页并放弃抓取.主要针对中文网页,改进了提取中文文本内容特征及计算其权值的方法,同时结合词语之间的语义联系,提出利用特征之间的语义相似性生成网页指纹的方法.在大规模真实网页数据集上,利用分布式编程模型进行实验,近似网页检测的效果得到了明显的提升,更加适用于当今海量数据环境下.
展开更多
关键词
语义相似
近似检测
信息指纹
特征提取
在线阅读
下载PDF
职称材料
题名
一种高效的分布式FDR假阳性控制算法
1
作者
刘旭泽
王慧颖
褚良宇
赵宇海
机构
东北大学计算机科学与工程学院
国家电网辽宁省电力有限公司信息通信分公司
东北大学医学与生物
信息
工程学院
出处
《东北大学学报(自然科学版)》
北大核心
2025年第5期37-45,共9页
基金
国家自然科学基金资助项目(62432003)。
文摘
为了解决大数据挖掘中多重假设检验导致的假阳性问题,以及控制伪发现率(false discovery rate,FDR)理论结果计算过程极其耗时的问题,针对理论FDR值的计算效率问题,提出了一种分布式假阳性控制算法DPFDR(distributed permutation testing-based false discovery rat, DPFDR).该算法首先基于条件频繁模式树(conditional frequent pattern tree,CFP)方法进行代表模式挖掘,利用代表模式对模式空间进行压缩.然后,根据代表模式对相应任务的工作量进行预估,按照工作量进行数据划分,并通过负载均衡策略将任务分配到各计算结点上.最后,通过合并、排序各结点的计算结果,获得有效的FDR假阳性控制阈值.真实数据集上的一系列实验结果表明,提出的DPFDR算法能极大提升FDR假阳性控制阈值的计算效率.
关键词
假阳性
数据挖掘
分布式计算
伪发现率
显著性阈值
Keywords
false positive
data mining
distributed computing
false discovery rate
significance threshold
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
应用位置信息损失的Listwise排序学习方法的研究
被引量:
3
2
作者
薛剑
吕立
孙咏
王丹妮
机构
中国科学院大学
中国科学院沈阳计算技术研究所
国家电网辽宁省电力有限公司信息通信分公司
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第1期20-23,共4页
文摘
排序学习是机器学习与信息检索相互结合的研究领域,它利用机器学习的方法自动调节参数、综合多种排序特征、同时可以避免过拟合,进而得到新的排序模型用于排序被检索的文档.在排序学习方法中,Listwise方法的排序效果相对较好,但是目前已有的属于此类学习算法也有很多缺点:由于是基于列表所有的置换进行训练,时间复杂度太高;其损失函数并未充分利用极其重要的排序位置信息.本文基于此提出了新的学习算法,引入了位置信息损失因子,构建了新的损失函数,同时使用了效率更高的训练方法.最后在LETOR 4.0数据集上的实验结果表明,新学习算法的排序性能得到了较为明显的提升.
关键词
信息检索
排序学习
Listwise
损失函数
Keywords
Information retrieval
learning to, rank
Listwise
loss function
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种自动读取指针式仪表读数的方法
被引量:
20
3
作者
李巍
王鸥
刚毅凝
周杨浩
郝跃冬
机构
国家电网辽宁省电力有限公司信息通信分公司
南京大学软件新技术
国家
重点实验室
南瑞集团
有限公司
(
国家电网
电力
科学研究院
有限公司
)
出处
《南京大学学报(自然科学版)》
CAS
CSCD
北大核心
2019年第1期117-124,共8页
基金
国家电网公司科技项目(SGLNXT00DKJS1700166)
文摘
介绍一种基于机器学习和图像处理算法,针对自然场景中的指针仪表图片进行仪表检测和读数识别.首先,检测并提取出图像中恰好包含仪表的部分,再针对不同的图像中仪表存在大小的多尺度特点,使用图像金字塔方法对原图进行多次的缩小和放大操作.再使用固定大小的滑动窗口对缩放后的图像进行遍历,提取每个窗口图像HOG(Histogram of Oriented Gradient)特征,使用线性SVM(Support Vector Machine)分类器对窗口是否含有仪表进行判断.然后对检测得到的仪表图像,通过图像处理的方法进行图像预处理,减少阴影的干扰,获取梯度、边缘等信息,再结合改进的霍夫变换,结合仪表图像的灰度信息检测指针的位置,以计算指针的角度.最后,根据指针的角度以及量程信息,计算当前指针的读数.实验证明,该方法具有较好的稳定性与准确性.
关键词
指针仪表
HOG特征
支持向量机
霍夫变换
Keywords
pointer meter
HOG
SVM
Hough transform
分类号
TP319.4 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
应用语义相似的海量网页文本去重策略研究
被引量:
2
4
作者
薛剑
吕立
孙咏
王丹妮
机构
中国科学院大学
中国科学院沈阳计算技术研究所
国家电网辽宁省电力有限公司信息通信分公司
出处
《小型微型计算机系统》
CSCD
北大核心
2016年第6期1143-1147,共5页
基金
安徽大学青年科研基金项目(KJQN1118)资助
文摘
互联网的高速发展使得信息的获取以及发布几乎变的无成本,因此不免会存在着大量的近似网页,这些网页之间仅仅只有少量的内容是不同的,但其要传递的信息主体却是一致的.而搜索引擎在从互联网上抓取数据时,必须能够准确的检测出近似网页并放弃抓取.主要针对中文网页,改进了提取中文文本内容特征及计算其权值的方法,同时结合词语之间的语义联系,提出利用特征之间的语义相似性生成网页指纹的方法.在大规模真实网页数据集上,利用分布式编程模型进行实验,近似网页检测的效果得到了明显的提升,更加适用于当今海量数据环境下.
关键词
语义相似
近似检测
信息指纹
特征提取
Keywords
semantic similarity
near-duplicate detection
information fingerprint
feature extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种高效的分布式FDR假阳性控制算法
刘旭泽
王慧颖
褚良宇
赵宇海
《东北大学学报(自然科学版)》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
应用位置信息损失的Listwise排序学习方法的研究
薛剑
吕立
孙咏
王丹妮
《小型微型计算机系统》
CSCD
北大核心
2017
3
在线阅读
下载PDF
职称材料
3
一种自动读取指针式仪表读数的方法
李巍
王鸥
刚毅凝
周杨浩
郝跃冬
《南京大学学报(自然科学版)》
CAS
CSCD
北大核心
2019
20
在线阅读
下载PDF
职称材料
4
应用语义相似的海量网页文本去重策略研究
薛剑
吕立
孙咏
王丹妮
《小型微型计算机系统》
CSCD
北大核心
2016
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部