期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
数据集划分及预处理方法对烟叶化学成分近红外定量模型的影响
1
作者 付博 杨永锋 +6 位作者 刘向真 牛洋洋 刘茂林 赵森森 于建军 彭桂新 姬小明 《河南农业大学学报》 北大核心 2025年第3期516-527,共12页
【目的】明确模型构建适宜的数据集划分方式、比例和数据预处理方法,为建立准确、稳定的烟叶化学成分分析模型奠定基础。【方法】以210份烟叶样本为研究对象,测量烟叶样品的总糖、还原糖、总氮、烟碱、钾和氯等常规化学成分含量,并采集... 【目的】明确模型构建适宜的数据集划分方式、比例和数据预处理方法,为建立准确、稳定的烟叶化学成分分析模型奠定基础。【方法】以210份烟叶样本为研究对象,测量烟叶样品的总糖、还原糖、总氮、烟碱、钾和氯等常规化学成分含量,并采集烟叶样本的光谱数据,研究随机划分法(RS)、等间隔划分法(LS)、基于联合x-y距离的样本集划分法(SPXY)和Kennard-Stone划分法(KS),以及光谱数据预处理和组合方式对烟叶常规化学成分偏最小二乘(PLS)定量模型预测精度的影响。【结果】数据集通过SPXY方式划分的校正集和预测集分布更均匀,预测集比例为24%时,构建的模型预测能力更强。烟叶总糖和氯离子定量模型最佳预处理组合为多元散射校正(MSC)+移动平均平滑(MA)+小波变换(WAVE),构建的定量模型预测集相关系数(r_(p))分别为0.984 0和0.986 0;还原糖和烟碱定量模型最佳预处理组合为极差归一化(MAXMIN)+MSC+WAVE,r_(p)分别为0.990 0和0.985 2;钾离子预处理组合为MSC+WAVE(r_(p)=0.969 4),总氮则以原始光谱数据构建的模型预测能力最强(r_(p)=0.970 9)。【结论】烟叶常规化学成分近红外定量模型经过数据集划分和预处理优化后,提高了模型准确率。 展开更多
关键词 烟叶 近红外光谱 数据集划分 数据预处理 定量模型
在线阅读 下载PDF
基于时序数据集划分和时序交叉验证优化燃煤锅炉NO_(x)建模 被引量:1
2
作者 屈可扬 程静 +1 位作者 甘云华 陈东升 《中南大学学报(自然科学版)》 CSCD 北大核心 2024年第12期4665-4674,共10页
针对氮氧化物NO_(x)生成量进行机器学习建模。因燃煤锅炉系统具有时序特性,为了克服常规机器学习流程中随机数据集划分方式对时序数据集划分产生的测试数据泄露问题,提出使用时序数据集划分和时序交叉验证方法对燃煤锅炉NO_(x)建模进行... 针对氮氧化物NO_(x)生成量进行机器学习建模。因燃煤锅炉系统具有时序特性,为了克服常规机器学习流程中随机数据集划分方式对时序数据集划分产生的测试数据泄露问题,提出使用时序数据集划分和时序交叉验证方法对燃煤锅炉NO_(x)建模进行优化。使用基于贝叶斯方法的超参数优化算法,对模型的超参数进行搜索和优化。当使用时序交叉验证评价作为超参数优化的目标函数时,每组超参数评估的总耗时最高减少94.19%。在实际应用中,时序划分方式得到的模型平均绝对值误差比随机方式得到的模型平均绝对值误差更低,支持向量机、多层感知器和弹性网络回归模型平均绝对值误差分别减少18.49%、1.57%、0.73%。相比于随机划分方式,时序划分方式的预期精度与模型实际精度之间的误差更小,预期均方根误差与实际均方根误差间的相对误差最大减少235.32%,时序划分方式能够更准确地得出模型NO_(x)生成量的实际精度。 展开更多
关键词 电站锅炉 NO_(x)生成量 时序数据集划分 时序交叉验证 贝叶斯超参数优化
在线阅读 下载PDF
一种高效的数据集划分关联规则挖掘算法 被引量:1
3
作者 孙雁 田忠和 王泉德 《计算机工程》 CAS CSCD 北大核心 2002年第12期118-120,共3页
设计了一种新的数据集划分关联规则挖掘算法,并对该算法的挖掘效率进行了测试,分析了影响DPARM算法挖掘效率的主要因素。
关键词 数据集划分 关联规则 数据 数据处理 概念层次 数据挖掘算法 数据
在线阅读 下载PDF
MapReduce上基于抽样的数据划分最优化研究 被引量:13
4
作者 韩蕾 孙徐湛 +1 位作者 吴志川 陈立军 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期77-84,共8页
MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方法发挥最大程度的效益,研究了抽样效果与其重要... MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方法发挥最大程度的效益,研究了抽样效果与其重要影响因素之间的定量关系,并给出了相关理论及其证明推导,同时通过实验进一步验证了理论的正确性.基于研究的结果,可以在给定MapReduce环境中,通过分析数据特征,找到最优抽样样本规模,从而通过尽可能小的抽样代价来得到满足要求的数据划分.通过将研究成果应用在改进的Terasort算法上,以实例验证了其在MapRedece平台上的实际意义. 展开更多
关键词 抽样 MAPREDUCE框架 数据倾斜 负载平衡 数据集划分
在线阅读 下载PDF
自动迭代聚类数据集训练的虚假信息识别方法 被引量:9
5
作者 张均胜 孙晓平 刘志辉 《情报学报》 CSSCI CSCD 北大核心 2023年第1期59-73,共15页
随着互联网虚假信息日益泛滥,自动识别虚假信息成为互联网信息治理的迫切需求。互联网上虚假信息伴随新事件不断产生,导致识别虚假信息的有监督统计机器学习模型需要不断更新迭代。每次迭代更新都需要构建新的训练集,以便新的虚假信息... 随着互联网虚假信息日益泛滥,自动识别虚假信息成为互联网信息治理的迫切需求。互联网上虚假信息伴随新事件不断产生,导致识别虚假信息的有监督统计机器学习模型需要不断更新迭代。每次迭代更新都需要构建新的训练集,以便新的虚假信息能在训练集中得以体现。为此,本研究提出一种动态迭代更新训练集构筑机器学习模型的虚假信息识别方法,设计基于核密度估计的迭代聚类方法对虚假信息数据集进行迭代聚类。在每一个自动得到的聚类中,按比例分别选取训练集样本和测试集样本构造分类器的训练样本集和测试样本集,使新产生事件的样本能够在训练集中得到体现。研究结果显示,基于核密度估计的迭代聚类方法划分数据集训练得到的虚假信息分类器,与随机划分数据集策略相比,能够显著提升虚假信息分类准确度。 展开更多
关键词 聚类 核密度估计 数据集划分 虚假信息 识别
在线阅读 下载PDF
基于Gaussian混合的距离度量学习数据划分方法 被引量:1
6
作者 郑德重 杨媛媛 +2 位作者 谢哲 倪扬帆 李文涛 《上海交通大学学报》 EI CAS CSCD 北大核心 2021年第2期131-140,共10页
针对有限样本情况下,多次训练模型时容易出现不稳定和偏差问题,提出一种基于Gaussian混合的距离度量学习数据划分方法,通过更合理地划分数据集来解决该问题.距离度量学习依靠深度神经网络优异的特征提取能力,将原始数据提取的特征嵌入... 针对有限样本情况下,多次训练模型时容易出现不稳定和偏差问题,提出一种基于Gaussian混合的距离度量学习数据划分方法,通过更合理地划分数据集来解决该问题.距离度量学习依靠深度神经网络优异的特征提取能力,将原始数据提取的特征嵌入到新的度量空间中;然后,在该新的度量空间中基于深层次特征使用Gaussian混合模型进行聚类分析和样本分布估计;最后,依据样本分布特点进行分层采样对数据进行合理划分.研究表明,该方法可以更好地理解数据分布的特点,获得更加合理的数据划分,进而提升模型的准确性和泛化性. 展开更多
关键词 人工智能训练 数据集划分 深度神经网络 Gaussian混合模型
在线阅读 下载PDF
基于数据筛选的硬盘剩余使用寿命预测方法 被引量:4
7
作者 邓玲 陕振 马连志 《计算机工程与设计》 北大核心 2020年第8期2252-2258,共7页
为提高硬盘剩余使用寿命预测器的精度,提出一种基于smart数据筛选和随机森林预测器进行剩余使用寿命预测的方法。提出基于硬盘使用寿命长短进行数据集分割的策略,有效提升预测精度;在此基础上,在硬盘临近失效状态时,利用相似度度量待预... 为提高硬盘剩余使用寿命预测器的精度,提出一种基于smart数据筛选和随机森林预测器进行剩余使用寿命预测的方法。提出基于硬盘使用寿命长短进行数据集分割的策略,有效提升预测精度;在此基础上,在硬盘临近失效状态时,利用相似度度量待预测硬盘与训练集硬盘状态的相似性,选择相似度高的硬盘构成新的训练集,提高预测器在硬盘临近失效时的精度。利用BACKBLAZE提供的数据集验证,相比简单的运用随机森林预测器,进行数据集分割和训练集筛选的预测器具有更高的精度。 展开更多
关键词 存储系统 硬盘 剩余使用寿命 随机森林 数据集划分 训练筛选
在线阅读 下载PDF
面向网络监测预警的海量知识存储研究 被引量:6
8
作者 饶志宏 刘杰 陈剑锋 《计算机工程》 CAS CSCD 北大核心 2018年第3期138-143,共6页
海量知识的高效管理是网络监测预警发挥效能的前提。为此,提出一种基于图数据库的大规模资源描述框架(RDF)数据存储方法。根据RDF数据的图模型特征,基于启发式的贪婪策略对数据集进行分割,包括子图生成阶段和子图划分阶段,同时采用热点... 海量知识的高效管理是网络监测预警发挥效能的前提。为此,提出一种基于图数据库的大规模资源描述框架(RDF)数据存储方法。根据RDF数据的图模型特征,基于启发式的贪婪策略对数据集进行分割,包括子图生成阶段和子图划分阶段,同时采用热点数据动态复制删除的方式实现动态数据流的负载均衡。在3个不同数据集上的对比实验表明,该方法的存储性能优于基于关系型数据库的方法。 展开更多
关键词 网络监测预警 数据 资源描述框架数据存储 数据集划分 负载均衡
在线阅读 下载PDF
基于潜在主题的分布式视觉检索模型 被引量:1
9
作者 陈宜明 段凌宇 +3 位作者 黄艳 李冰 林杰 黄铁军 《计算机工程》 CAS CSCD 2012年第24期146-151,共6页
为将文档聚类划分的分布式检索方法直接应用于视觉检索领域,提出一种基于潜在主题的分布式视觉检索模型。给出模型框架,包括图像视觉单词的数据集划分方法和图像子集选择方法,以此优化图像分布式检索性能。实验结果表明,该模型在不降低... 为将文档聚类划分的分布式检索方法直接应用于视觉检索领域,提出一种基于潜在主题的分布式视觉检索模型。给出模型框架,包括图像视觉单词的数据集划分方法和图像子集选择方法,以此优化图像分布式检索性能。实验结果表明,该模型在不降低检索准确率的前提下,能优先选择少量的图像子集进行检索,并提高查询的吞吐量。 展开更多
关键词 分布式检索 视觉检索 词袋模型 图像数据集划分 图像数据选择 潜在主题
在线阅读 下载PDF
玉米籽粒蛋白光谱预处理方法比较研究 被引量:4
10
作者 孙晶京 杨武德 +1 位作者 冯美臣 肖璐洁 《农业技术与装备》 2020年第7期10-12,共3页
近红外光谱数据的预处理是特征提取和分析模型建立的基础,在获取真实光谱数据和获得可靠结果方面起着重要作用。文章基于玉米籽粒光谱数据,比较了S-G平滑、S-G一阶和二阶导数、MSC、SNV和去趋势法等不同预处理方法的特点,探讨了各预处... 近红外光谱数据的预处理是特征提取和分析模型建立的基础,在获取真实光谱数据和获得可靠结果方面起着重要作用。文章基于玉米籽粒光谱数据,比较了S-G平滑、S-G一阶和二阶导数、MSC、SNV和去趋势法等不同预处理方法的特点,探讨了各预处理技术对数据集划分的影响。结果表明:对样本数据集的划分应在预处理之后进行,不同预处理方法的最佳数据集划分差异较大。因此,在光谱建模时,应合理选择光谱预处理方法及数据集划分比例。 展开更多
关键词 预处理 近红外光谱 玉米籽粒蛋白 数据集划分
在线阅读 下载PDF
以离子液体密度为例的分子性质预测模型建模方法探讨
11
作者 陈家辉 杨鑫泽 +2 位作者 陈顾中 宋震 漆志文 《化工学报》 EI CSCD 北大核心 2023年第2期630-641,共12页
分子性质预测模型是针对特定应用需求筛选设计化学品的有力工具,然而诸多相关建模过程中的测试集划分、交叉验证、算法选择等关键环节普遍存在严谨性不足的问题,模型真实预测性能难以保证。以基团贡献法预测离子液体密度为例,探讨了分... 分子性质预测模型是针对特定应用需求筛选设计化学品的有力工具,然而诸多相关建模过程中的测试集划分、交叉验证、算法选择等关键环节普遍存在严谨性不足的问题,模型真实预测性能难以保证。以基团贡献法预测离子液体密度为例,探讨了分子性质预测模型建模过程中数据集划分和交叉验证的重要性,提出了自动基团划分方法并研究了数据集中基团涉及分子个数对预测精度的影响。通过对比五种回归算法(多重线性回归、岭回归、随机森林、支持向量机、神经网络),基于岭回归的基团贡献模型预测性能最佳,在由1078种离子液体、共计23034个数据点组成的数据集上得到的平均相对误差为1.88%。 展开更多
关键词 分子性质预测 模型 数据集划分 交叉验证 算法 离子液体 密度
在线阅读 下载PDF
等效水厚度梯度的玉米叶片氮素反演模型研究 被引量:1
12
作者 王希 陈桂芬 +1 位作者 曹丽英 马丽 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2022年第9期2913-2918,共6页
针对玉米生产中叶片氮素快速、无损检测的实际需求,使用叶级高光谱数据(400~2500 nm),依据等效水厚度梯度划分叶片样本,建立了梯度连续的叶片氮素反演模型,初步探索了含水量因素对叶片反射率特性及反演模型精度的影响。首先获取叶级高... 针对玉米生产中叶片氮素快速、无损检测的实际需求,使用叶级高光谱数据(400~2500 nm),依据等效水厚度梯度划分叶片样本,建立了梯度连续的叶片氮素反演模型,初步探索了含水量因素对叶片反射率特性及反演模型精度的影响。首先获取叶级高光谱数据,再根据等效水厚度数值大小对样本进行排序及滑动划分,建立了子集集合。父集除原光谱数据之外还采用了三大类:(1)基线矫正类、(2)散射校正类和(3)平滑处理类光谱变换方法,而子集未使用任何光谱变换方法。建立全波段的PLSR反演模型,对比模型精度,初步定量评价了等效水厚度因素对建模精度的影响。研究结果表明:(1)四组数据中有三组父集反演精度低于最优子集的反演精度,另外一组持平(2018大田低氮:(父)R^(2)_(CV)=0.48<(子)R^(2)_(CV)=0.57,(父)RPD_(CV)=1.38<(子)RPD_(CV)=1.52;2018大田高氮:(父)R^(2)_(CV)=0.48<(子)R^(2)_(CV)=0.7,(父)RPD_(CV)=1.39<(子)RPD_(CV)=1.8;2019大田高氮:(父)R^(2)_(CV)=0.59<(子)R^(2)_(CV)=0.68,(父)RPD_(CV)=1.57<(子)RPD_(CV)=1.77);(2)四组数据的最优子集反演精度都达到甚至超过了定性模型水平,而父集只有两组;(3)制作反演数据集时在样本筛选问题上需要考虑等效水厚度因素,以避免过于宽泛的样本选择而导致整体反演精度的损失。综上,等效水厚度因素对玉米叶片氮素建模精度存在显著影响,不可忽视。在考虑该因素后,使用叶级高光谱数据对玉米叶片氮素进行快速无损检测的技术方法会更加可信、可行。 展开更多
关键词 叶片氮浓度 等效水厚度 高光谱 光谱变换技术 PLSR 数据滑动划分
在线阅读 下载PDF
一种快速渐进式卷积神经网络结构搜索算法 被引量:2
13
作者 赵亮 方伟 《计算机工程》 CAS CSCD 北大核心 2022年第12期134-139,149,共7页
手动设计卷积神经网络结构对专业性要求高、难度大。基于梯度可微的搜索快速高效,但这类方法存在深度鸿沟和稳定性较差的问题。提出一种结合渐进式搜索和贪心指标的快速渐进式结构搜索算法(FPNAS),通过渐进式扩展搜索阶段的结构,使得搜... 手动设计卷积神经网络结构对专业性要求高、难度大。基于梯度可微的搜索快速高效,但这类方法存在深度鸿沟和稳定性较差的问题。提出一种结合渐进式搜索和贪心指标的快速渐进式结构搜索算法(FPNAS),通过渐进式扩展搜索阶段的结构,使得搜索阶段的网络结构逐渐接近评估阶段,避免深度鸿沟造成的影响。同时,通过运用贪心指标作为选边准则,增加搜索评估的相关性并提高搜索的稳定性。针对网络结构搜索算法消耗计算资源多的问题,提出渐进式划分数据集方法,通过分阶段不同比例的数据集划分来减少结构搜索的计算资源消耗。以准确率和搜索时间作为评价指标,将FPNAS与渐进式可微结构搜索算法和贪心搜索算法进行对比,实验结果表明,FPNAS搜索出的网络结构稳定性得到改进,搜索时间分别缩短0.19和0.14个GPU Days,在CIFAR-10数据集上精度最高达到97.7%。 展开更多
关键词 深度学习 卷积神经网络 可微结构搜索 渐进式结构搜索 划分数据方法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部