期刊文献+
共找到164篇文章
< 1 2 9 >
每页显示 20 50 100
基于SMOTE策略的数据不完整时滑坡易发性评价
1
作者 孟金浩 孙奔博 +1 位作者 王娟 黄承芳 《人民黄河》 北大核心 2025年第7期50-58,共9页
滑坡易发性评价是地质灾害防治的重要基础,但滑坡样本数据常存在缺失或不完整的情况,导致机器学习模型难以进行准确可靠的易发性建模。基于随机森林(RF)和人工神经网络(ANN)模型,探讨了不同缺失比例(10%~50%)和区域性缺失条件下,滑坡易... 滑坡易发性评价是地质灾害防治的重要基础,但滑坡样本数据常存在缺失或不完整的情况,导致机器学习模型难以进行准确可靠的易发性建模。基于随机森林(RF)和人工神经网络(ANN)模型,探讨了不同缺失比例(10%~50%)和区域性缺失条件下,滑坡易发性评价结果的精度变化及易发性分区特征。通过合成少数过采样技术(SMOTE)扩充样本后,进行预测结果对比分析来验证样本扩充的有效性。结果表明:随着样本缺失比例的增大,模型精度逐渐下降,但下降幅度有限,RF与ANN模型在较高等级以上易发区的预测面积最大分别缩小7.0%与5.5%;区域性缺失条件下,精度差异较大,RF与ANN模型在较高等级以上易发区的预测面积最大分别缩小11.1%与11.2%。扩充样本后,精度随扩充比例的增大略有下降。当扩充50%样本时,RF与ANN模型在较高易发区预测面积分别缩小14.0%与19.5%。基于SMOTE策略生成的滑坡样本可用于滑坡数据缺失地区易发性评价建模。 展开更多
关键词 滑坡易发性 不完整滑坡数据 随机森林 神经网络 合成少数过采样 黄河上游
在线阅读 下载PDF
基于多阶近邻约束的深度不完整多视图聚类方法
2
作者 王梅 王伟东 +1 位作者 刘勇 于源泽 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期53-64,共12页
多视图聚类是重要的无监督学习方法之一,然而在实际应用中很难获取完整的多视图数据,导致不完整多视图聚类问题.大多数已有的不完整多视图聚类方法只考虑了视图的属性信息,而忽视了数据结构信息对聚类的影响,使提取的特征不能充分表示... 多视图聚类是重要的无监督学习方法之一,然而在实际应用中很难获取完整的多视图数据,导致不完整多视图聚类问题.大多数已有的不完整多视图聚类方法只考虑了视图的属性信息,而忽视了数据结构信息对聚类的影响,使提取的特征不能充分表示原始数据的潜在结构.针对以上问题,提出一种基于多阶近邻约束的深度不完整多视图聚类方法.首先,利用具有自注意力机制的深度自编码器获取带有视图间信息交互的深层次隐含特征,并采用加权融合的方式获取视图的公共语义信息;然后,对于不完整多视图中的缺失数据,利用多视图的公共表示进行补全;最后,提出一种多阶近邻约束机制,该机制考虑不完整多视图数据的深层结构信息,利用多视图的互补性构建近似完整的近邻图,引导编码器学习更紧致、更有判别性的高级语义特征.在公共数据集上的实验结果证明了所提方法的有效性. 展开更多
关键词 不完整多视图聚类 自注意力 结构信息 多阶近邻
在线阅读 下载PDF
利用混合Plackett-Luce模型的不完整序数偏好预测
3
作者 郑升旻 付晓东 《计算机应用》 CSCD 北大核心 2024年第10期3105-3113,共9页
聚合不同用户的偏好时,基于序数偏好可以解决不同用户评价准则不一致问题。但用户因为候选项目过多、沟通成本高等原因不能提供完整序数偏好,影响了在线服务信誉度量、群体决策等场景中聚合结果的可靠性和准确性,而现有的预测方法未充... 聚合不同用户的偏好时,基于序数偏好可以解决不同用户评价准则不一致问题。但用户因为候选项目过多、沟通成本高等原因不能提供完整序数偏好,影响了在线服务信誉度量、群体决策等场景中聚合结果的可靠性和准确性,而现有的预测方法未充分考虑用户群体偏好分布的多样性。针对这一问题,提出一种利用混合Plackett-Luce(PL)模型的不完整序数偏好预测(MixPLPP)方法。首先基于用户现有偏好采样完整拓展排序,其次使用采样的完整排序学习混合PL模型,再次设计基于后验概率最大化的模型选择策略为用户选择模型,最后利用所选模型预测用户完整偏好。在公开数据集Movielens上的实验结果表明,所提方法的预测准确率和Kendall秩相关系数(Kendall CC),相较于向量相似度排序(VSRank)算法提升了5.0%和9.2%;相较于基于确定性的偏好补全(CPC)提升了1.5%和3.5%;相较于BayesMallows-4提升了0.9%和2.2%。实验结果验证了所提方法具有良好的预测能力,在多个数据集上的预测效果都更好。 展开更多
关键词 不完整序数偏好 偏好预测 成对比较 排序模型 混合Plackett-Luce模型
在线阅读 下载PDF
基于自表示和投影映射的不完整多视图聚类 被引量:1
4
作者 赵翠娜 杨有龙 《吉林大学学报(理学版)》 CAS 北大核心 2024年第2期331-338,共8页
针对不完整多视图聚类存在的缺陷,提出一种融合自表示和投影映射的统一框架.首先,利用自表示和样本存在指示矩阵学习一致相似图,它反映了样本间的公共相似关系;其次,利用投影映射将样本矩阵投影到超球面上,得到公共低维表示;最后,将两... 针对不完整多视图聚类存在的缺陷,提出一种融合自表示和投影映射的统一框架.首先,利用自表示和样本存在指示矩阵学习一致相似图,它反映了样本间的公共相似关系;其次,利用投影映射将样本矩阵投影到超球面上,得到公共低维表示;最后,将两者通过谱表示嵌入在一起,解决了因多视图数据缺失引起的不完整多视图聚类问题.该算法在真实数据集上的实验结果优于其他算法,证明了算法的有效性. 展开更多
关键词 多视图聚类 不完整视图 自表示学习 投影映射
在线阅读 下载PDF
基于不完整井非稳定运动的立井井筒涌水量预测研究 被引量:1
5
作者 邓启锐 高建峰 +4 位作者 刘飞 徐士哲 许珂 王杰 南忠辉 《煤炭工程》 北大核心 2024年第8期172-176,共5页
针对立井掘进期间采用“大井法”预测井筒涌水量与实际情况相差较大的问题,以黄蒿界煤矿回风立井为研究对象,分析了勘探时期“大井法”井筒涌水量预测结果产生偏差的原因,结合延安组含水层实际水文地质条件,选取与其相适应的地下水向承... 针对立井掘进期间采用“大井法”预测井筒涌水量与实际情况相差较大的问题,以黄蒿界煤矿回风立井为研究对象,分析了勘探时期“大井法”井筒涌水量预测结果产生偏差的原因,结合延安组含水层实际水文地质条件,选取与其相适应的地下水向承压水不完整井非稳定运动的公式对立井涌水量进行了预测,预测结果表明,初期井筒涌水量较大,为131.98 m^(3)/h,但衰减较快,1 d内可衰减61%,至51.66 m^(3)/h,之后涌水量衰减较慢,趋于稳定,井筒涌水量预测结果与黄蒿界煤矿实际井筒疏降水量较为接近,说明该方法预测精度相比“大井法”更高。 展开更多
关键词 不完整 非稳定运动 井筒涌水量 大井法
在线阅读 下载PDF
基于相关性分析的不完整数据函数依赖挖掘方法
6
作者 尹诗宁 张安珍 夏秀峰 《计算机应用研究》 CSCD 北大核心 2024年第5期1368-1373,共6页
函数依赖(FD)挖掘方法通常专注于发现所有满足函数依赖语法特征的结果,在数据不完整的情况下常导致大量成立但无意义的FD。针对挖掘无效FD的问题,提出基于相关性分析的不完整数据FD挖掘方法。利用概率图模型构建具有缺失值属性的概率分... 函数依赖(FD)挖掘方法通常专注于发现所有满足函数依赖语法特征的结果,在数据不完整的情况下常导致大量成立但无意义的FD。针对挖掘无效FD的问题,提出基于相关性分析的不完整数据FD挖掘方法。利用概率图模型构建具有缺失值属性的概率分布,通过相关性分析捕捉属性之间的关联关系,避免枚举所有可能性,以挖掘具有统计学意义的FD。实验结果表明,该方法可以更准确地定位到有意义的FD,与最先进的FD发现方法相比,F_(1)分数平均提高1.5倍。 展开更多
关键词 函数依赖 相关性分析 不完整数据
在线阅读 下载PDF
不完整大数据的分布式聚类填充算法 被引量:16
7
作者 冷泳林 陈志奎 +1 位作者 张清辰 鲁富宇 《计算机工程》 CAS CSCD 北大核心 2015年第5期19-25,共7页
传统大数据填充算法是根据整个数据集对缺失数据进行填充,使得填充值容易受到不同类别数据的干扰,导致填充结果不精确。针对该问题,给出不完整数据的相似度度量方法,使用近邻传播(AP)算法对不完整数据进行聚类。采用云计算技术优化AP聚... 传统大数据填充算法是根据整个数据集对缺失数据进行填充,使得填充值容易受到不同类别数据的干扰,导致填充结果不精确。针对该问题,给出不完整数据的相似度度量方法,使用近邻传播(AP)算法对不完整数据进行聚类。采用云计算技术优化AP聚类算法,实现一种基于Map Reduce的分布式聚类算法,根据算法聚类结果将同一类数据对象划分到相同簇中,并利用同一类对象的属性值对缺失值进行填充。实验结果表明,该算法能实现不完整大数据的聚类,同时加快聚类速度,提高缺失数据的填充精度。 展开更多
关键词 不完整大数据 近邻传播聚类 云计算 数据填充 不完整信息系统
在线阅读 下载PDF
不完整Vague决策表中的近似集学习方法 被引量:35
8
作者 马志锋 邢汉承 郑晓妹 《计算机研究与发展》 EI CSCD 北大核心 2000年第9期1050-1057,共8页
含糊性和不可分辨性构成了决策表中不确定性的两个不同侧面 .Vague集作为当前模糊信息处理中的一个新兴研究课题 ,它具有强大的表达不精确数据的能力 ,然而针对它的学习方法却未见报导 ,大多数现有针对Vague集的研究仍集中于对其本身性... 含糊性和不可分辨性构成了决策表中不确定性的两个不同侧面 .Vague集作为当前模糊信息处理中的一个新兴研究课题 ,它具有强大的表达不精确数据的能力 ,然而针对它的学习方法却未见报导 ,大多数现有针对Vague集的研究仍集中于对其本身性质的讨论 .在介绍 Vague集的有关概念的基础上 ,借鉴了粗糙集合中有关近似集的概念 ,特别对不完整 Vague决策表中的学习机制作了研究 ,解决了数据描述不精确时的学习问题 .所给出的两个算法分别适用于决策属性具有精确与 Vague取值的情形 . 展开更多
关键词 不完整Vague决策表 机器学习 近似集 人工智能
在线阅读 下载PDF
用于不完整数据的选择性贝叶斯分类器 被引量:11
9
作者 陈景年 黄厚宽 +1 位作者 田凤占 付树军 《计算机研究与发展》 EI CSCD 北大核心 2007年第8期1324-1330,共7页
选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多... 选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.如同完整数据的情形一样,不完整数据集中的冗余属性或无关属性也会使分类性能大幅下降.因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题.通过分析以往在分类过程中对不完整数据的处理方法,提出了两种用于不完整数据的选择性贝叶斯分类器:SRBC和CBSRBC.SRBC是基于一种鲁棒贝叶斯分类器构建的,而CBSRBC则是在SRBC基础上利用χ2统计量构建的.在12个标准的不完整数据集上的实验结果表明,这两种方法在大幅度减少属性数目的同时,能显著提高分类准确率和稳定性.从总体上来讲,CBSRBC在分类精度、运行效率等方面都优于SRBC算法,而SRBC需要预先指定的阈值要少一些. 展开更多
关键词 贝叶斯方法 分类 特征选择 不完整数据 X2统计量
在线阅读 下载PDF
大豆2个种皮不完整突变体的形态特点与遗传分析 被引量:10
10
作者 王亚琪 简朴 +2 位作者 费云燕 孔杰杰 赵团结 《核农学报》 CAS CSCD 北大核心 2017年第4期621-626,共6页
为揭示种皮不完整性遗传规律,发掘关键基因,本试验采用理化诱变剂处理不同大豆品种以创制种皮新突变体,并对其进行形态与遗传特性鉴定,其中从^(60)Co-γ射线辐照的科丰1号M_3株行发现种皮不完整突变体scd-KF,从甲基磺酸乙酯处理的南农11... 为揭示种皮不完整性遗传规律,发掘关键基因,本试验采用理化诱变剂处理不同大豆品种以创制种皮新突变体,并对其进行形态与遗传特性鉴定,其中从^(60)Co-γ射线辐照的科丰1号M_3株行发现种皮不完整突变体scd-KF,从甲基磺酸乙酯处理的南农1138-2 M_4株行发现突变体scd-NN。scd-KF突变体种皮开裂出现在种子成熟初期,种子背部纵向或横向开裂,程度与种子大小有关;scd-NN突变体种子发育早期种皮即受到影响,种子背部纵向开裂,2片子叶之间有明显裂缝,种子显著小于其野生型。遗传分析结果表明,scd-KF种皮不完整性状由单隐性基因控制,而scd-NN的突变性状在F_2符合15∶1的分离比例,可能由2对隐性基因控制。2个突变体杂交F_2植株的株高及单株荚数、粒数及每荚粒数低于正常种皮植株,但大部分性状未达到显著差异水平。本研究结果为深入揭示大豆种皮及种子发育提供了遗传材料与信息。 展开更多
关键词 大豆 突变体 不完整种皮 遗传分析 农艺性状
在线阅读 下载PDF
考虑不完整边界条件的新型混合试验方法 被引量:15
11
作者 吴斌 宁西占 +1 位作者 许国山 王贞 《振动与冲击》 EI CSCD 北大核心 2018年第15期150-155,共6页
在混合试验中,当子结构边界自由度较多时,其边界条件往往难以完全实现,而边界条件的缺失势必改变原结构的受力状态,影响结构性能评估的准确性。为此,提出基于模型更新的在线数值模拟方法,称之为考虑不完整边界条件的新型混合试验方法。... 在混合试验中,当子结构边界自由度较多时,其边界条件往往难以完全实现,而边界条件的缺失势必改变原结构的受力状态,影响结构性能评估的准确性。为此,提出基于模型更新的在线数值模拟方法,称之为考虑不完整边界条件的新型混合试验方法。该方法建立具有相同本构关系的两套数值模型,分别用于整体结构数值计算和物理子结构本构模型参数识别。由于结构反应由整体结构数值模型求得,边界条件自然得到满足;而且数值模型的本构参数不断根据物理试件的试验结果在线修正,提高了数值计算的准确性。以物理试件的恢复力为追踪目标,采用基于梯度的优化方法在线估计并更新材料本构模型参数;以Matlab和Open Sees为计算平台完成了边界条件不完整的钢筋混凝土框架结构虚拟混合试验。结果表明,该方法几乎消除了边界条件不足带来的不利影响,提高了混合试验的模拟精度。 展开更多
关键词 混合试验 不完整边界条件 参数识别 模型更新
在线阅读 下载PDF
基于压缩的海量不完整数据近似查询方法 被引量:7
12
作者 王妍 刘赓浩 +1 位作者 王俊陆 宋宝燕 《计算机研究与发展》 EI CSCD 北大核心 2016年第3期571-581,共11页
随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法... 随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法,该方法对属性值缺失字段进行标记,根据频繁查询条件对标记后的数据进行压缩,并建立对应索引;根据属性划分对索引文件再次压缩以节省存储空间,采用编码字典对索引压缩文件进行选择和投影操作,最终获得不完整数据的近似查询结果.实验表明,该方法能够快速定位不完整数据的压缩位置,提高了查询效率,节省了存储空间,并且保证了查询结果的完整性. 展开更多
关键词 不完整数据 近似查询 数据压缩 索引 编码字典
在线阅读 下载PDF
基于邻域粗糙集的不完整决策系统特征选择算法 被引量:13
13
作者 谢娟英 李楠 乔子芮 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第4期383-390,共8页
针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降... 针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降序排列,采用顺序前向搜索,选择当前最佳特征加入特征约简集合,确定最佳特征子集.将该算法扩展到基于邻域粗糙集的实值和混合型不完整决策系统,得到基于邻域粗糙集的不完整决策系统前向顺序特征选择算法.同时,将基于相容关系的不完整决策系统快速属性约简算法推广到实值和混合属性的不完整决策系统,得到适用于实值、混合属性的不完整决策系统后向特征选择算法.理论分析和University of California Irvine机器学习数据库数据集的实验共同表明,本文提出的基于邻域粗糙集的不完整决策系统前向特征选择算法有效降低了不完整决策系统特征选择算法的时间复杂度,在保持系统识别能力的情况下,用更少的时间得到决策系统的属性约简子集,即特征子集.然而,本文前向特征选择算法的缺陷是有可能因为无法选择到第一个最重要的特征(属性)而使特征选择过程不能进行下去,从而不能完成特征选择过程. 展开更多
关键词 不完整决策系统 特征选择 邻域粗糙集 正域
在线阅读 下载PDF
利用现有模型修复不完整三维模型 被引量:11
14
作者 杨荣 冯有前 袁修久 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2015年第1期98-105,共8页
针对通过扫描得到的三维模型经常不完整的问题,提出一种利用现有模型修复不完整扫描模型的方法.首先构建三维源模型库,将现有模型经过选取特征点等处理作为模型库中的源模型;然后选取待修复模型的特征点,通过比较源模型特征点和待修复... 针对通过扫描得到的三维模型经常不完整的问题,提出一种利用现有模型修复不完整扫描模型的方法.首先构建三维源模型库,将现有模型经过选取特征点等处理作为模型库中的源模型;然后选取待修复模型的特征点,通过比较源模型特征点和待修复模型特征点的一致程度,选择出合适的源模型;最后,通过匹配、变形、合并等步骤自动修复不完整模型,得到完整的三维扫描模型.实验结果表明,该方法能很好地修复不完整模型,得到的修复结果是既包含待修复模型的所有组成部分,又对其残缺部分进行合理修复的完整三维模型. 展开更多
关键词 三维扫描 不完整模型 三维模型库 三维模型修复
在线阅读 下载PDF
基于符号语义的不完整数据聚集查询处理算法 被引量:8
15
作者 张安珍 李建中 高宏 《软件学报》 EI CSCD 北大核心 2020年第2期406-420,共15页
研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义... 研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果有很大概率在该估计区间范围内.给出了线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了所提方法的有效性. 展开更多
关键词 不完整数据 近似查询处理 数据修复 结果估计 数据可用性
在线阅读 下载PDF
一种基于不完整数据的朴素贝叶斯分类器 被引量:4
16
作者 陈景年 黄厚宽 +1 位作者 田凤占 乔珠峰 《计算机工程》 EI CAS CSCD 北大核心 2006年第17期86-88,共3页
贝叶斯网络因其对属性间因果关系的表达能力而成为处理不完整数据的强有力的工具。然而绝大多数的贝叶斯分类器都是基于完整数据的,并且在现实世界中数据往往是不完整的,因此利用不完整数据构建有效的贝叶斯分类器是一个重要而又具有挑... 贝叶斯网络因其对属性间因果关系的表达能力而成为处理不完整数据的强有力的工具。然而绝大多数的贝叶斯分类器都是基于完整数据的,并且在现实世界中数据往往是不完整的,因此利用不完整数据构建有效的贝叶斯分类器是一个重要而又具有挑战性的问题。通过分析著名的基于不完整数据的RBC分类器的不足,在BC(BoundandCollapse)方法和EM算法的基础上给出了一种基于不完整数据的分类器构建方法。实验结果表明了该算法的有效性。 展开更多
关键词 不完整数据 贝叶斯分类器 EM算法 BC办法
在线阅读 下载PDF
基于不完整语义理解的文本数字水印算法研究 被引量:6
17
作者 赵敏之 孙星明 向华政 《计算机应用研究》 CSCD 北大核心 2006年第6期118-120,共3页
提出了一种基于不完整语义理解的文本数字水印算法,该算法实现了将水印信息嵌入到文本的内容之中而不需要完整的理解文本的语义。实验证明,基于该算法的水印嵌入和提取具有容易实现、鲁棒性较好的特点。
关键词 自然语言理解 文本水印 “的”字结构 语法规则 基于不完整语义
在线阅读 下载PDF
构造性覆盖下不完整数据修正填充方法 被引量:5
18
作者 严远亭 吴亚亚 +1 位作者 赵姝 张燕平 《智能系统学报》 CSCD 北大核心 2019年第6期1225-1232,共8页
不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。... 不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。缺失值填充大致可以分为单一填充和多重填充,这些填充方法在不同的场景下有着各自的优势。但是,很少有方法能进一步考虑样本空间分布中的邻域信息,并以此对缺失值的填充结果进行修正。鉴于此,本文提出了一种可广泛应用于诸多现有填充方法的框架用以提升现有方法的填充效果,该框架由预填充、空间邻域信息挖掘和修正填充三部分构成。本文对7种填充方法在8个UCI数据集上进行了实验,实验结果验证了本文所提框架的有效性和鲁棒性。 展开更多
关键词 不完整数据 缺失值填充 邻域信息 数据挖掘 机器学习 填充方法 单一填充 多重填充
在线阅读 下载PDF
运用SAS对不完整数据集进行多重填补——SAS 9中的多重填补及其统计分析过程(一) 被引量:17
19
作者 曹阳 张罗漫 《中国卫生统计》 CSCD 北大核心 2004年第1期56-58,63,共4页
关键词 SAS 不完整数据集 多重填补 SAS9 多重填补 统计分析 实验研究
在线阅读 下载PDF
海量不完整数据的核心数据选择问题的研究 被引量:6
20
作者 刘永楠 李建中 高宏 《计算机学报》 EI CSCD 北大核心 2018年第4期915-930,共16页
在大数据时代,越来越多的带有缺失值的数据需要处理,因而数据不完整成为一种常见的数据质量问题.不完整的数据给大数据的查询、挖掘和分析带来了困难.在某些情况下,数据中的很多缺失值是无法被确定的.只能根据用户的需求,在不完整的数... 在大数据时代,越来越多的带有缺失值的数据需要处理,因而数据不完整成为一种常见的数据质量问题.不完整的数据给大数据的查询、挖掘和分析带来了困难.在某些情况下,数据中的很多缺失值是无法被确定的.只能根据用户的需求,在不完整的数据上选择一部分用户感兴趣的核心数据集合,来提高不完整数据的可用性.完整度较高,规模较小,在用户感兴趣的属性上给出更多完整信息的核心数据集合,能够支持高效的查询处理,提高查询结果的准确性和完整性.该文形式化了核心数据选择问题,证明了这至少是一个NP-难问题.由于需要同时优化核心数据集合的完整度、集合的规模以及对于感兴趣属性的覆盖性,现有的基于集合覆盖问题的方法无法解决文中提出的问题.该文提出了一个采用贪心策略,具有理论保证的近似核心数据选择算法ACS.ACS首先判断当前的数据集合是否存在一个满足覆盖性要求的子集合.当这样的子集合存在时,ACS尽量选择完整的元组来组成核心数据集合,当使用完整元组无法满足覆盖性的要求时,ACS选择较少的不完整元组.ACS通过限制选择的次数来获得一个集合大小的上界是运行次数常数倍的子集合,并且保证了对于感兴趣的属性的覆盖比例.通过理论分析可知,ACS能够在近似线性的时间内,找到一个大小至多在给定的大小对数因子内的近似核心数据集合,其中被覆盖的感兴趣的属性的比例至少为(1-1/e),包含的不完整元组的个数至多为给定的核心数据集合的大小,其中e是自然对数的底数.通过在DBLP和NBA球员信息这两个真实数据集合上的实验,表明了所提出的算法ACS的有效性和高效性;通过在规模更大的合成数据上的实验,表明了ACS的良好的扩展性. 展开更多
关键词 数据质量 数据完整 不完整数据 核心数据选择 近似算法
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部