期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
科学数据开放共享中的数据可用性影响因素研究 被引量:3
1
作者 邢文明 邓孝庆 秦顺 《图书情报知识》 北大核心 2025年第1期135-145,共11页
[目的/意义]识别影响科学数据可用性的关键因素,有助于提升科学数据开放共享效能。[研究设计/方法]采用扎根理论方法,对26位采访对象进行深度访谈,识别科学数据开放共享过程中数据可用性的影响因素,构建影响因素框架模型。[结论/发现]... [目的/意义]识别影响科学数据可用性的关键因素,有助于提升科学数据开放共享效能。[研究设计/方法]采用扎根理论方法,对26位采访对象进行深度访谈,识别科学数据开放共享过程中数据可用性的影响因素,构建影响因素框架模型。[结论/发现]科学数据的可用性受到数据本身、相关者、环境三个维度的因素影响。数据是基础,包括数据质量和数据管理两个方面;相关者是重要力量,包括数据生产者、数据使用者和其他相关者;环境是保障,包括社会环境、政策法规、技术工具三个方面。提出增强科学数据开放共享中数据可用性的建议,包括健全科学数据相关政策规范,加强科学数据共享重用过程管理,强化数据技能教育和培训。[创新/价值]系统探索了影响科学数据可用性的因素及其保障机制,为关联主体增强科学数据管理能力、提升科学数据开放共享的服务效能提供参考方案。 展开更多
关键词 科学数据 开放共享 数据可用性 影响因素
在线阅读 下载PDF
大数据可用性的研究进展 被引量:67
2
作者 李建中 王宏志 高宏 《软件学报》 EI CSCD 北大核心 2016年第7期1605-1625,共21页
信息技术的迅速发展,催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而随着数据规模的扩大,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数... 信息技术的迅速发展,催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而随着数据规模的扩大,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数据的可用性,严重困扰着信息社会.近年来,数据可用性问题引起了学术界和工业界的共同关注,展开了深入的研究,取得了一系列研究成果.介绍了数据可用性的基本概念,讨论数据可用性的挑战与研究问题,综述了数据可用性方面的研究成果,探索了大数据可用性的未来研究方向. 展开更多
关键词 数据 数据可用性 数据质量 数据清洗 数据管理
在线阅读 下载PDF
大数据的一个重要方面:数据可用性 被引量:265
3
作者 李建中 刘显敏 《计算机研究与发展》 EI CSCD 北大核心 2013年第6期1147-1162,共16页
随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进,大数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战.数据可用性问题就是大数据的重要挑战之一.随着数据的爆炸性增长,劣质数据也... 随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进,大数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战.数据可用性问题就是大数据的重要挑战之一.随着数据的爆炸性增长,劣质数据也随之而来,数据可用性受到严重影响,对信息社会形成严重威胁,引起了学术界和工业界的共同关注.近年来,学术界和工业界开始研究数据可用性问题,取得了一些的研究成果,但是针对大数据可用性问题的研究工作还很少.介绍了大数据可用性的基本概念,讨论大数据可用性的挑战,探讨大数据可用性方面的研究问题,并综述数据可用性方面的研究成果. 展开更多
关键词 数据 数据可用性 数据一致性 数据完整性 数据精确性 数据时效性 实体同一性
在线阅读 下载PDF
大数据可用性理论、方法和技术专题前言 被引量:5
4
作者 李建中 杜小勇 《软件学报》 EI CSCD 北大核心 2016年第7期1603-1604,共2页
信息技术的快速发展,特别是信息获取技术、信息物理系统、互联网、物联网、社交网络等突飞猛进,引发了数据规模的爆炸式增长.能源、制造业、交通运输业、服务业、科教文化、医疗卫生等领域都积累了TB级、PB级乃至EB级的大数据.这些... 信息技术的快速发展,特别是信息获取技术、信息物理系统、互联网、物联网、社交网络等突飞猛进,引发了数据规模的爆炸式增长.能源、制造业、交通运输业、服务业、科教文化、医疗卫生等领域都积累了TB级、PB级乃至EB级的大数据.这些大数据已经开始造福于人类,成为信息社会的重要财富.大数据蕴含着巨大的价值,对社会、经济、科学研究等各个方面都具有重要的战略意义,为人们更深入地感知、认识和预测物理世界提供了前所未有的丰富信息.由于大数据的迅速涌现及其蕴藏的巨大价值,已引起国内外学术界、工业界和政府部门的广泛关注. 展开更多
关键词 信息技术 数据可用性 专题 信息获取技术 物理系统 信息社会 交通运输业 医疗卫生
在线阅读 下载PDF
面向数据可用性的电力通信系统静态分层建模方法 被引量:11
5
作者 王梓宇 王镜毓 +3 位作者 谢俊 王英英 石东源 段献忠 《电力系统自动化》 EI CSCD 北大核心 2021年第20期9-17,共9页
电力通信系统的正常运行是保障电力系统量测数据和控制命令可靠传输、维持电力系统安全稳定运行的基础。传统的电力通信系统静态模型忽略不同节点功能的差异性,难以同时描述物理与逻辑支路的多层次连接状态,无法准确刻画各种信息物理风... 电力通信系统的正常运行是保障电力系统量测数据和控制命令可靠传输、维持电力系统安全稳定运行的基础。传统的电力通信系统静态模型忽略不同节点功能的差异性,难以同时描述物理与逻辑支路的多层次连接状态,无法准确刻画各种信息物理风险事件下信息流的变化情况。针对这一问题,提出了面向数据可用性的电力通信系统静态分层建模方法。该方法利用物理层到会话层的直接/间接邻接矩阵与层间映射依赖关系,自底向上对信息的传输与处理过程展开详细建模,能更全面地分析信息物理风险事件导致的信息流变化情况,为更准确地开展信息物理交互影响分析和风险评估等研究奠定基础。对复杂风险事件下的IEEE 9节点和IEEE 118节点系统进行了信息物理混合仿真分析,验证了所提方法的有效性。 展开更多
关键词 电力通信系统 数据可用性 静态建模 信息物理风险事件 信息物理混合仿真
在线阅读 下载PDF
一种面向数据可用性和存储可靠性动态要求的自适应纠删码存储策略设计 被引量:5
6
作者 李子天 邢凯 龚海华 《小型微型计算机系统》 CSCD 北大核心 2021年第2期308-314,共7页
为了满足指数级增长的大数据存储需求,现代的分布式存储系统需要提供大容量的存储空间以及快速的存储服务.因此在主流的分布式存储系统中,均应用了纠删码技术以节约数据中心的磁盘成本,保证数据的可靠性,并且满足应用程序和客户端的快... 为了满足指数级增长的大数据存储需求,现代的分布式存储系统需要提供大容量的存储空间以及快速的存储服务.因此在主流的分布式存储系统中,均应用了纠删码技术以节约数据中心的磁盘成本,保证数据的可靠性,并且满足应用程序和客户端的快速存储需求.在实际应用中数据往往重要程度并不相同,对数据可用性要求不一,且不同磁盘的故障率和可靠性动态不一的特点,对于传统RAID存储方式包括基于纠删码的存储系统提出了新的挑战.本文提出了一种面向数据可用性和磁盘可靠性动态要求的灵活自适应纠删码存储设计On-demand ARECS(On-demand Availability and Reliability Oriented Adaptive Erasure Coded Storage System),根据存储后端数据可用性和磁盘可靠性的多个维度进行设计,综合确定纠删码编码策略和存储节点选择,从而减少存储冗余度和存储延迟,同时提高数据可用性和存储可靠性.我们在Tahoe-LAFS开源分布式文件系统中进行了实验,实验结果验证了我们的理论分析,在保证具有多样性要求的数据可用性和磁盘可靠性的前提下,明显减少了数据冗余度和存储延迟. 展开更多
关键词 分布式文件系统 纠删码 存储系统 数据可用性 磁盘可靠性
在线阅读 下载PDF
面向海洋监测的传感数据可用性评价技术
7
作者 刘红蕾 张峰 +3 位作者 谷峪 鲍玉斌 李芳芳 于戈 《海洋通报》 CAS CSCD 北大核心 2015年第3期327-335,共9页
无线传感器网络已成为监测海洋环境信息的一种重要手段,然而由于传感设备部署的范围和密度不同,造成不同位置的感知数据的可用性差异很大,针对此建立模型并进行评价对于高质量的数据获取和清洗具有重要的意义。基于传感器节点的感知模... 无线传感器网络已成为监测海洋环境信息的一种重要手段,然而由于传感设备部署的范围和密度不同,造成不同位置的感知数据的可用性差异很大,针对此建立模型并进行评价对于高质量的数据获取和清洗具有重要的意义。基于传感器节点的感知模型、能耗模型和改进的Leeway漂流模型,面向感知数据的可靠性和时效性两个方面,建立了围绕海洋监测应用的综合评判指标,进一步提出数据采集船航行路线的评价方法和数据源的选择方法,最后通过实验验证了提出模型和方法的有效性。 展开更多
关键词 数据质量 海洋监测 无线传感器网络 传感数据可用性
在线阅读 下载PDF
RSboFMC:提高数据可用性和负载均衡性的碎片矩阵缓存策略
8
作者 齐小刚 强敏 刘立芳 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第4期667-677,共11页
保证动荡环境下数据可被访问概率对数据存储网络十分重要,其可行方法之一是设计合理的存储策略,提高网络的数据可用性.将存储策略分为复制策略和放置策略进行设计,提出了基于碎片矩阵和缓存的存储策略RSboFMC(Replication Strategy base... 保证动荡环境下数据可被访问概率对数据存储网络十分重要,其可行方法之一是设计合理的存储策略,提高网络的数据可用性.将存储策略分为复制策略和放置策略进行设计,提出了基于碎片矩阵和缓存的存储策略RSboFMC(Replication Strategy based on Fragment Matrix and Cache),提高动荡环境下的数据可用性.其以重建效率和存储开销为目标,设计缓存机制和基于碎片矩阵的数据分块机制优化复制策略;以负载均衡为目标,设计基于分区和顺逆序的分发机制优化放置策略.仿真结果表明,RSboFMC在数据可用性和负载均衡性方面均优于其他策略,且具有良好的扩展性。 展开更多
关键词 数据分块机制 数据可用性 缓存机制 数据分发机制
在线阅读 下载PDF
一种面向可用性的P2P数据分发方法 被引量:2
9
作者 杨哲 李领治 《计算机工程与应用》 CSCD 北大核心 2010年第14期103-105,134,共4页
对等网络由高度动态的节点构成,节点间会话时间极端异构。对等节点频繁加入和退出导致对等网络维护开销增大,数据可用性降低。面向可用性的对等网络数据分发方法,针对热点数据和节点可用性的分析,通过增加系统中数据的副本数量,提高数... 对等网络由高度动态的节点构成,节点间会话时间极端异构。对等节点频繁加入和退出导致对等网络维护开销增大,数据可用性降低。面向可用性的对等网络数据分发方法,针对热点数据和节点可用性的分析,通过增加系统中数据的副本数量,提高数据的可用性,同时减小消息扩散的范围,提高系统的效率,克服会话时间异构性。实验结果表明,该方法可以有效提高数据可用性,降低系统的维护开销。 展开更多
关键词 对等网络 数据可用性 数据分发
在线阅读 下载PDF
数据发布中维护敏感数据高可用性的隐私保护方法
10
作者 王雅哲 杨晓春 +1 位作者 王斌 于戈 《计算机研究与发展》 EI CSCD 北大核心 2007年第z3期214-219,共6页
数据的安全性和可用性是敏感数据发布与共享环境中面临的主要问题.近期提出了一种利用有损连接保证敏感数据发布的安全性的方法-Anatomy,其优点在于发布的数据中保留了原始数据的准确值.但是用Anatomy方法处理数据会损失大量数据的关联... 数据的安全性和可用性是敏感数据发布与共享环境中面临的主要问题.近期提出了一种利用有损连接保证敏感数据发布的安全性的方法-Anatomy,其优点在于发布的数据中保留了原始数据的准确值.但是用Anatomy方法处理数据会损失大量数据的关联信息和分布信息,降低数据的可用性.针对这种问题提出了维护数据高可用性的ClassAnatomy方法,它继承了Anatomy方法的安全性和准确性等优点,并通过对数据空间进行分类划分的方法保留原始数据的关联及分布信息.给出了两种ClassAnatomy算法,包括基于信息论的自顶向下的单维分类划分算法(TDA)和基于高维网格的自底向上的多维覆盖分类划分算法(BUA).实验结果表明,ClassAnatomy方法在保证数据安全性的基础上能够极大地减少数据的信息损失,从而提高数据的可用性. 展开更多
关键词 数据发布 数据隐私 数据可用性 Anatomy方法 l-多样性
在线阅读 下载PDF
数据集分类可用性评估的置信区间方法 被引量:8
11
作者 谈询滔 顾依依 +1 位作者 阮彤 袁玉波 《计算机科学》 CSCD 北大核心 2019年第1期78-85,共8页
如何有效评价训练数据集的可用性,一直是困扰智能分类系统应用的难点问题。针对机器学习领域的数据分类问题,提出了一种基于区间分析和信息粒化的数据集分类可用性的评估方法,用于评价数据集的可分程度。该方法将待评估的数据集定义为... 如何有效评价训练数据集的可用性,一直是困扰智能分类系统应用的难点问题。针对机器学习领域的数据分类问题,提出了一种基于区间分析和信息粒化的数据集分类可用性的评估方法,用于评价数据集的可分程度。该方法将待评估的数据集定义为分类信息系统,提出了分类置信区间的概念,通过区间分析进行信息粒化。在此信息粒化策略下,定义分类可用性的数学模型,并进一步给出单个属性以及整体数据集的分类可用性的计算方法。选择18个UCI标准数据集作为评估对象,给出了部分数据集分类可用性的评估结果,并且选取3种分类器对所选数据集进行分类实验,最终通过对上述实验结果的分析证明了该评估方法的有效性和可行性。 展开更多
关键词 数据可用性 分类系统 区间分析 信息粒化 分类可用性
在线阅读 下载PDF
基于数据资源的数据库系统可用性分析法
12
作者 陈建英 刘心松 +1 位作者 张楠 刘韬 《计算机应用研究》 CSCD 北大核心 2007年第10期110-112,共3页
数据库系统可用性是考察数据库系统性能的基本指标之一,对其分析通常着眼于系统的总体性能。说明了这种分析的不足,提出了数据资源可用性考察方法并应用于分布式并行数据库系统DPDBS。在对DPDBS中服务器群进行逻辑分组的基础上,从数据... 数据库系统可用性是考察数据库系统性能的基本指标之一,对其分析通常着眼于系统的总体性能。说明了这种分析的不足,提出了数据资源可用性考察方法并应用于分布式并行数据库系统DPDBS。在对DPDBS中服务器群进行逻辑分组的基础上,从数据资源的角度量化讨论DPDBS的可用性,进而对几种常见的数据库系统数据资源可用性进行分析和比较。 展开更多
关键词 分布式并行数据 系统可用性 数据资源可用性
在线阅读 下载PDF
基于本地差分隐私的医疗数据收集方法
13
作者 王金鹏 李晓会 贾旭 《计算机工程与设计》 北大核心 2024年第10期2929-2935,共7页
针对现有医疗数据收集算法无法有效抵抗背景知识攻击和不可信第三方的隐私泄露问题,提出一种基于本地差分隐私的医疗数据收集方法。设计基于Count-Min Sketch和GRR算法的两阶段数据收集框架,利用随机采样技术避免隐私预算分割,降低数据... 针对现有医疗数据收集算法无法有效抵抗背景知识攻击和不可信第三方的隐私泄露问题,提出一种基于本地差分隐私的医疗数据收集方法。设计基于Count-Min Sketch和GRR算法的两阶段数据收集框架,利用随机采样技术避免隐私预算分割,降低数据收集的通信代价和噪声误差,通过对高低频症状分别抽样扰动收集统计,降低数据哈希冲突导致的误差问题。理论分析算法满足本地差分隐私。实验结果表明,该方法频率估计的精确度、运行时间和通信开销优于对比方法。 展开更多
关键词 医疗数据收集 本地差分隐私 草图结构 分层收集 不可信第三方 隐私保护 数据可用性
在线阅读 下载PDF
查询结果可用性研究综述 被引量:2
14
作者 柳晴 高云君 《计算机研究与发展》 EI CSCD 北大核心 2017年第6期1198-1212,共15页
数据库可用性研究在数据库领域受到了广泛的关注.其目标在于帮助用户更加高效、方便地使用数据库,从而提高用户对数据库的满意度.主要关注查询结果可用性研究.当前的数据库查询仅仅向用户返回查询结果.如果查询结果不是用户想要的,现有... 数据库可用性研究在数据库领域受到了广泛的关注.其目标在于帮助用户更加高效、方便地使用数据库,从而提高用户对数据库的满意度.主要关注查询结果可用性研究.当前的数据库查询仅仅向用户返回查询结果.如果查询结果不是用户想要的,现有的数据库系统既不能向用户解释为什么会得到这样的结果,也无法给出有效的建议以帮助用户得到满意的查询结果.查询结果可用性研究正是针对当前数据库系统的这一不足而展开.在数据库可用性的视角之上,以查询结果为中心,对当前查询结果可用性工作的最新动态进行了综述.梳理了当前查询结果可用性相关研究中问题的类型及其特点,并从Causality&Responsibility问题、Why-not&Why问题、Why-few&Why-many问题这3个方面对该领域的研究工作现状进行了分类、介绍和总结.最后对该研究领域未来可能的研究方向进行了展望,为相关研究提供参考. 展开更多
关键词 数据可用性 why-not问题 why问题 causality与responsibility why-few问题 why-many问题
在线阅读 下载PDF
基于符号语义的不完整数据聚集查询处理算法 被引量:8
15
作者 张安珍 李建中 高宏 《软件学报》 EI CSCD 北大核心 2020年第2期406-420,共15页
研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义... 研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果有很大概率在该估计区间范围内.给出了线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了所提方法的有效性. 展开更多
关键词 不完整数据 近似查询处理 数据修复 结果估计 数据可用性
在线阅读 下载PDF
ICP-AES法与传统FAAS法测定土壤速效钾和钠的数据可转换性研究 被引量:3
16
作者 张建民 王猛 +4 位作者 葛晓萍 吴建之 葛滢 李世鹏 常杰 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2009年第5期1405-1408,共4页
近年来兴起的电感耦合等离子体发射光谱法(ICP-AES)测定土壤的速效K和Na采用HCl-H2SO4浸取溶液,而以往大量的土壤速效K和速效Na的数据是用火焰光度法(FAAS)测定的,其溶液用NH4OAc浸取。为了探索两种方法数据的可转换性,使历史数据可用,... 近年来兴起的电感耦合等离子体发射光谱法(ICP-AES)测定土壤的速效K和Na采用HCl-H2SO4浸取溶液,而以往大量的土壤速效K和速效Na的数据是用火焰光度法(FAAS)测定的,其溶液用NH4OAc浸取。为了探索两种方法数据的可转换性,使历史数据可用,选择了四种土壤,同时用FAAS法和ICP-AES法进行测定,对数据进行比较。结果表明,两种方法测定的土壤速效K数据呈显著正相关(0.98,p<0.001),两种方法的数据间可以通过公式换算:y=1.14x+6.53(r2=0.91,n=24,p<0.001)。两种方法测定Na的结果可比性比K差,虽然两种方法的数据总体上呈显著正相关(0.51,p<0.05),但壤土和砂壤单独模型的斜率与总模型差距均较大,因此针对不同类型的土壤应用不同的公式进行换算比较合适,即壤土:y=1.23x+10.03;砂壤:y=3.12x-23.03;海砂和河沙归为一类,公式:y=0.60x。 展开更多
关键词 HCl-H2SO4浸取 NH4OAc浸取 历史数据可用性 ICP-AES
在线阅读 下载PDF
移动自组网中基于分簇的数据复制算法(英文) 被引量:3
17
作者 郑静 卢锡城 王意洁 《软件学报》 EI CSCD 北大核心 2005年第8期1474-1483,共10页
在移动自组网络中,网络分割现象可能频繁发生,从而降低了数据的可用性.提出了一种新的分布式分簇算法来组织移动节点,算法保证簇内任意两点间路径的可用概率都大于某个确定的界.在此基础上提出了基于稳定路径分簇的数据复制策略,以提高... 在移动自组网络中,网络分割现象可能频繁发生,从而降低了数据的可用性.提出了一种新的分布式分簇算法来组织移动节点,算法保证簇内任意两点间路径的可用概率都大于某个确定的界.在此基础上提出了基于稳定路径分簇的数据复制策略,以提高在出现链路断接甚至网络分割时的数据可用性.对算法进行了理论证明和实验分析,实验结果表明,由分簇算法构造的簇能够满足我们所要求的特性,并且基于分簇的数据复制算法在移动自组网环境中有效地提高了数据的可用性. 展开更多
关键词 MANET 复制 分簇 数据可用性 最大子图
在线阅读 下载PDF
面向微聚集技术的k-匿名数据质量评估模型 被引量:6
18
作者 陈建明 韩建民 《计算机应用研究》 CSCD 北大核心 2010年第6期2344-2347,共4页
针对基于微聚集技术的匿名数据,提出了一个质量评估模型,该模型从匿名数据的可用性、安全性以及两者的权衡三个角度来评估匿名数据的综合质量。实验结果表明,所提出的模型可以有效地评估基于微聚集的匿名数据的质量。
关键词 微聚集 数据可用性 信息损失量 泄密风险 K-匿名
在线阅读 下载PDF
P2P系统中数据复制算法研究 被引量:1
19
作者 王意洁 张小明 周婧 《国防科技大学学报》 EI CAS CSCD 北大核心 2007年第3期61-64,70,共5页
比较分析了P2P系统中各种数据复制算法,并提出了一种基于LDPC编码的数据复制算法Dyre,数据块采用动态分配算法存储到节点中,在节点邻居中保存数据块的副本以提高数据块的有效性,数据块的数量过小时重建数据块。实验表明,即使节点的可靠... 比较分析了P2P系统中各种数据复制算法,并提出了一种基于LDPC编码的数据复制算法Dyre,数据块采用动态分配算法存储到节点中,在节点邻居中保存数据块的副本以提高数据块的有效性,数据块的数量过小时重建数据块。实验表明,即使节点的可靠性非常低,该算法也能够获得很高的数据可用性。 展开更多
关键词 PEER-TO-PEER 数据可用性 数据复制
在线阅读 下载PDF
一种大数据估价算法 被引量:3
20
作者 赵会群 吴凯锋 《计算机科学》 CSCD 北大核心 2020年第9期110-116,共7页
“大数据”已经成为计算机领域使用频率最高的专业词汇之一,而且已经逐渐变成了一个商品名称。无论是从学术研究角度,还是从数据交易需求角度,对大数据集的可用性进行评价都是一个新的问题。文中提出了一个大数据可用性评价模型,为学术... “大数据”已经成为计算机领域使用频率最高的专业词汇之一,而且已经逐渐变成了一个商品名称。无论是从学术研究角度,还是从数据交易需求角度,对大数据集的可用性进行评价都是一个新的问题。文中提出了一个大数据可用性评价模型,为学术和流通领域提供参考。结合大数据的4V(Volume,Variety,Velocity,Value)特性,分段统计样本数据的4V特性分布,从而给出基于分段分布的大数据特性概率模型,以及大数据可用性加权评价模型。文中还提出了实现大数据分块抽样的算法,以及大数据评价模型的各个特性加权系数的估计算法。结合视频大数据的可用性评价需求,展示所提模型和算法的具体应用。大数据可用性评价模型可以用于数据科学实验的数据评价,也可以用于大数据交易市场的数据集定价。给出了实际评价工作中,标准化(商品化)数据集以及确定数据评价基准等具体操作方面的解决方案。应用案例对所提模型有支持作用,进一步检验了模型的可行性。 展开更多
关键词 数据可用性评价 概率模型 数据分块算法 视频大数据
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部