-
题名一种大数据估价算法
被引量:3
- 1
-
-
作者
赵会群
吴凯锋
-
机构
北方工业大学信息学院
北方工业大学大规模流数据集成与分析技术北京市重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2020年第9期110-116,共7页
-
基金
国家自然科学基金项目(61672041)。
-
文摘
“大数据”已经成为计算机领域使用频率最高的专业词汇之一,而且已经逐渐变成了一个商品名称。无论是从学术研究角度,还是从数据交易需求角度,对大数据集的可用性进行评价都是一个新的问题。文中提出了一个大数据可用性评价模型,为学术和流通领域提供参考。结合大数据的4V(Volume,Variety,Velocity,Value)特性,分段统计样本数据的4V特性分布,从而给出基于分段分布的大数据特性概率模型,以及大数据可用性加权评价模型。文中还提出了实现大数据分块抽样的算法,以及大数据评价模型的各个特性加权系数的估计算法。结合视频大数据的可用性评价需求,展示所提模型和算法的具体应用。大数据可用性评价模型可以用于数据科学实验的数据评价,也可以用于大数据交易市场的数据集定价。给出了实际评价工作中,标准化(商品化)数据集以及确定数据评价基准等具体操作方面的解决方案。应用案例对所提模型有支持作用,进一步检验了模型的可行性。
-
关键词
大数据可用性评价
概率模型
大数据分块算法
视频大数据
-
Keywords
Big data availability evaluation
Probability model
Big data blocking algorithm
Video big data
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-