-
题名HSSM:一种流数据分层次模最大化方法
- 1
-
-
作者
张奋翔
陈华辉
钱江波
董一鸿
-
机构
宁波大学信息科学与工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第8期1792-1805,共14页
-
基金
国家自然科学基金项目(61572266
61472194)~~
-
文摘
从大规模数据中"摘要"出最能满足效用函数收益的有限个数据对象,可以被归纳为次模函数最大化问题.并行过滤算法在满足流数据访问次数限制与实时响应的条件下,通过分布式筛选的方式实现次规模最大化,但在提升摘要速率时效用函数收益损失较大.提出一种流数据分层次模最大化算法HSSM,在仅访问一次数据集的条件下,采用流水并行的分布式处理框架得到接近于标准贪心算法的次模函数收益,同时改进HSSM通过累积摘要的压缩存储、分层过滤低增益对象提升摘要速率.该方法在数据摘要问题的相关领域具有广泛的应用性,如文档集中代表性文章的选取、数据集中心点选取等.实验结果显示,分布式算法Spark-HSSM+对比于传统的算法在运行速率上达到与摘要规模k成k2正比例关系的提升.而相对于其他分布式算法,其实验效用收益与理论最差收益都更接近于贪心算法.
-
关键词
流次模最大化
分层模型
流水并行
数据摘要
Spark分布式平台
-
Keywords
streaming submodular maximization
hierarchy model
pipelining parallelism
data summarization
Spark distribution platform
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名次模函数最大化的流算法综述
被引量:2
- 2
-
-
作者
杨瑞琪
徐大川
杜东雷
张冬梅
-
机构
北京工业大学数学学院
新不伦瑞克大学商学院
山东建筑大学计算机学院
-
出处
《运筹学学报》
北大核心
2020年第2期73-86,共14页
-
基金
国家自然科学基金(Nos.11871081,11771386,11728104)。
-
文摘
次模函数优化在计算机科学、数学、经济学等学科得到广泛研究.大数据环境下的次模优化是相对较新的研究领域,受到更多关注.特别地,考虑基于流模型的次模最大化问题.在该问题中,数据以流的形式呈现,其目的是从数据流中抽取满足某些特性的稀疏子集,最大化次模收益函数值.介绍了基于流模型的次模最大化问题的阈值和优先权方法,同时也介绍了若干次模最大化变形的流算法进展.
-
关键词
次模最大化
大数据
流算法
-
Keywords
submodular maximization
big data
streaming algorithms
-
分类号
O221.7
[理学—运筹学与控制论]
-