期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
HSSM:一种流数据分层次模最大化方法
1
作者 张奋翔 陈华辉 +1 位作者 钱江波 董一鸿 《计算机研究与发展》 EI CSCD 北大核心 2016年第8期1792-1805,共14页
从大规模数据中"摘要"出最能满足效用函数收益的有限个数据对象,可以被归纳为次模函数最大化问题.并行过滤算法在满足流数据访问次数限制与实时响应的条件下,通过分布式筛选的方式实现次规模最大化,但在提升摘要速率时效用函... 从大规模数据中"摘要"出最能满足效用函数收益的有限个数据对象,可以被归纳为次模函数最大化问题.并行过滤算法在满足流数据访问次数限制与实时响应的条件下,通过分布式筛选的方式实现次规模最大化,但在提升摘要速率时效用函数收益损失较大.提出一种流数据分层次模最大化算法HSSM,在仅访问一次数据集的条件下,采用流水并行的分布式处理框架得到接近于标准贪心算法的次模函数收益,同时改进HSSM通过累积摘要的压缩存储、分层过滤低增益对象提升摘要速率.该方法在数据摘要问题的相关领域具有广泛的应用性,如文档集中代表性文章的选取、数据集中心点选取等.实验结果显示,分布式算法Spark-HSSM+对比于传统的算法在运行速率上达到与摘要规模k成k2正比例关系的提升.而相对于其他分布式算法,其实验效用收益与理论最差收益都更接近于贪心算法. 展开更多
关键词 次模最大化 分层 流水并行 数据摘要 Spark分布式平台
在线阅读 下载PDF
次模函数最大化的流算法综述 被引量:2
2
作者 杨瑞琪 徐大川 +1 位作者 杜东雷 张冬梅 《运筹学学报》 北大核心 2020年第2期73-86,共14页
次模函数优化在计算机科学、数学、经济学等学科得到广泛研究.大数据环境下的次模优化是相对较新的研究领域,受到更多关注.特别地,考虑基于流模型的次模最大化问题.在该问题中,数据以流的形式呈现,其目的是从数据流中抽取满足某些特性... 次模函数优化在计算机科学、数学、经济学等学科得到广泛研究.大数据环境下的次模优化是相对较新的研究领域,受到更多关注.特别地,考虑基于流模型的次模最大化问题.在该问题中,数据以流的形式呈现,其目的是从数据流中抽取满足某些特性的稀疏子集,最大化次模收益函数值.介绍了基于流模型的次模最大化问题的阈值和优先权方法,同时也介绍了若干次模最大化变形的流算法进展. 展开更多
关键词 次模最大化 大数据 流算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部