期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
针对大规模动态图流三角形计数的边哈希分布式抽样算法
1
作者 何玉林 吴波 +2 位作者 吴定明 黄哲学 菲律普弗尼尔-维格 《计算机研究与发展》 EI CSCD 北大核心 2024年第8期1882-1903,共22页
三角形计数是大图分析的一个经典问题,近年的研究工作主要集中在针对静态流式图的三角形数量估计上,相关流式图抽样算法只能处理边的插入操作,无法处理边的删除操作;而现有的动态流式图抽样算法估计准确性又偏低.针对上述问题,提出了基... 三角形计数是大图分析的一个经典问题,近年的研究工作主要集中在针对静态流式图的三角形数量估计上,相关流式图抽样算法只能处理边的插入操作,无法处理边的删除操作;而现有的动态流式图抽样算法估计准确性又偏低.针对上述问题,提出了基于边哈希分配的分布式抽样(edge hashing assignmentbased distributed sampling,EHADS)算法,它是一个用于估计动态流式图中三角形数量的分布式流算法,可以快速准确地估计动态流式图中的全局三角形数量以及每个顶点的局部三角形数量.EHADS算法只对输入的图流进行1次处理,并在多台机器上对边进行抽样.与先进的单机流算法相比,EHADS算法具有2点优势:1)在相同样本容量的情况下,EHADS算法以更短的运行时间获得了更小的估计误差,估计全局三角形数量的误差平均降低了31.79%,估计局部三角形数量的误差平均降低了23.35%;2)EHADS算法能够提供流式图中三角形数量的无偏估计,并且严格的数学证明显示该无偏估计具有更小的方差. 展开更多
关键词 三角形计数 动态图流 边抽样 分布式流算法 边哈希分配
在线阅读 下载PDF
基于FLINK的滑动窗口内三角形计数算法研究 被引量:3
2
作者 王旭 杨晓春 《计算机科学》 CSCD 北大核心 2020年第10期83-90,共8页
三角形计数旨在计算图中全局三角形和局部三角形的数量,是图数据挖掘中的一类重要工作。三角形的数量被广泛应用于角色识别、推荐系统、社区发现、垃圾邮件和欺诈检测等领域。在以流形式给出的图中,边具有时间性,同时现实生活中的图存... 三角形计数旨在计算图中全局三角形和局部三角形的数量,是图数据挖掘中的一类重要工作。三角形的数量被广泛应用于角色识别、推荐系统、社区发现、垃圾邮件和欺诈检测等领域。在以流形式给出的图中,边具有时间性,同时现实生活中的图存在着大量的重复边。为充分利用图中的时间信息以挖掘网络知识,研究在多图流上计算滑动窗口内全局和局部三角形数量的问题,使用窗口机制同时研究多个窗口以利用隐含的时间关系获取更多信息。文中提出基于FLINK窗口操作的三角形计数算法和基于滑动窗口的三角形增量计数算法,以现有的边采样工作为基础,使用边集存储窗口历史数据实现一遍流计算,从而准确地计算面向多图流的滑动窗口内全局和局部三角形数量。基于FLINK窗口操作的三角形计数算法使用FLINK提供的窗口机制,基于滑动窗口的三角形增量计数算法,通过计算窗口滑入和滑出数据来实现窗口计数,避免了相邻两个窗口间重合边的大量重复计算,无缝地处理多个时间窗口,对于滑入和滑出数据中的重复数据,使用去重机制来进一步减小计算量。理论证明两种算法可以实现滑动窗口内三角形准确计数,并通过实验分析了窗口大小、滑动距离、数据分布和数据流速等因素对窗口处理时间的影响。与TRIEST算法相比,当窗口较小时,基于FLINK窗口操作的三角形计数算法和基于滑动窗口的三角形增量计数算法速度更快;当窗口较大时,保证了计算结果的准确性。 展开更多
关键词 三角形计数 滑动窗口 FLINK 图流挖掘 准确流算法
在线阅读 下载PDF
图数据格式对三角形计数算法影响的特性分析 被引量:1
3
作者 张世茹 邓军勇 《小型微型计算机系统》 CSCD 北大核心 2023年第1期103-109,共7页
图计算由当前图应用与输入图数据驱动,而图应用各式各样、图结构也千差万别,相同图应用处理不同图时性能差异巨大.为探究图数据格式对图算法的性能影响,本文选取5种常用的图数据格式COO、CSC、CSR、DCSC和CSCI以及社区发现算法三角形计... 图计算由当前图应用与输入图数据驱动,而图应用各式各样、图结构也千差万别,相同图应用处理不同图时性能差异巨大.为探究图数据格式对图算法的性能影响,本文选取5种常用的图数据格式COO、CSC、CSR、DCSC和CSCI以及社区发现算法三角形计数在图数据p2p-Gnutella04、p2p-Gnutella06、soc-Epinions1上的应用作为分析对象,定义了图数据格式对图计算系统影响的性能指标,包括执行时间、数据移动量、计算量、功耗和各级cache MPKI等,基于Skylake Xeon(R)Platinum 8164处理器进行性能事件采集.实验结果表明,TC在COO、CSC、CSR、DCSC和CSCI格式下运行p2p-Gnutella04/06、soc-Epinions1图数据的执行时间(归一化到最长执行时间)之比为35.7%、0.04%、0.15%、9.7%、100%与34.1%、0.05%、1.81%、9.76%、100%和9.49%、0.92%、0.99%、9.1%、100%,数据移动量(归一化到最大数据移动量)之比为74.9%、3.7%、4.5%、20.32%、100%与100%、0.65%、0.81%、27.37%、13.43%和97.08%、42.94%、42.95%、86.38%、100%,计算量(归一化到最大计算量)之比为39.36%、6.5%、8.62%、10.68%、100%与31.6%、6.97%、8.64%、8.67%、100%和100%、0.9%、0.89%、28.09%、33.07%,功耗(归一化到最大功耗)之比为100%、57.39%、47.73%、33.24%、75.28%与37.03%、84.7%、40.8%、43.4%、100%和100%、34.77%、29.01%、28.39%、86%.实验结果对于为TC应用的输入图数据格式选择提供了依据. 展开更多
关键词 图计算 图数据格式 三角形计数 性能指标 特性分析
在线阅读 下载PDF
高精度滑动窗口模型下的图流三角形近似计数算法
4
作者 苟向阳 邹磊 于旭 《软件学报》 北大核心 2025年第9期4349-4372,共24页
近年来,图流分析在研究领域和工业领域都变得愈发重要.图流是从数据源持续高速到达的边序列,这些边组成了一个不断变化的动态图.在图流上可以进行多种不同的分析,而三角形计数是其中最基础的操作之一.由于图流数据规模大,更新速度高,在... 近年来,图流分析在研究领域和工业领域都变得愈发重要.图流是从数据源持续高速到达的边序列,这些边组成了一个不断变化的动态图.在图流上可以进行多种不同的分析,而三角形计数是其中最基础的操作之一.由于图流数据规模大,更新速度高,在图流上进行精确三角形计数效率较低,而且并不必要.因为大部分三角形计数应用都允许一定的误差,所以,图流上的近似三角形计数一直都是研究热点之一.研究基于采样的滑动窗口模型下的图流近似三角形计数.滑动窗口模型只关注最近到达的图流数据,较早的图流数据被认定为过期.它被广泛应用于不同的工业场景和研究工作中.将一种“采样前计数”的方法与该问题场景下最新的算法结合,并提出一套策略以应对由于边过期产生的困难.使用真实数据集展开广泛的实验以测试提出的CBS算法.实验结果表明,CBS相比目前最好的工作,估算误差降低了70%以上. 展开更多
关键词 图流 三角形计数 近似算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部