-
题名基于分布式索引和目录聚合的海量小文件存储研究
被引量:5
- 1
-
-
作者
马灿
孟丹
熊劲
-
机构
中国科学院计算技术研究所高性能计算机研究开发中心
中国科学院研究生院
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2012年第10期1035-1040,共6页
-
基金
863计划(2009AA01A129)资助项目.
-
文摘
针对海量小文件访问问题的挑战,提出了用基于分布式索引和目录聚合的分布式文件系统——超虚拟文件系统(HVFS)来管理数十亿个小文件的方法,以支持高并发、高吞吐、低延迟的访问。重点讨论了目录索引、目录存储问题,提出了利用可扩展哈希索引来降低延迟、提高扩展性,利用日志结构和列存储的目录聚合来提高吞吐率的方法。测试结果表明,HVFS的存储性能能够线性扩展,82节点上峰值创建速度接近百万每秒,与GIGA+相比有200%以上的提升,小文件I/O性能与OrangeFS相比有60倍以上的提升,充分验证了分布式索引和目录聚合方法的有效性。
-
关键词
小文件
海量存储
分布式索引
目录聚合
分布式文件系统
-
Keywords
small files, enormous storage, distributed indexing, directory aggregation, distributed file system
-
分类号
TP311.131
[自动化与计算机技术—计算机软件与理论]
-
-
题名一类时间函数曲线的多向步进压缩描述法
被引量:2
- 2
-
-
作者
刘喜成
韩承德
-
机构
中国科学院计算技术研究所高性能计算机研究中心
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
1997年第8期117-118,共2页
-
基金
国家攀登计划
-
文摘
心电图、脑电图是一类关于时间轴变化的单值连续函数曲线,本文针对这类曲线给出了一种高效、简洁的压缩描述方法,其压缩效率一般在游程编码的3倍以上.
-
关键词
时间函数
图象压缩
状态转换图
图象处理
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TN919.8
[电子电信—通信与信息系统]
-
-
题名KSI:面向TB级别的DNA序列匹配软件库
被引量:1
- 3
-
-
作者
赵喜全
李旭
吕慧伟
谭光明
-
机构
中国科学院计算技术研究所高性能计算机研究中心
中国科学院大学
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2015年第12期997-1004,共8页
-
基金
973计划(2012CB316502,2011CB302502)资助项目
-
文摘
为了满足对不同物种进行DNA序列分析的需求和适应DNA序列数据的快速增长,针对目前DNA序列分析软件大都各自实现一套序列存储和查询功能,工作重复且没有考虑并行性、扩展性和分布式系统或环境的缺陷,基于DNA序列分析的基本操作k-mer匹配,设计并实现了一个面向TB量级的DNA序列匹配软件库——k-mer查找接口(KSI)。KSI提供了一套分布式环境下的编程接口,并且针对生物计算领域的DNA序列匹配进行优化。实验显示,KSI为DNA序列匹配提供了一个高效的解决方案。
-
关键词
生物信息学
k-mer匹配
DNA序列处理
应用程序编程接口
-
Keywords
bioinformatics, k-mer searching, DNA sequence processing, application programming interface
-
分类号
Q811.4
[生物学—生物工程]
-
-
题名基于多核平台无关属性的程序并行度分析工具
- 4
-
-
作者
熬冉
谭光明
陈明宇
-
机构
中国科学院计算技术研究所高性能计算机研究中心
中国科学院研究生院
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2015年第1期31-37,共7页
-
基金
973计划(2012CB316502
2011CB302502)
+6 种基金
863计划(2009AA01A129)
国家自然科学基金(61272134
31327901
91430218
60921002
60925009
61472395)资助项目
-
文摘
为了充分利用计算机多核平台的并行能力,研究了针对特定多核平台的程序并行度分析和优化的方法,提出了一个基于平台无关属性提取的并行度分析工具ParaInsight。用此工具可分析程序中不同区域的可并行性,同时能够根据小规模输入集下的信息预测这些属性在大规模输入集下的值。通过使用支持向量机(SVM)构建的预测模型,对大输入集下的程序属性值进行预测。选取多线程程序测试包Parsec中的两个程序进行了实验,实验结果表明,通过核函数选择、训练参数调优以及输入变量筛选等方法,用ParaInsight可以有效地预测绝大多数并行区域及其不同的属性值。
-
关键词
并行度分析
动态剖析
输入感知
SVM预测
-
Keywords
parallelism analysis, dynamic profiling, input-aware, SVM-prediction
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名MACO:基于访存视角的卷积网络自动代码优化
- 5
-
-
作者
张晓扬
肖俊敏
姚家树
谭光明
-
机构
中国科学院计算技术研究所高性能计算机研究中心
中国科学院大学
-
出处
《高技术通讯》
CAS
2023年第12期1253-1264,共12页
-
基金
国家自然科学基金(62172391,61972377,62032023,T2125013)
北京市科技计划(Z231100007423002)资助项目。
-
文摘
推理自动优化一直是人工智能(AI)与系统结构领域交叉的研究重点,但以访存为出发点的自动优化研究方案较少。本文从全局和局部两方面出发,针对数据布局和内核的自动优化问题,以访存的视角对卷积神经网络(CNN)自动代码优化中优化时间成本过高的问题进行研究。为有效分析访存,本文改进了经典的红蓝卵石访存模型的建模方法,提出了新的I/O下界估计方法,降低了多阶段复合算法的下界估计难度,并基于改进后的模型估计了卷积的I/O下界。根据卷积下界估计的结论,本文对数据流进行合理设计,有针对性地优化了自动模板生成技术下巨大的搜索空间,避免了大量无效搜索过程,使内核搜索效率较在未经优化的搜索空间中得到显著加速,并在一般性的卷积参数下较cuDNN有平均2.24倍的性能提升,保证了内核性能。同时本文借助神经网络实现了不同数据布局下的卷积性能预测,R2得分高于传统机器学习模型,且在ResNet-18、AlexNet和VGG-11模型中采用基于数据布局回溯算法和预测模型的混合布局策略较默认布局策略分别有1.28倍、1.32倍和1.29倍的性能提升。
-
关键词
内存优化
人工智能(AI)
推理
数据布局
自动调优
-
Keywords
memory optimization
artificial intelligence(AI)
inference
data layout
auto-tuning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP311.52
[自动化与计算机技术—计算机软件与理论]
-