为解决医疗数据中存在的特征高维和类别不平衡问题,在基于简单、快速和有效高维特征选择算法SFE(simple,fast and effective high-dimensional feature selection)的基础上,提出了一种面向不平衡医疗数据的多阶段混合特征选择算法HFSIM(...为解决医疗数据中存在的特征高维和类别不平衡问题,在基于简单、快速和有效高维特征选择算法SFE(simple,fast and effective high-dimensional feature selection)的基础上,提出了一种面向不平衡医疗数据的多阶段混合特征选择算法HFSIM(hybrid feature selection for imbalanced medical data)。HFSIM算法采用改进的自适应边界SMOTE过采样技术,生成符合边界条件的新少数类实例以解决医学数据中类不平衡问题。同时,为了改善搜索空间多样性不足的问题,优化了SFE算法中的非选择操作符率参数UR(unselected rate),有效避免了算法过早收敛及易陷入局部最优的问题。将过滤式Fisher Score方法与优化UR参数后的算法有效结合,使算法能以较低的计算成本获得较好寻优能力。经实验验证,相比于SFE算法,HFSIM算法在Ovarian数据集上准确率达到99.67%,提升了2.11个百分点,G-means和F1分别提升了5.13和2.30个百分点。此外,通过对比特征数量和运行时间,证明了HFSIM算法既能保证算法精度又有效降低了计算成本。展开更多
随着纠删码在分布式存储系统中的实际应用,纠删码为存储系统提供了更加优秀的存储效率,但当节点丢失时,相较于传统副本技术更多的网络传输带宽开销成为了造成系统性能瓶颈的关键因素。为了解决MDS编码高带宽开销对系统性能的影响,一类...随着纠删码在分布式存储系统中的实际应用,纠删码为存储系统提供了更加优秀的存储效率,但当节点丢失时,相较于传统副本技术更多的网络传输带宽开销成为了造成系统性能瓶颈的关键因素。为了解决MDS编码高带宽开销对系统性能的影响,一类新型编码方案——分组码被应用在分布式存储系统中,相较于传统MDS编码能够有效地降低节点修复时的数据传输量,从而减少网络带宽需求。在Pyramid分组码的基础上进行层次扩展,提出一种HLRC(hierarchical local repair codes)纠删码。HLRC相较于LRC引入了层次编码模型,将原始数据块构建为编码矩阵,根据层次进行分别编码,生成包含数据块范围不同的局部校验块;每个层次包含的数据块数量不同,可以保证修复节点时的低修复成本,同时还拥有较高的存储效率。HLRC相较于Pyramid拥有额外的校验块冗余,能够降低校验块出错和多节点出错时的恢复开销。在基于Ceph的分布式存储系统中的实验结果表明,HLRC与Pyramid等分组码相比,单节点修复开销最高可降低48.56%,多节点修复开销最高可降低25%。展开更多
在大规模分布式存储系统的广泛应用背景下,传统容错编码方案在单盘和双盘故障修复过程中面临读取资源消耗高、修复效率不足等技术难题,提出一种具有局部修复特性的混合校验编码方案——VC-code(vertical central symmetric code)。VC-c...在大规模分布式存储系统的广泛应用背景下,传统容错编码方案在单盘和双盘故障修复过程中面临读取资源消耗高、修复效率不足等技术难题,提出一种具有局部修复特性的混合校验编码方案——VC-code(vertical central symmetric code)。VC-code通过融合横纵式阵列码的快速修复与负载均衡特性,设计了一种局部水平校验与对角校验交叉融合的结构,并采用纵向中心对称校验布局优化数据依赖关系。该设计将单盘和双盘故障修复的数据读取量显著降低,同时通过缩短修复链提升整体效率。理论分析表明,在单双盘故障恢复时大幅降低了数据读取开销。实验结果进一步验证了其性能优势,与RDP码、LRRDP码以及DRDP码相比,VC-code在单盘故障修复时间上减少了10.45%~29.57%,在双盘故障修复时间上减少了6.35%~33.24%。展开更多
文摘为解决医疗数据中存在的特征高维和类别不平衡问题,在基于简单、快速和有效高维特征选择算法SFE(simple,fast and effective high-dimensional feature selection)的基础上,提出了一种面向不平衡医疗数据的多阶段混合特征选择算法HFSIM(hybrid feature selection for imbalanced medical data)。HFSIM算法采用改进的自适应边界SMOTE过采样技术,生成符合边界条件的新少数类实例以解决医学数据中类不平衡问题。同时,为了改善搜索空间多样性不足的问题,优化了SFE算法中的非选择操作符率参数UR(unselected rate),有效避免了算法过早收敛及易陷入局部最优的问题。将过滤式Fisher Score方法与优化UR参数后的算法有效结合,使算法能以较低的计算成本获得较好寻优能力。经实验验证,相比于SFE算法,HFSIM算法在Ovarian数据集上准确率达到99.67%,提升了2.11个百分点,G-means和F1分别提升了5.13和2.30个百分点。此外,通过对比特征数量和运行时间,证明了HFSIM算法既能保证算法精度又有效降低了计算成本。
文摘随着纠删码在分布式存储系统中的实际应用,纠删码为存储系统提供了更加优秀的存储效率,但当节点丢失时,相较于传统副本技术更多的网络传输带宽开销成为了造成系统性能瓶颈的关键因素。为了解决MDS编码高带宽开销对系统性能的影响,一类新型编码方案——分组码被应用在分布式存储系统中,相较于传统MDS编码能够有效地降低节点修复时的数据传输量,从而减少网络带宽需求。在Pyramid分组码的基础上进行层次扩展,提出一种HLRC(hierarchical local repair codes)纠删码。HLRC相较于LRC引入了层次编码模型,将原始数据块构建为编码矩阵,根据层次进行分别编码,生成包含数据块范围不同的局部校验块;每个层次包含的数据块数量不同,可以保证修复节点时的低修复成本,同时还拥有较高的存储效率。HLRC相较于Pyramid拥有额外的校验块冗余,能够降低校验块出错和多节点出错时的恢复开销。在基于Ceph的分布式存储系统中的实验结果表明,HLRC与Pyramid等分组码相比,单节点修复开销最高可降低48.56%,多节点修复开销最高可降低25%。
文摘在大规模分布式存储系统的广泛应用背景下,传统容错编码方案在单盘和双盘故障修复过程中面临读取资源消耗高、修复效率不足等技术难题,提出一种具有局部修复特性的混合校验编码方案——VC-code(vertical central symmetric code)。VC-code通过融合横纵式阵列码的快速修复与负载均衡特性,设计了一种局部水平校验与对角校验交叉融合的结构,并采用纵向中心对称校验布局优化数据依赖关系。该设计将单盘和双盘故障修复的数据读取量显著降低,同时通过缩短修复链提升整体效率。理论分析表明,在单双盘故障恢复时大幅降低了数据读取开销。实验结果进一步验证了其性能优势,与RDP码、LRRDP码以及DRDP码相比,VC-code在单盘故障修复时间上减少了10.45%~29.57%,在双盘故障修复时间上减少了6.35%~33.24%。