期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
13
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于多GPU的深度神经网络训练算法
被引量:
8
1
作者
顾乃杰
赵增
+1 位作者
吕亚飞
张致江
《小型微型计算机系统》
CSCD
北大核心
2015年第5期1042-1046,共5页
深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法...
深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法具有负载均衡,可扩展性高的特点.本算法充分利用PCI-E3.0传输特性,并结合peer-to-peer以及异步传输的特性以降低计算任务在划分和合并过程中带来的额外开销.除此之外,文章通过对算法流程的重构,实现算法数据相关性的解耦合,从而使得有更多的计算任务可用来掩盖传输过程.实验证明,该算法拥有双卡超过1.87的并行加速比,且算法执行过程中不会引入计算误差,可有效保证训练过程中的收敛效率,拥有理想的并行加速效果.
展开更多
关键词
深度学习
神经网络
GPGPU
并行算法
在线阅读
下载PDF
职称材料
一种用计算域分解的等几何分析并行化方法
被引量:
1
2
作者
郭利财
黄章进
顾乃杰
《小型微型计算机系统》
CSCD
北大核心
2013年第6期1396-1399,共4页
提出一种按照计算域分解的并行化方法来构建等几何分析的刚度矩阵和右侧向量.将计算域分解成为若干个不相交的子区域,然后为每个区域分配一个处理器,所有处理器并行进行子区域上面的计算,所有处理器完成子区域的计算以后,使用一个快速...
提出一种按照计算域分解的并行化方法来构建等几何分析的刚度矩阵和右侧向量.将计算域分解成为若干个不相交的子区域,然后为每个区域分配一个处理器,所有处理器并行进行子区域上面的计算,所有处理器完成子区域的计算以后,使用一个快速的归并算法完成线性系统的装配.实验表明,本文提出的方法在8核的机器上可以达到6.46的加速比,能够在4秒左右的时间计算680万个矩阵元素个数.使用Intel MKL稀疏求解器来求解线性系统,本文的等几何分析求解器能够在大约10秒的时间内求解52万的自由度,本文的方法比ISOGAT速度要快上万倍.
展开更多
关键词
等几何分析
并行计算
计算域分解
在线阅读
下载PDF
职称材料
多GPU环境下的卷积神经网络并行算法
被引量:
5
3
作者
王裕民
顾乃杰
张孝慈
《小型微型计算机系统》
CSCD
北大核心
2017年第3期536-539,共4页
随着深度学习的不断发展,卷积神经网络凭借其优异的识别性能,在图像识别、语音识别等领域受到了越来越多的关注.卷积神经网络的研究需要进行充分的实验,然而其训练过程通常需要大量时间.使用高性能GPU可以加速卷积神经网络的训练过程,...
随着深度学习的不断发展,卷积神经网络凭借其优异的识别性能,在图像识别、语音识别等领域受到了越来越多的关注.卷积神经网络的研究需要进行充分的实验,然而其训练过程通常需要大量时间.使用高性能GPU可以加速卷积神经网络的训练过程,但是由于GPU的特殊结构,进行多GPU的扩展时难以取得令人满意的加速比.提出一种在多GPU下的数据并行算法,与传统的客户机/服务器结构不同,该算法以环形结构组织GPU,更有利于多GPU扩展,系统不会受限于服务器节点的性能.此外还通过并行化单个GPU的计算与传输任务,提高GPU的使用效率.实验结果表明,使用4个GPU时,该算法分别在mnist和cifar10数据集上取得了3.77和3.79倍的加速比,并且对网络的识别性能无显著影响.
展开更多
关键词
卷积神经网络
GPU
随机梯度下降
并行算法
在线阅读
下载PDF
职称材料
基于前缀的片上网络容错源路由算法
被引量:
1
4
作者
许耿纯
任开新
顾乃杰
《计算机应用与软件》
CSCD
北大核心
2013年第2期18-21,25,共5页
为克服片上网络链路永久性错误带来的路由问题,提出一种基于前缀的片上网络容错源路由算法PFTSR。该算法适用于二维mesh片上网络,采用预测路径并根据反馈信息调整路径的方法进行路由探测。在仿真平台NIRGAM上进行仿真,实验结果表明,与...
为克服片上网络链路永久性错误带来的路由问题,提出一种基于前缀的片上网络容错源路由算法PFTSR。该算法适用于二维mesh片上网络,采用预测路径并根据反馈信息调整路径的方法进行路由探测。在仿真平台NIRGAM上进行仿真,实验结果表明,与传统片上网络容错源路由算法SRN相比,PFTSR极大降低了片上系统的功耗,并且在大多数情况下能减少探测到第一条路径的时间。
展开更多
关键词
片上网络
路由算法
容错
源路由
在线阅读
下载PDF
职称材料
基于轴对齐变形的视频缩放技术的研究
5
作者
宁兰芳
黄章进
郭利财
《计算机应用与软件》
CSCD
北大核心
2014年第8期213-218,256,共7页
多样化的显示设备对视频显示的适应性提出越来越高的要求。提出并实现一种基于轴对齐变形的内容感知视频缩放方法。首先根据梯度、人脸和运动的信息对视频进行分析,然后结合相邻帧信息建立二次规划系统进行变形求解。实验表明,求解方法...
多样化的显示设备对视频显示的适应性提出越来越高的要求。提出并实现一种基于轴对齐变形的内容感知视频缩放方法。首先根据梯度、人脸和运动的信息对视频进行分析,然后结合相邻帧信息建立二次规划系统进行变形求解。实验表明,求解方法简单有效,对有人脸或运动的视频进行缩放能够得到高质量的结果,能去除抖动现象。求解一帧可在毫秒级时间内完成,同时具有很好的鲁棒性。
展开更多
关键词
轴对齐变形
内容感知
视频分析
视频缩放
在线阅读
下载PDF
职称材料
一种内核级多进程负载均衡会话保持方法
被引量:
6
6
作者
张颖楠
顾乃杰
+2 位作者
彭建章
王国澎
魏振伟
《计算机工程》
CAS
CSCD
2014年第3期76-81,共6页
针对多进程负载均衡无法保持会话的问题,提出一个基于epoll机制的内核级高效解决方法。对于每个新建立的连接,在cpoll的通知机制中使用源地址哈希算法,由epoll通知哈希选出的进程接收此连接,期望通过为同一个IP地址的请求选择同一个负...
针对多进程负载均衡无法保持会话的问题,提出一个基于epoll机制的内核级高效解决方法。对于每个新建立的连接,在cpoll的通知机制中使用源地址哈希算法,由epoll通知哈希选出的进程接收此连接,期望通过为同一个IP地址的请求选择同一个负载均衡服务进程,保证该进程依据自身记录的会话信息将同一个客户的请求转发给同一个后端服务器。此外,通过分析多队列网卡的特性,给出维持收包发包中断、软中断、协议栈处理、用户态处理都在同一个核上的优化方法,以提高cache性能。实验结果表明,该方法能解决基于epoll的多进程负载均衡服务器的会话保持问题,并且在多核处理器多队列网卡环境下通过优化使cps提高12%,数据吞吐量提高4.6%。
展开更多
关键词
多队列网卡
多核
epoll机制
源地址哈希
会话保持
在线阅读
下载PDF
职称材料
一种面向数据密集型应用的并行程序执行模型
被引量:
2
7
作者
何颂颂
顾乃杰
任开新
《小型微型计算机系统》
CSCD
北大核心
2013年第7期1457-1461,共5页
随着各领域需要处理的数据量越来越大,数据密集型应用也变得越来越被重视.该文提出一种包含数据访存层次和访存冲突等信息的新并行程序执行模型PSRAM(h).针对数据密集型应用以访存为主的特点,PSRAM(h)模型将程序执行时间简化为访存时间...
随着各领域需要处理的数据量越来越大,数据密集型应用也变得越来越被重视.该文提出一种包含数据访存层次和访存冲突等信息的新并行程序执行模型PSRAM(h).针对数据密集型应用以访存为主的特点,PSRAM(h)模型将程序执行时间简化为访存时间,通过分析各程序子段的访存层次和数量来预测串行程序的执行时间,进而通过使用各线程执行时间的最大值来预测并行程序的执行时间.使用PSRAM(h)模型下对最典型的数据密集型应用矩阵向量乘进行分析,在龙芯3A处理器和Intel Xeon E5520处理器两个平台上的测试结果表明,PSRAM(h)模型分析结果与实测结果大部分情况下误差小于20%.由此可见,针对数据密集型应用,PSRAM(h)不但可以给出程序执行时间的下限,还可以有效的预测程序的执行时间.
展开更多
关键词
数据密集型
共享内存
PSRAM(h)
程序执行模型
在线阅读
下载PDF
职称材料
Java虚拟机中的只读锁优化
被引量:
1
8
作者
林传文
顾乃杰
黄章进
《小型微型计算机系统》
CSCD
北大核心
2013年第5期1113-1117,共5页
Java虚拟机使用锁机制来实现多线程共享数据结构的同步.锁机制维护的临界区通常对共享数据结构只进行读操作.只读锁是指当某个线程持有锁在只读临界区时,其他线程可以直接进入只读临界区而无需等待.只读锁能极大地提高锁机制的同步性能....
Java虚拟机使用锁机制来实现多线程共享数据结构的同步.锁机制维护的临界区通常对共享数据结构只进行读操作.只读锁是指当某个线程持有锁在只读临界区时,其他线程可以直接进入只读临界区而无需等待.只读锁能极大地提高锁机制的同步性能.Java虚拟机的锁机制可分为轻量级锁和重量级锁两层,当线程冲突时从轻量级锁转向重量级锁.本文分别从轻量级锁和重量级锁两个层次分别进行只读锁优化.轻量级锁的只读优化算法可以减少原子操作的开销;重量级锁的只读优化算法则可以使多个线程同时在只读临界区中.最后在Java虚拟机HotSpot中实现只读锁优化,并且在龙芯3A上进行实验.性能测试用例包括单线程Java程序、多线程Java程序以及SPECjvm2008.实验结果表明,上述优化方法能极大降低线程进入和退出只读临界区的开销,提高Java虚拟机的同步性能.
展开更多
关键词
只读锁
同步
优化
JAVA虚拟机
在线阅读
下载PDF
职称材料
Java虚拟机中的动态锁cache优化
9
作者
林传文
顾乃杰
蔡嵩松
《中国科学技术大学学报》
CAS
CSCD
北大核心
2013年第4期271-277,共7页
Java虚拟机在运行过程中使用即时编译器编译Java程序的热点方法,然后直接执行热点方法的本地代码.锁cache机制允许Java虚拟机将编译方法的本地代码锁在cache中,以提高编译执行时的指令cache命中率.通过分析Java虚拟机中编译方法的调用规...
Java虚拟机在运行过程中使用即时编译器编译Java程序的热点方法,然后直接执行热点方法的本地代码.锁cache机制允许Java虚拟机将编译方法的本地代码锁在cache中,以提高编译执行时的指令cache命中率.通过分析Java虚拟机中编译方法的调用规律,得到编译方法的活跃时间段、平均大小和内存分布情况.基于编译方法的调用规律,给出Java虚拟机中的动态锁cache优化方法.在Java热点方法的活跃期将其本地代码段锁在cache中,以减少cache失效.最后,在龙芯3A的HotSpot虚拟机上实现了动态锁cache优化方法.实验结果表明,Java虚拟机中的动态锁cache优化方法能够使SPECjvm2008运行时的cache失效次数平均降低8.5%,性能平均提升4%.
展开更多
关键词
JAVA虚拟机
CACHE
锁cache机制
即时编译
在线阅读
下载PDF
职称材料
一种按字长匹配的Wu-Manber多模式匹配算法
被引量:
2
10
作者
汪永进
顾乃杰
任开新
《小型微型计算机系统》
CSCD
北大核心
2013年第7期1650-1653,共4页
多模式匹配是串处理系统中最重要的操作之一,而Wu-Manber算法是多模式串匹配算法中平均性能表现最好的算法.针对Wu-Manber多模式匹配算法在规则集中存在短模式串时性能下降的问题,提出一种按字长匹配的多模式匹配算法.改进的算法是在32...
多模式匹配是串处理系统中最重要的操作之一,而Wu-Manber算法是多模式串匹配算法中平均性能表现最好的算法.针对Wu-Manber多模式匹配算法在规则集中存在短模式串时性能下降的问题,提出一种按字长匹配的多模式匹配算法.改进的算法是在32位机器上实现,哈希的字符块长度取2,每次匹配的单位由原来的一个字符变为一个机器字,缩小了访存时间,同时利用机器字长存储的特点合理设计哈希函数,加快了字符块哈希值的计算,极大的提高了有短模式串存在时模式集的匹配性能.与原Wu-Manber算法对比,当最短模式串长度小于6时,改进后的算法搜索时间平均缩短了40%.当最短模式串长度为2和3时,搜索时间缩短了60%以上.
展开更多
关键词
多模式串匹配
机器字
短模式串
规则集
在线阅读
下载PDF
职称材料
LAPACK线性方程求解函数在龙芯3A上的并行化
被引量:
1
11
作者
刘斌斌
顾乃杰
+1 位作者
任开新
张杰
《小型微型计算机系统》
CSCD
北大核心
2014年第5期1085-1089,共5页
针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多...
针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多核库便可使用.通过LAPACK自带的性能测试程序进行测试,实验结果表明,在四核模式下,大多数函数加速比达到2以上,部分函数加速比超过了3,所有线性方程求解类函数加速比的算术平均值达到2.04.
展开更多
关键词
LAPACK
BLAS
龙芯3A
多核
在线阅读
下载PDF
职称材料
基于网页结构的自适应Web缓存(英文)
被引量:
3
12
作者
张开敏
《中国科学技术大学学报》
CAS
CSCD
北大核心
2013年第10期799-810,共12页
消除Web应用中冗余的数据传输可以有效地提升Web应用的响应能力,已有的算法没有充分利用网页的结构信息,因而会降低缓存数据的命中率.针对这种情况,提出了一种全新的Web缓存方案,称为基于网页结构的自适应Web缓存(SBAWC).SBAWC充分利用...
消除Web应用中冗余的数据传输可以有效地提升Web应用的响应能力,已有的算法没有充分利用网页的结构信息,因而会降低缓存数据的命中率.针对这种情况,提出了一种全新的Web缓存方案,称为基于网页结构的自适应Web缓存(SBAWC).SBAWC充分利用了网页本身的结构和语义信息,同时仅缓存Web数据中稳定的部分,以更好地消除冗余数据,提升缓存命中率.在真实网页上进行的实验结果表明,与现有的方案相比,SBAWC可以更加高效地消除Web应用网络传输中的冗余数据.
展开更多
关键词
缓存
超文本标记语言
冗余数据消除
差分编码
在线阅读
下载PDF
职称材料
一种并行的网页解析算法
被引量:
1
13
作者
张开敏
《小型微型计算机系统》
CSCD
北大核心
2014年第2期193-198,共6页
如今,Web应用已经可以提供接近传统桌面应用的用户体验,其网页也相应地变得更加复杂,从而对Web浏览器的性能提出了巨大挑战.传统的Web浏览器通常使用单一线程处理网页,无法充分利用多处理器设备的运算能力,针对于此提出了一种并行的网...
如今,Web应用已经可以提供接近传统桌面应用的用户体验,其网页也相应地变得更加复杂,从而对Web浏览器的性能提出了巨大挑战.传统的Web浏览器通常使用单一线程处理网页,无法充分利用多处理器设备的运算能力,针对于此提出了一种并行的网页解析算法.与现有针对网页处理的并行算法不同,本算法基于数据并行的方案,通过将输入数据划分成多个部分,对其进行并行处理,再合并各个部分的结果以得到最终结果.本算法可以充分利用现有的高度优化的串行网页处理算法,并且兼容现有的Web标准和技术.在Webkit浏览器引擎上进行的实验指出,本并行算法可以有效利用多核处理器的运算能力,显著提高了网页解析过程的速度.
展开更多
关键词
多核处理器
并行算法
超文本标记语言
万维网
解析
在线阅读
下载PDF
职称材料
题名
基于多GPU的深度神经网络训练算法
被引量:
8
1
作者
顾乃杰
赵增
吕亚飞
张致江
机构
中国科
学与
技术
大学
计算
机
科学
与
技术
学院
网络
计算
与高校算法
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
科大讯飞
出处
《小型微型计算机系统》
CSCD
北大核心
2015年第5期1042-1046,共5页
基金
核高基重大专项项目(2009ZX01028-002-003-005)资助
文摘
深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法具有负载均衡,可扩展性高的特点.本算法充分利用PCI-E3.0传输特性,并结合peer-to-peer以及异步传输的特性以降低计算任务在划分和合并过程中带来的额外开销.除此之外,文章通过对算法流程的重构,实现算法数据相关性的解耦合,从而使得有更多的计算任务可用来掩盖传输过程.实验证明,该算法拥有双卡超过1.87的并行加速比,且算法执行过程中不会引入计算误差,可有效保证训练过程中的收敛效率,拥有理想的并行加速效果.
关键词
深度学习
神经网络
GPGPU
并行算法
Keywords
deep learning
neural networks
GPGPU
parallel algorithms
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
一种用计算域分解的等几何分析并行化方法
被引量:
1
2
作者
郭利财
黄章进
顾乃杰
机构
中国科学技术大学
计算
机学院
安徽省
计算
与通信
软件重点
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第6期1396-1399,共4页
基金
国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助
国家自然科学基金项目(60833004)资助
安徽省高等学校省级自然科学研究重点项目(KJ2012A008)资助
文摘
提出一种按照计算域分解的并行化方法来构建等几何分析的刚度矩阵和右侧向量.将计算域分解成为若干个不相交的子区域,然后为每个区域分配一个处理器,所有处理器并行进行子区域上面的计算,所有处理器完成子区域的计算以后,使用一个快速的归并算法完成线性系统的装配.实验表明,本文提出的方法在8核的机器上可以达到6.46的加速比,能够在4秒左右的时间计算680万个矩阵元素个数.使用Intel MKL稀疏求解器来求解线性系统,本文的等几何分析求解器能够在大约10秒的时间内求解52万的自由度,本文的方法比ISOGAT速度要快上万倍.
关键词
等几何分析
并行计算
计算域分解
Keywords
IsoGeometric analysis
parallel computing
computational domain decomposition
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
多GPU环境下的卷积神经网络并行算法
被引量:
5
3
作者
王裕民
顾乃杰
张孝慈
机构
中国科学技术大学
计算
机
科学
与
技术
学院
网络
计算
与高效算法
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第3期536-539,共4页
文摘
随着深度学习的不断发展,卷积神经网络凭借其优异的识别性能,在图像识别、语音识别等领域受到了越来越多的关注.卷积神经网络的研究需要进行充分的实验,然而其训练过程通常需要大量时间.使用高性能GPU可以加速卷积神经网络的训练过程,但是由于GPU的特殊结构,进行多GPU的扩展时难以取得令人满意的加速比.提出一种在多GPU下的数据并行算法,与传统的客户机/服务器结构不同,该算法以环形结构组织GPU,更有利于多GPU扩展,系统不会受限于服务器节点的性能.此外还通过并行化单个GPU的计算与传输任务,提高GPU的使用效率.实验结果表明,使用4个GPU时,该算法分别在mnist和cifar10数据集上取得了3.77和3.79倍的加速比,并且对网络的识别性能无显著影响.
关键词
卷积神经网络
GPU
随机梯度下降
并行算法
Keywords
convolutional neural network
GPU
stochastic gradient descent
parallel algorithms
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于前缀的片上网络容错源路由算法
被引量:
1
4
作者
许耿纯
任开新
顾乃杰
机构
中国科学技术大学
计算
机
科学
与
技术
学院
安徽省
计算
与通讯软件重点
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
出处
《计算机应用与软件》
CSCD
北大核心
2013年第2期18-21,25,共5页
基金
国家自然科学基金项目(60833004)
高等学校学科创新引智计划项目(B07033)
文摘
为克服片上网络链路永久性错误带来的路由问题,提出一种基于前缀的片上网络容错源路由算法PFTSR。该算法适用于二维mesh片上网络,采用预测路径并根据反馈信息调整路径的方法进行路由探测。在仿真平台NIRGAM上进行仿真,实验结果表明,与传统片上网络容错源路由算法SRN相比,PFTSR极大降低了片上系统的功耗,并且在大多数情况下能减少探测到第一条路径的时间。
关键词
片上网络
路由算法
容错
源路由
Keywords
Network-on-Chip(NoC) Routing algorithm Fault-tolerant Source routing
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于轴对齐变形的视频缩放技术的研究
5
作者
宁兰芳
黄章进
郭利财
机构
中国科学技术大学
计算
机
科学
与
技术
学院
安徽省
计算
与通信
软件重点
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
出处
《计算机应用与软件》
CSCD
北大核心
2014年第8期213-218,256,共7页
基金
核高基重大专项(2009ZX01028-002-003-005)
高等学校学科创新引智计划项目(B07033)
中央高校基本科研业务费专项资金(WK0110000030)
文摘
多样化的显示设备对视频显示的适应性提出越来越高的要求。提出并实现一种基于轴对齐变形的内容感知视频缩放方法。首先根据梯度、人脸和运动的信息对视频进行分析,然后结合相邻帧信息建立二次规划系统进行变形求解。实验表明,求解方法简单有效,对有人脸或运动的视频进行缩放能够得到高质量的结果,能去除抖动现象。求解一帧可在毫秒级时间内完成,同时具有很好的鲁棒性。
关键词
轴对齐变形
内容感知
视频分析
视频缩放
Keywords
Axis-aligned deformation Content-aware Video analysis Video scaling
分类号
TP39 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种内核级多进程负载均衡会话保持方法
被引量:
6
6
作者
张颖楠
顾乃杰
彭建章
王国澎
魏振伟
机构
中国科学技术大学
计算
机
科学
与
技术
学院
中国科学技术大学
安徽省
计算
与通讯软件重点
实验室
中国科学技术大学
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
国家高性能集成电路设计中心
出处
《计算机工程》
CAS
CSCD
2014年第3期76-81,共6页
基金
“核高基”重大专项(2009ZX01028-002-003-005)
高等学校学科创新引智计划基金资助项目(B07033)
文摘
针对多进程负载均衡无法保持会话的问题,提出一个基于epoll机制的内核级高效解决方法。对于每个新建立的连接,在cpoll的通知机制中使用源地址哈希算法,由epoll通知哈希选出的进程接收此连接,期望通过为同一个IP地址的请求选择同一个负载均衡服务进程,保证该进程依据自身记录的会话信息将同一个客户的请求转发给同一个后端服务器。此外,通过分析多队列网卡的特性,给出维持收包发包中断、软中断、协议栈处理、用户态处理都在同一个核上的优化方法,以提高cache性能。实验结果表明,该方法能解决基于epoll的多进程负载均衡服务器的会话保持问题,并且在多核处理器多队列网卡环境下通过优化使cps提高12%,数据吞吐量提高4.6%。
关键词
多队列网卡
多核
epoll机制
源地址哈希
会话保持
Keywords
multi-queue network card
multi-core
epoll mechanism
source address hash
session-persistence
分类号
TP393.03 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种面向数据密集型应用的并行程序执行模型
被引量:
2
7
作者
何颂颂
顾乃杰
任开新
机构
中国科学技术大学
计算
机学院
安徽省
计算
与通信
软件重点
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第7期1457-1461,共5页
基金
国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助
国家自然科学基金项目(60833004)资助
文摘
随着各领域需要处理的数据量越来越大,数据密集型应用也变得越来越被重视.该文提出一种包含数据访存层次和访存冲突等信息的新并行程序执行模型PSRAM(h).针对数据密集型应用以访存为主的特点,PSRAM(h)模型将程序执行时间简化为访存时间,通过分析各程序子段的访存层次和数量来预测串行程序的执行时间,进而通过使用各线程执行时间的最大值来预测并行程序的执行时间.使用PSRAM(h)模型下对最典型的数据密集型应用矩阵向量乘进行分析,在龙芯3A处理器和Intel Xeon E5520处理器两个平台上的测试结果表明,PSRAM(h)模型分析结果与实测结果大部分情况下误差小于20%.由此可见,针对数据密集型应用,PSRAM(h)不但可以给出程序执行时间的下限,还可以有效的预测程序的执行时间.
关键词
数据密集型
共享内存
PSRAM(h)
程序执行模型
Keywords
date-intensive
shared memory
PSRAM(h)
program execution model
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
Java虚拟机中的只读锁优化
被引量:
1
8
作者
林传文
顾乃杰
黄章进
机构
中国科学技术大学
计算
机
科学
与
技术
学院
安徽省
计算
与通信
软件重点
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第5期1113-1117,共5页
基金
国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助
国家自然科学基金项目(60833004)资助
文摘
Java虚拟机使用锁机制来实现多线程共享数据结构的同步.锁机制维护的临界区通常对共享数据结构只进行读操作.只读锁是指当某个线程持有锁在只读临界区时,其他线程可以直接进入只读临界区而无需等待.只读锁能极大地提高锁机制的同步性能.Java虚拟机的锁机制可分为轻量级锁和重量级锁两层,当线程冲突时从轻量级锁转向重量级锁.本文分别从轻量级锁和重量级锁两个层次分别进行只读锁优化.轻量级锁的只读优化算法可以减少原子操作的开销;重量级锁的只读优化算法则可以使多个线程同时在只读临界区中.最后在Java虚拟机HotSpot中实现只读锁优化,并且在龙芯3A上进行实验.性能测试用例包括单线程Java程序、多线程Java程序以及SPECjvm2008.实验结果表明,上述优化方法能极大降低线程进入和退出只读临界区的开销,提高Java虚拟机的同步性能.
关键词
只读锁
同步
优化
JAVA虚拟机
Keywords
read-only lock
synchronization
optimization
Java virtual machine
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
Java虚拟机中的动态锁cache优化
9
作者
林传文
顾乃杰
蔡嵩松
机构
中国科学技术大学
计算
机
科学技术
学院
安徽省
计算
与通信
软件重点
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
中国科
学院
计算
技术
研究所
出处
《中国科学技术大学学报》
CAS
CSCD
北大核心
2013年第4期271-277,共7页
基金
国家"核高基"重大专项(2009ZX01028-002-003-005)
国家自然科学基金(No.60833004)资助
文摘
Java虚拟机在运行过程中使用即时编译器编译Java程序的热点方法,然后直接执行热点方法的本地代码.锁cache机制允许Java虚拟机将编译方法的本地代码锁在cache中,以提高编译执行时的指令cache命中率.通过分析Java虚拟机中编译方法的调用规律,得到编译方法的活跃时间段、平均大小和内存分布情况.基于编译方法的调用规律,给出Java虚拟机中的动态锁cache优化方法.在Java热点方法的活跃期将其本地代码段锁在cache中,以减少cache失效.最后,在龙芯3A的HotSpot虚拟机上实现了动态锁cache优化方法.实验结果表明,Java虚拟机中的动态锁cache优化方法能够使SPECjvm2008运行时的cache失效次数平均降低8.5%,性能平均提升4%.
关键词
JAVA虚拟机
CACHE
锁cache机制
即时编译
Keywords
java virtual machine
cache
cache locking
just-in-time compiler
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种按字长匹配的Wu-Manber多模式匹配算法
被引量:
2
10
作者
汪永进
顾乃杰
任开新
机构
中国科学技术大学
计算
机学院
安徽省
计算
与通信
软件重点
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第7期1650-1653,共4页
基金
国家重大专项(2009ZX01028-002-003-005)资助
国家自然科学基金项目(60833004)资助
文摘
多模式匹配是串处理系统中最重要的操作之一,而Wu-Manber算法是多模式串匹配算法中平均性能表现最好的算法.针对Wu-Manber多模式匹配算法在规则集中存在短模式串时性能下降的问题,提出一种按字长匹配的多模式匹配算法.改进的算法是在32位机器上实现,哈希的字符块长度取2,每次匹配的单位由原来的一个字符变为一个机器字,缩小了访存时间,同时利用机器字长存储的特点合理设计哈希函数,加快了字符块哈希值的计算,极大的提高了有短模式串存在时模式集的匹配性能.与原Wu-Manber算法对比,当最短模式串长度小于6时,改进后的算法搜索时间平均缩短了40%.当最短模式串长度为2和3时,搜索时间缩短了60%以上.
关键词
多模式串匹配
机器字
短模式串
规则集
Keywords
multi-pattern matching
word length
short patterns
rule set
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
LAPACK线性方程求解函数在龙芯3A上的并行化
被引量:
1
11
作者
刘斌斌
顾乃杰
任开新
张杰
机构
中国科学技术大学
计算
机
科学技术
学院
安徽省
计算
与通信
软件重点
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第5期1085-1089,共5页
基金
国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助
文摘
针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多核库便可使用.通过LAPACK自带的性能测试程序进行测试,实验结果表明,在四核模式下,大多数函数加速比达到2以上,部分函数加速比超过了3,所有线性方程求解类函数加速比的算术平均值达到2.04.
关键词
LAPACK
BLAS
龙芯3A
多核
Keywords
LAPACK
BLAS
Loongson 3A
multi-core
分类号
TP303 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于网页结构的自适应Web缓存(英文)
被引量:
3
12
作者
张开敏
机构
中国科学技术大学
计算
机
科学
与
技术
学院
安徽省
计算
与通信
软件重点
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
出处
《中国科学技术大学学报》
CAS
CSCD
北大核心
2013年第10期799-810,共12页
文摘
消除Web应用中冗余的数据传输可以有效地提升Web应用的响应能力,已有的算法没有充分利用网页的结构信息,因而会降低缓存数据的命中率.针对这种情况,提出了一种全新的Web缓存方案,称为基于网页结构的自适应Web缓存(SBAWC).SBAWC充分利用了网页本身的结构和语义信息,同时仅缓存Web数据中稳定的部分,以更好地消除冗余数据,提升缓存命中率.在真实网页上进行的实验结果表明,与现有的方案相比,SBAWC可以更加高效地消除Web应用网络传输中的冗余数据.
关键词
缓存
超文本标记语言
冗余数据消除
差分编码
Keywords
caching
hypertext markup language
redundancy elimination
delta-encoding
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种并行的网页解析算法
被引量:
1
13
作者
张开敏
机构
中国科学技术大学
计算
机
科学
与
技术
学院
安徽省
计算
与通信
软件重点
实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第2期193-198,共6页
基金
国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助
国家自然科学基金项目(60833004)资助
高等学校创新引智计划项目(B07033)资助
文摘
如今,Web应用已经可以提供接近传统桌面应用的用户体验,其网页也相应地变得更加复杂,从而对Web浏览器的性能提出了巨大挑战.传统的Web浏览器通常使用单一线程处理网页,无法充分利用多处理器设备的运算能力,针对于此提出了一种并行的网页解析算法.与现有针对网页处理的并行算法不同,本算法基于数据并行的方案,通过将输入数据划分成多个部分,对其进行并行处理,再合并各个部分的结果以得到最终结果.本算法可以充分利用现有的高度优化的串行网页处理算法,并且兼容现有的Web标准和技术.在Webkit浏览器引擎上进行的实验指出,本并行算法可以有效利用多核处理器的运算能力,显著提高了网页解析过程的速度.
关键词
多核处理器
并行算法
超文本标记语言
万维网
解析
Keywords
multi-core processor
parallel algorithm
hypertext markup language
word wide Web
parsing
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于多GPU的深度神经网络训练算法
顾乃杰
赵增
吕亚飞
张致江
《小型微型计算机系统》
CSCD
北大核心
2015
8
在线阅读
下载PDF
职称材料
2
一种用计算域分解的等几何分析并行化方法
郭利财
黄章进
顾乃杰
《小型微型计算机系统》
CSCD
北大核心
2013
1
在线阅读
下载PDF
职称材料
3
多GPU环境下的卷积神经网络并行算法
王裕民
顾乃杰
张孝慈
《小型微型计算机系统》
CSCD
北大核心
2017
5
在线阅读
下载PDF
职称材料
4
基于前缀的片上网络容错源路由算法
许耿纯
任开新
顾乃杰
《计算机应用与软件》
CSCD
北大核心
2013
1
在线阅读
下载PDF
职称材料
5
基于轴对齐变形的视频缩放技术的研究
宁兰芳
黄章进
郭利财
《计算机应用与软件》
CSCD
北大核心
2014
0
在线阅读
下载PDF
职称材料
6
一种内核级多进程负载均衡会话保持方法
张颖楠
顾乃杰
彭建章
王国澎
魏振伟
《计算机工程》
CAS
CSCD
2014
6
在线阅读
下载PDF
职称材料
7
一种面向数据密集型应用的并行程序执行模型
何颂颂
顾乃杰
任开新
《小型微型计算机系统》
CSCD
北大核心
2013
2
在线阅读
下载PDF
职称材料
8
Java虚拟机中的只读锁优化
林传文
顾乃杰
黄章进
《小型微型计算机系统》
CSCD
北大核心
2013
1
在线阅读
下载PDF
职称材料
9
Java虚拟机中的动态锁cache优化
林传文
顾乃杰
蔡嵩松
《中国科学技术大学学报》
CAS
CSCD
北大核心
2013
0
在线阅读
下载PDF
职称材料
10
一种按字长匹配的Wu-Manber多模式匹配算法
汪永进
顾乃杰
任开新
《小型微型计算机系统》
CSCD
北大核心
2013
2
在线阅读
下载PDF
职称材料
11
LAPACK线性方程求解函数在龙芯3A上的并行化
刘斌斌
顾乃杰
任开新
张杰
《小型微型计算机系统》
CSCD
北大核心
2014
1
在线阅读
下载PDF
职称材料
12
基于网页结构的自适应Web缓存(英文)
张开敏
《中国科学技术大学学报》
CAS
CSCD
北大核心
2013
3
在线阅读
下载PDF
职称材料
13
一种并行的网页解析算法
张开敏
《小型微型计算机系统》
CSCD
北大核心
2014
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部