期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于多GPU的深度神经网络训练算法 被引量:8
1
作者 顾乃杰 赵增 +1 位作者 吕亚飞 张致江 《小型微型计算机系统》 CSCD 北大核心 2015年第5期1042-1046,共5页
深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法... 深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法具有负载均衡,可扩展性高的特点.本算法充分利用PCI-E3.0传输特性,并结合peer-to-peer以及异步传输的特性以降低计算任务在划分和合并过程中带来的额外开销.除此之外,文章通过对算法流程的重构,实现算法数据相关性的解耦合,从而使得有更多的计算任务可用来掩盖传输过程.实验证明,该算法拥有双卡超过1.87的并行加速比,且算法执行过程中不会引入计算误差,可有效保证训练过程中的收敛效率,拥有理想的并行加速效果. 展开更多
关键词 深度学习 神经网络 GPGPU 并行算法
在线阅读 下载PDF
一种用计算域分解的等几何分析并行化方法 被引量:1
2
作者 郭利财 黄章进 顾乃杰 《小型微型计算机系统》 CSCD 北大核心 2013年第6期1396-1399,共4页
提出一种按照计算域分解的并行化方法来构建等几何分析的刚度矩阵和右侧向量.将计算域分解成为若干个不相交的子区域,然后为每个区域分配一个处理器,所有处理器并行进行子区域上面的计算,所有处理器完成子区域的计算以后,使用一个快速... 提出一种按照计算域分解的并行化方法来构建等几何分析的刚度矩阵和右侧向量.将计算域分解成为若干个不相交的子区域,然后为每个区域分配一个处理器,所有处理器并行进行子区域上面的计算,所有处理器完成子区域的计算以后,使用一个快速的归并算法完成线性系统的装配.实验表明,本文提出的方法在8核的机器上可以达到6.46的加速比,能够在4秒左右的时间计算680万个矩阵元素个数.使用Intel MKL稀疏求解器来求解线性系统,本文的等几何分析求解器能够在大约10秒的时间内求解52万的自由度,本文的方法比ISOGAT速度要快上万倍. 展开更多
关键词 等几何分析 并行计算 计算域分解
在线阅读 下载PDF
多GPU环境下的卷积神经网络并行算法 被引量:5
3
作者 王裕民 顾乃杰 张孝慈 《小型微型计算机系统》 CSCD 北大核心 2017年第3期536-539,共4页
随着深度学习的不断发展,卷积神经网络凭借其优异的识别性能,在图像识别、语音识别等领域受到了越来越多的关注.卷积神经网络的研究需要进行充分的实验,然而其训练过程通常需要大量时间.使用高性能GPU可以加速卷积神经网络的训练过程,... 随着深度学习的不断发展,卷积神经网络凭借其优异的识别性能,在图像识别、语音识别等领域受到了越来越多的关注.卷积神经网络的研究需要进行充分的实验,然而其训练过程通常需要大量时间.使用高性能GPU可以加速卷积神经网络的训练过程,但是由于GPU的特殊结构,进行多GPU的扩展时难以取得令人满意的加速比.提出一种在多GPU下的数据并行算法,与传统的客户机/服务器结构不同,该算法以环形结构组织GPU,更有利于多GPU扩展,系统不会受限于服务器节点的性能.此外还通过并行化单个GPU的计算与传输任务,提高GPU的使用效率.实验结果表明,使用4个GPU时,该算法分别在mnist和cifar10数据集上取得了3.77和3.79倍的加速比,并且对网络的识别性能无显著影响. 展开更多
关键词 卷积神经网络 GPU 随机梯度下降 并行算法
在线阅读 下载PDF
基于前缀的片上网络容错源路由算法 被引量:1
4
作者 许耿纯 任开新 顾乃杰 《计算机应用与软件》 CSCD 北大核心 2013年第2期18-21,25,共5页
为克服片上网络链路永久性错误带来的路由问题,提出一种基于前缀的片上网络容错源路由算法PFTSR。该算法适用于二维mesh片上网络,采用预测路径并根据反馈信息调整路径的方法进行路由探测。在仿真平台NIRGAM上进行仿真,实验结果表明,与... 为克服片上网络链路永久性错误带来的路由问题,提出一种基于前缀的片上网络容错源路由算法PFTSR。该算法适用于二维mesh片上网络,采用预测路径并根据反馈信息调整路径的方法进行路由探测。在仿真平台NIRGAM上进行仿真,实验结果表明,与传统片上网络容错源路由算法SRN相比,PFTSR极大降低了片上系统的功耗,并且在大多数情况下能减少探测到第一条路径的时间。 展开更多
关键词 片上网络 路由算法 容错 源路由
在线阅读 下载PDF
基于轴对齐变形的视频缩放技术的研究
5
作者 宁兰芳 黄章进 郭利财 《计算机应用与软件》 CSCD 北大核心 2014年第8期213-218,256,共7页
多样化的显示设备对视频显示的适应性提出越来越高的要求。提出并实现一种基于轴对齐变形的内容感知视频缩放方法。首先根据梯度、人脸和运动的信息对视频进行分析,然后结合相邻帧信息建立二次规划系统进行变形求解。实验表明,求解方法... 多样化的显示设备对视频显示的适应性提出越来越高的要求。提出并实现一种基于轴对齐变形的内容感知视频缩放方法。首先根据梯度、人脸和运动的信息对视频进行分析,然后结合相邻帧信息建立二次规划系统进行变形求解。实验表明,求解方法简单有效,对有人脸或运动的视频进行缩放能够得到高质量的结果,能去除抖动现象。求解一帧可在毫秒级时间内完成,同时具有很好的鲁棒性。 展开更多
关键词 轴对齐变形 内容感知 视频分析 视频缩放
在线阅读 下载PDF
一种内核级多进程负载均衡会话保持方法 被引量:6
6
作者 张颖楠 顾乃杰 +2 位作者 彭建章 王国澎 魏振伟 《计算机工程》 CAS CSCD 2014年第3期76-81,共6页
针对多进程负载均衡无法保持会话的问题,提出一个基于epoll机制的内核级高效解决方法。对于每个新建立的连接,在cpoll的通知机制中使用源地址哈希算法,由epoll通知哈希选出的进程接收此连接,期望通过为同一个IP地址的请求选择同一个负... 针对多进程负载均衡无法保持会话的问题,提出一个基于epoll机制的内核级高效解决方法。对于每个新建立的连接,在cpoll的通知机制中使用源地址哈希算法,由epoll通知哈希选出的进程接收此连接,期望通过为同一个IP地址的请求选择同一个负载均衡服务进程,保证该进程依据自身记录的会话信息将同一个客户的请求转发给同一个后端服务器。此外,通过分析多队列网卡的特性,给出维持收包发包中断、软中断、协议栈处理、用户态处理都在同一个核上的优化方法,以提高cache性能。实验结果表明,该方法能解决基于epoll的多进程负载均衡服务器的会话保持问题,并且在多核处理器多队列网卡环境下通过优化使cps提高12%,数据吞吐量提高4.6%。 展开更多
关键词 多队列网卡 多核 epoll机制 源地址哈希 会话保持
在线阅读 下载PDF
一种面向数据密集型应用的并行程序执行模型 被引量:2
7
作者 何颂颂 顾乃杰 任开新 《小型微型计算机系统》 CSCD 北大核心 2013年第7期1457-1461,共5页
随着各领域需要处理的数据量越来越大,数据密集型应用也变得越来越被重视.该文提出一种包含数据访存层次和访存冲突等信息的新并行程序执行模型PSRAM(h).针对数据密集型应用以访存为主的特点,PSRAM(h)模型将程序执行时间简化为访存时间... 随着各领域需要处理的数据量越来越大,数据密集型应用也变得越来越被重视.该文提出一种包含数据访存层次和访存冲突等信息的新并行程序执行模型PSRAM(h).针对数据密集型应用以访存为主的特点,PSRAM(h)模型将程序执行时间简化为访存时间,通过分析各程序子段的访存层次和数量来预测串行程序的执行时间,进而通过使用各线程执行时间的最大值来预测并行程序的执行时间.使用PSRAM(h)模型下对最典型的数据密集型应用矩阵向量乘进行分析,在龙芯3A处理器和Intel Xeon E5520处理器两个平台上的测试结果表明,PSRAM(h)模型分析结果与实测结果大部分情况下误差小于20%.由此可见,针对数据密集型应用,PSRAM(h)不但可以给出程序执行时间的下限,还可以有效的预测程序的执行时间. 展开更多
关键词 数据密集型 共享内存 PSRAM(h) 程序执行模型
在线阅读 下载PDF
Java虚拟机中的只读锁优化 被引量:1
8
作者 林传文 顾乃杰 黄章进 《小型微型计算机系统》 CSCD 北大核心 2013年第5期1113-1117,共5页
Java虚拟机使用锁机制来实现多线程共享数据结构的同步.锁机制维护的临界区通常对共享数据结构只进行读操作.只读锁是指当某个线程持有锁在只读临界区时,其他线程可以直接进入只读临界区而无需等待.只读锁能极大地提高锁机制的同步性能.... Java虚拟机使用锁机制来实现多线程共享数据结构的同步.锁机制维护的临界区通常对共享数据结构只进行读操作.只读锁是指当某个线程持有锁在只读临界区时,其他线程可以直接进入只读临界区而无需等待.只读锁能极大地提高锁机制的同步性能.Java虚拟机的锁机制可分为轻量级锁和重量级锁两层,当线程冲突时从轻量级锁转向重量级锁.本文分别从轻量级锁和重量级锁两个层次分别进行只读锁优化.轻量级锁的只读优化算法可以减少原子操作的开销;重量级锁的只读优化算法则可以使多个线程同时在只读临界区中.最后在Java虚拟机HotSpot中实现只读锁优化,并且在龙芯3A上进行实验.性能测试用例包括单线程Java程序、多线程Java程序以及SPECjvm2008.实验结果表明,上述优化方法能极大降低线程进入和退出只读临界区的开销,提高Java虚拟机的同步性能. 展开更多
关键词 只读锁 同步 优化 JAVA虚拟机
在线阅读 下载PDF
Java虚拟机中的动态锁cache优化
9
作者 林传文 顾乃杰 蔡嵩松 《中国科学技术大学学报》 CAS CSCD 北大核心 2013年第4期271-277,共7页
Java虚拟机在运行过程中使用即时编译器编译Java程序的热点方法,然后直接执行热点方法的本地代码.锁cache机制允许Java虚拟机将编译方法的本地代码锁在cache中,以提高编译执行时的指令cache命中率.通过分析Java虚拟机中编译方法的调用规... Java虚拟机在运行过程中使用即时编译器编译Java程序的热点方法,然后直接执行热点方法的本地代码.锁cache机制允许Java虚拟机将编译方法的本地代码锁在cache中,以提高编译执行时的指令cache命中率.通过分析Java虚拟机中编译方法的调用规律,得到编译方法的活跃时间段、平均大小和内存分布情况.基于编译方法的调用规律,给出Java虚拟机中的动态锁cache优化方法.在Java热点方法的活跃期将其本地代码段锁在cache中,以减少cache失效.最后,在龙芯3A的HotSpot虚拟机上实现了动态锁cache优化方法.实验结果表明,Java虚拟机中的动态锁cache优化方法能够使SPECjvm2008运行时的cache失效次数平均降低8.5%,性能平均提升4%. 展开更多
关键词 JAVA虚拟机 CACHE 锁cache机制 即时编译
在线阅读 下载PDF
一种按字长匹配的Wu-Manber多模式匹配算法 被引量:2
10
作者 汪永进 顾乃杰 任开新 《小型微型计算机系统》 CSCD 北大核心 2013年第7期1650-1653,共4页
多模式匹配是串处理系统中最重要的操作之一,而Wu-Manber算法是多模式串匹配算法中平均性能表现最好的算法.针对Wu-Manber多模式匹配算法在规则集中存在短模式串时性能下降的问题,提出一种按字长匹配的多模式匹配算法.改进的算法是在32... 多模式匹配是串处理系统中最重要的操作之一,而Wu-Manber算法是多模式串匹配算法中平均性能表现最好的算法.针对Wu-Manber多模式匹配算法在规则集中存在短模式串时性能下降的问题,提出一种按字长匹配的多模式匹配算法.改进的算法是在32位机器上实现,哈希的字符块长度取2,每次匹配的单位由原来的一个字符变为一个机器字,缩小了访存时间,同时利用机器字长存储的特点合理设计哈希函数,加快了字符块哈希值的计算,极大的提高了有短模式串存在时模式集的匹配性能.与原Wu-Manber算法对比,当最短模式串长度小于6时,改进后的算法搜索时间平均缩短了40%.当最短模式串长度为2和3时,搜索时间缩短了60%以上. 展开更多
关键词 多模式串匹配 机器字 短模式串 规则集
在线阅读 下载PDF
LAPACK线性方程求解函数在龙芯3A上的并行化 被引量:1
11
作者 刘斌斌 顾乃杰 +1 位作者 任开新 张杰 《小型微型计算机系统》 CSCD 北大核心 2014年第5期1085-1089,共5页
针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多... 针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多核库便可使用.通过LAPACK自带的性能测试程序进行测试,实验结果表明,在四核模式下,大多数函数加速比达到2以上,部分函数加速比超过了3,所有线性方程求解类函数加速比的算术平均值达到2.04. 展开更多
关键词 LAPACK BLAS 龙芯3A 多核
在线阅读 下载PDF
基于网页结构的自适应Web缓存(英文) 被引量:3
12
作者 张开敏 《中国科学技术大学学报》 CAS CSCD 北大核心 2013年第10期799-810,共12页
消除Web应用中冗余的数据传输可以有效地提升Web应用的响应能力,已有的算法没有充分利用网页的结构信息,因而会降低缓存数据的命中率.针对这种情况,提出了一种全新的Web缓存方案,称为基于网页结构的自适应Web缓存(SBAWC).SBAWC充分利用... 消除Web应用中冗余的数据传输可以有效地提升Web应用的响应能力,已有的算法没有充分利用网页的结构信息,因而会降低缓存数据的命中率.针对这种情况,提出了一种全新的Web缓存方案,称为基于网页结构的自适应Web缓存(SBAWC).SBAWC充分利用了网页本身的结构和语义信息,同时仅缓存Web数据中稳定的部分,以更好地消除冗余数据,提升缓存命中率.在真实网页上进行的实验结果表明,与现有的方案相比,SBAWC可以更加高效地消除Web应用网络传输中的冗余数据. 展开更多
关键词 缓存 超文本标记语言 冗余数据消除 差分编码
在线阅读 下载PDF
一种并行的网页解析算法 被引量:1
13
作者 张开敏 《小型微型计算机系统》 CSCD 北大核心 2014年第2期193-198,共6页
如今,Web应用已经可以提供接近传统桌面应用的用户体验,其网页也相应地变得更加复杂,从而对Web浏览器的性能提出了巨大挑战.传统的Web浏览器通常使用单一线程处理网页,无法充分利用多处理器设备的运算能力,针对于此提出了一种并行的网... 如今,Web应用已经可以提供接近传统桌面应用的用户体验,其网页也相应地变得更加复杂,从而对Web浏览器的性能提出了巨大挑战.传统的Web浏览器通常使用单一线程处理网页,无法充分利用多处理器设备的运算能力,针对于此提出了一种并行的网页解析算法.与现有针对网页处理的并行算法不同,本算法基于数据并行的方案,通过将输入数据划分成多个部分,对其进行并行处理,再合并各个部分的结果以得到最终结果.本算法可以充分利用现有的高度优化的串行网页处理算法,并且兼容现有的Web标准和技术.在Webkit浏览器引擎上进行的实验指出,本并行算法可以有效利用多核处理器的运算能力,显著提高了网页解析过程的速度. 展开更多
关键词 多核处理器 并行算法 超文本标记语言 万维网 解析
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部