期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
移动平台Android操作系统虚拟化技术的实现 被引量:10
1
作者 刘博文 顾乃杰 +1 位作者 谷德贺 苏俊杰 《计算机工程与应用》 CSCD 北大核心 2017年第14期32-38,共7页
虚拟化技术的研究正逐渐从服务器端转向移动智能设备领域。现有的虚拟化架构需要在物理硬件层和虚拟系统间进行大量的指令翻译,开销大,效率低。针对这一问题,提出了一种轻量级的移动操作系统虚拟化架构。通过在Linux内核命名空间机制的... 虚拟化技术的研究正逐渐从服务器端转向移动智能设备领域。现有的虚拟化架构需要在物理硬件层和虚拟系统间进行大量的指令翻译,开销大,效率低。针对这一问题,提出了一种轻量级的移动操作系统虚拟化架构。通过在Linux内核命名空间机制的基础上扩展Driver命名空间框架,实现了多个虚拟Android系统的同时运行。此外,针对多个虚拟系统同时访问一套硬件设备发生冲突的问题,设计了通用的active-inactive模型来保证虚拟系统间对硬件设备的隔离复用。实验结果表明,虚拟后的Android系统在CPU使用率上并没有增加额外的开销,在内存使用量上减少了6.7%,此虚拟化架构具有很好的通用性与实用性。 展开更多
关键词 操作系统虚拟化 ANDROID 系统 命名空间机制 硬件隔离复用
在线阅读 下载PDF
多CPU+多GPU协同计算的三维泊松方程求解
2
作者 张明 顾乃杰 陈露 《小型微型计算机系统》 CSCD 北大核心 2017年第4期901-905,共5页
三维泊松方程求解算法被广泛应用在电磁、流体、地质等领域,有着极其重要的现实意义.但现有实现方法无法满足高精度网格下的性能需求,针对该问题,提出一种基于多GPU加速的三维泊松方程求解算法(MGPES).MPGES通过分析泊松方程求解过程中... 三维泊松方程求解算法被广泛应用在电磁、流体、地质等领域,有着极其重要的现实意义.但现有实现方法无法满足高精度网格下的性能需求,针对该问题,提出一种基于多GPU加速的三维泊松方程求解算法(MGPES).MPGES通过分析泊松方程求解过程中的计算和访存特征,发掘可并行的热点函数,将计算任务均分给多个同构GPU.根据CPU和GPU下的计算速度和访存性能,提出一种基于CPU/GPU协同计算下的负载均衡模型.在该模型的基础上,充分利用空闲CPU的计算能力,提出一种基于多CPU+GPU协同异构平台的三维泊松方程求解算法(COPES).实验结果表明,在8GPU平台下,MGPES最高并行加速比能达到7.72,COPES的最高并行加速比能达到7.81.两种算法均可以达到线性加速比,拥有良好的可扩展性. 展开更多
关键词 泊松方程 并行计算 CUDA 性能优化
在线阅读 下载PDF
一种面向多核系统的Linux任务调度算法 被引量:4
3
作者 曹越 顾乃杰 +2 位作者 任开新 张旭 吴志强 《计算机工程》 CAS CSCD 北大核心 2015年第2期36-40,46,共6页
针对Linux任务调度算法在多核系统中交互性能差的问题,提出一种分组任务调度算法GFS。根据多核系统硬件特性,自动配置物理距离近的一组CPU共享一个任务运行队列,通过平衡组内CPU对任务运行队列的访问竞争与任务迁移的代价,实现组间任务... 针对Linux任务调度算法在多核系统中交互性能差的问题,提出一种分组任务调度算法GFS。根据多核系统硬件特性,自动配置物理距离近的一组CPU共享一个任务运行队列,通过平衡组内CPU对任务运行队列的访问竞争与任务迁移的代价,实现组间任务运行队列的负载均衡,减少调度延迟。通过优先调度唤醒任务,加快多核系统中交互任务的响应速度。测试结果表明,在不同任务负载下,GFS能够明显降低交互任务的平均响应时间,从而有效提高多核系统交互应用的调度性能。 展开更多
关键词 多核系统 调度算法 交互性能 自动配置 唤醒任务 负载均衡
在线阅读 下载PDF
龙芯3B处理器上FFT算法向量化研究 被引量:7
4
作者 张杰 顾乃杰 张明 《小型微型计算机系统》 CSCD 北大核心 2015年第7期1639-1643,共5页
龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.... 龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.然而目前的FFT算法因未能充分挖掘龙芯3B处理器的硬件特性,仍面临算法性能较低的问题.针对该问题,对FFT算法进行分析,并结合龙芯3B处理器的体系结构特征,提出基32迭代的向量化FFT算法.实验结果表明,在龙芯3B处理器上基32迭代的向量化FFT算法平均性能达到765.15M flops,是相同环境下FFTW软件包(Fast Fourier Transform in the West)性能的2.12倍,最高性能可以达到1341.12Mflops,是相同环境下FFTW软件包性能的3.51倍. 展开更多
关键词 龙芯3B 优化算法 FFT 向量化
在线阅读 下载PDF
在线考试系统中试题上传方法的优化 被引量:6
5
作者 刘思婷 顾乃杰 林传文 《计算机工程与应用》 CSCD 北大核心 2016年第21期241-246,共6页
试题库是在线考试系统的数据基础。现有的试题上传方法需人工预处理操作,代价高,效率低。针对这一问题,提出了一种基于语义的高效、智能解析方法 IDP(Intelligent Document Parsing)。IDP根据试题的类型特征,定义解析规则,并对所有段落... 试题库是在线考试系统的数据基础。现有的试题上传方法需人工预处理操作,代价高,效率低。针对这一问题,提出了一种基于语义的高效、智能解析方法 IDP(Intelligent Document Parsing)。IDP根据试题的类型特征,定义解析规则,并对所有段落进行规则匹配,实现类型识别。此外,针对特定类型的试题,进行分割段落、语段分析,从而完成智能解析,实现试题上传功能。实验结果表明,IDP省去了人工预处理的步骤,可以直接使用任意格式的试题资源文档完成上传任务,效率明显提升,具有很好的通用性和实用性。 展开更多
关键词 在线考试系统 试题上传 解析规则 智能解析 语段分析
在线阅读 下载PDF
Web文本分类中的标签权重自动优化研究 被引量:4
6
作者 钟旭东 黄章进 +1 位作者 顾乃杰 张旭 《小型微型计算机系统》 CSCD 北大核心 2016年第5期890-894,共5页
Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题... Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题,本文设计和实现了一种基于差分进化算法的Web文本标签权重系数自动寻优方案,并对差分优化算法进行了改进,以提高其局部搜索能力.实验结果表明,该方案能充分利用样本集的特性并能有效地提高分类的准确率. 展开更多
关键词 WEB文本分类 自动权重调优 差分进化算法 半结构特征
在线阅读 下载PDF
基于SAE-LBP的网页分类研究 被引量:4
7
作者 江国荐 顾乃杰 +1 位作者 张旭 任开新 《小型微型计算机系统》 CSCD 北大核心 2016年第4期738-742,共5页
在网页分类技术中,SVM、BP神经网络和Naive Bayes等传统分类器主要采用了信息增益、互信息和最大熵等模型选取特征.随着深度学习的发展,深层次地选取特征的方法正在被广泛研究.结合稀疏自动编码器(SAE)和LBP神经网络,提出一种基于SAE-LB... 在网页分类技术中,SVM、BP神经网络和Naive Bayes等传统分类器主要采用了信息增益、互信息和最大熵等模型选取特征.随着深度学习的发展,深层次地选取特征的方法正在被广泛研究.结合稀疏自动编码器(SAE)和LBP神经网络,提出一种基于SAE-LBP的网页分类器.根据网页文本的半结构化特征,改进了文本特征表示的权重计算.针对网页文本的稀疏性,采用SAE对网页文本进行特征选取.还提出一种基于学习率自动调整的LBP神经网络,有效地降低了训练时间.实验表明,相对于传统的BP神经网络,基于SAE-LBP的网页分类器的分类正确率提升了5.19%,时间性能提升了83.86%. 展开更多
关键词 SAE LBP 网页分类 深度学习 神经网络
在线阅读 下载PDF
基于Petri网的多线程程序死锁检测 被引量:8
8
作者 黄理 顾乃杰 曹华雄 《计算机工程》 CAS CSCD 北大核心 2016年第4期1-6,共6页
针对并发程序中死锁检测困难的问题,基于Petri网对多线程程序进行死锁检测。定义抽象描述多线程程序中锁操作的Petri网模型,在现有基于混合整数规划(MIP)的死锁检测算法基础上,提出改进的MIP算法检测该模型中是否存在死锁。实验结果表明... 针对并发程序中死锁检测困难的问题,基于Petri网对多线程程序进行死锁检测。定义抽象描述多线程程序中锁操作的Petri网模型,在现有基于混合整数规划(MIP)的死锁检测算法基础上,提出改进的MIP算法检测该模型中是否存在死锁。实验结果表明,改进MIP算法能够检测到Petri网模型中的死锁,与标志矩阵算法和可达图相比,处理大规模多线程程序时计算效率更高。 展开更多
关键词 多线程程序 锁操作 PETRI网 混合整数规划 死锁检测
在线阅读 下载PDF
基于ARM架构的滤波函数优化 被引量:4
9
作者 陈思润 顾乃杰 +1 位作者 苏俊杰 贺爱香 《计算机应用与软件》 北大核心 2018年第9期138-143,共6页
随着人们对移动设备图像视觉的追求日益提高,Android设备的图像处理速度难以满足移动客户端海量应用的性能需求。分析并研究ARM架构硬件特性,使用Cortex-A系列支持的SIMD数据级并行计算技术NEON对OpenCV函数库中的滤波函数进行优化。具... 随着人们对移动设备图像视觉的追求日益提高,Android设备的图像处理速度难以满足移动客户端海量应用的性能需求。分析并研究ARM架构硬件特性,使用Cortex-A系列支持的SIMD数据级并行计算技术NEON对OpenCV函数库中的滤波函数进行优化。具体介绍中值滤波的优化过程,且在Cortex-A72开发板上进行充分的测试。实验结果表明,中值滤波函数优化效果显著,对比OpenCV源码性能提升了17倍,图像处理模块中的其他滤波函数均有较大的性能提升。 展开更多
关键词 ARM Cortex—A NEON SIMD OPENCV 中值滤波
在线阅读 下载PDF
基于多尺度特征融合CNN模型的车辆精细型号识别 被引量:6
10
作者 刘廷建 顾乃杰 +1 位作者 张孝慈 林传文 《计算机工程与应用》 CSCD 北大核心 2018年第18期154-160,共7页
车辆精细型号是车辆识别的主要线索之一,也是智能交通系统的重要组成部分。针对车辆精细型号种类繁多、车辆所处环境复杂多变等因素,提出一种基于多尺度特征融合的车辆精细型号识别方法。该方法基于传统的卷积神经网络,通过提取并融合... 车辆精细型号是车辆识别的主要线索之一,也是智能交通系统的重要组成部分。针对车辆精细型号种类繁多、车辆所处环境复杂多变等因素,提出一种基于多尺度特征融合的车辆精细型号识别方法。该方法基于传统的卷积神经网络,通过提取并融合来自网络底层和高层的车辆特征,完成对车辆精细型号的识别。与其他基于卷积神经网络的车辆精细型号识别方法相比,该方法在提高分类准确率的同时还大幅度降低了整体网络的参数规模。实验结果表明,在公开数据集Comp Cars的监控场景下其识别精度达到了98.43%,且模型参数大小仅为3.93 MB,平均每张图片只需0.83 ms的分类时间。 展开更多
关键词 车辆精细型号识别 卷积神经网络 多尺度特征融合 深度学习
在线阅读 下载PDF
基于ARM SVE的FFT算法向量化研究 被引量:4
11
作者 李凤娇 顾乃杰 +1 位作者 齐东升 苏俊杰 《小型微型计算机系统》 CSCD 北大核心 2022年第10期2017-2021,共5页
快速傅里叶变换(Fast Fourier Transform,FFT)是信号处理、图像处理等领域的重要研究工具.可伸缩向量扩展(Scalable Vector Extension,SVE)是ARM处理器推出的基于ARMv8-A体系架构的新一代SIMD指令集,支持位宽为128位-2048位的向量寄存... 快速傅里叶变换(Fast Fourier Transform,FFT)是信号处理、图像处理等领域的重要研究工具.可伸缩向量扩展(Scalable Vector Extension,SVE)是ARM处理器推出的基于ARMv8-A体系架构的新一代SIMD指令集,支持位宽为128位-2048位的向量寄存器和向量长度无关(Vector Length Agnostic,VLA)编程模型,具有很好的数据并行性和软件可移植性,适用于高性能计算、机器学习等领域.目前基于ARM SVE的FFT算法的研究尚未充分挖掘其架构特性和计算资源,本文针对数据规模为2的幂次的一维复数FFT,结合SVE谓词驱动的循环控制、非线性访存、复数运算等特性对算法做出了改进.实验结果表明,与FFTW库基于NEON的向量化实现相比,本算法性能有明显提升,在向量长度为1024位时,平均性能提升5.83倍,最高性能提升9.22倍. 展开更多
关键词 FFT ARM SVE SIMD汇编优化 软件性能优化
在线阅读 下载PDF
一种多核ARM平台下用户态定时器的实现 被引量:1
12
作者 喻诗祥 顾乃杰 +1 位作者 张旭 曹越 《计算机工程》 CAS CSCD 北大核心 2015年第1期19-23,30,共6页
在ARM平台下,系统提供的posix-timer误差较大,难以满足实时要求,而且传统的Linux用户态定时器通过系统调用及信号传递的方式向进程提供定时服务,当定时器使用规模较大时,进程会在内核态用户态间频繁切换。针对上述问题,提出并实现一种... 在ARM平台下,系统提供的posix-timer误差较大,难以满足实时要求,而且传统的Linux用户态定时器通过系统调用及信号传递的方式向进程提供定时服务,当定时器使用规模较大时,进程会在内核态用户态间频繁切换。针对上述问题,提出并实现一种基于多核ARM平台的新型用户态定时器方案。该方案采用一种新的时间轮数据结构,通过内核态与用户态共享内存等方式向进程提供服务,避免不必要的信号传递,有效地缓解频繁状态切换问题。实验结果表明,该方案保持微秒级的定时精度,定时误差相比posix-timer明显降低。 展开更多
关键词 Linux用户态 定时器 多核 ARM平台 时间轮 共享内存
在线阅读 下载PDF
数字信号变换函数在多簇VLIW DSP上的优化 被引量:2
13
作者 甄扬 顾乃杰 叶鸿 《计算机工程》 CAS CSCD 北大核心 2016年第3期47-52,共6页
针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中... 针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中原有的顺序版本实现并行优化版本。实验结果表明,在4宏并行化模式下,所有函数加速比达到9以上,90%的函数加速比超过10,平均加速比为11.12。 展开更多
关键词 超长指令字 单指令流多数据流 数字信号处理器 循环展开 并行化 多簇
在线阅读 下载PDF
一种基于魂芯DSP的单模式位并行串匹配算法 被引量:2
14
作者 陈瑞 顾乃杰 叶鸿 《计算机应用与软件》 北大核心 2020年第7期246-252,共7页
在多媒体技术飞速发展的今天,DSP处理器以其低功耗和高性能等特点在信号处理和图像检索领域有着重要的应用。串匹配作为信号处理和图像检索应用中的基本算法,其性能和效率也因此受到越来越多的关注。通过结合DSP处理器的分簇结构和零开... 在多媒体技术飞速发展的今天,DSP处理器以其低功耗和高性能等特点在信号处理和图像检索领域有着重要的应用。串匹配作为信号处理和图像检索应用中的基本算法,其性能和效率也因此受到越来越多的关注。通过结合DSP处理器的分簇结构和零开销循环技术,并利用字符串分段的方法提出一种基于DSP的位并行串匹配算法EPSO。该算法可有效减少条件分支语句的时钟开销和分簇执行过程中的漏配次数,加速了串匹配过程。在国产魂芯DSP的仿真结果表明:EPSO算法的匹配速度是经典Shift-Or算法的7.8倍左右,串匹配效率得到有效提升;以KMP算法为基准,英文语料下该算法的平均匹配速度是KMP算法的6.3倍左右,DNA序列下是KMP算法的10.5倍左右,相比NEW、S2BNDM算法均具有显著的性能提升。 展开更多
关键词 串匹配 移位或算法 魂芯DSP 分簇 位并行
在线阅读 下载PDF
面向龙芯3B体系结构的FFTW库优化 被引量:1
15
作者 王小乐 顾乃杰 张明 《小型微型计算机系统》 CSCD 北大核心 2016年第3期622-626,共5页
龙芯3B处理器是首款国产商用8核处理器,主要用于高性能计算机、高性能服务器和数字信号处理等领域.因此充分利用龙芯3B体系结构,开发一套高效的FFT库则尤为重要.FFTW库是基于通用CPU开发的软件包,很难充分利用龙芯3B处理器的硬件特性,... 龙芯3B处理器是首款国产商用8核处理器,主要用于高性能计算机、高性能服务器和数字信号处理等领域.因此充分利用龙芯3B体系结构,开发一套高效的FFT库则尤为重要.FFTW库是基于通用CPU开发的软件包,很难充分利用龙芯3B处理器的硬件特性,从而在龙芯3B处理器上未能取得令人满意的性能.针对该问题本文采用MIPS汇编、乘加指令、向量化计算、Cooley-Tukey算法和实数类型实部虚部分开计算等多种优化方法对FFTW库进行优化.使用离散傅里叶通用的benchmark测试工具benchfft进行性能测试,实验结果表明,优化后比优化前性能平均提升45%左右,部分甚至超过100%,使FFTW在龙芯3B处理器上具有较高的性能. 展开更多
关键词 FFTW 龙芯3B MIPS 向量化
在线阅读 下载PDF
基于稀疏贝叶斯模型的特征选择 被引量:4
16
作者 祝璞 黄章进 《计算机工程》 CAS CSCD 北大核心 2017年第4期183-187,193,共6页
通过采用稀疏贝叶斯推理方法,设计出可同时进行学习最优分类器与选取最优特征子集的特征选择概率分类向量机算法。该算法是对概率分类向量机特征选择的扩展,可提高其在高维数据集上的性能。通过选取零均值的高斯分布作为先验,在模型中... 通过采用稀疏贝叶斯推理方法,设计出可同时进行学习最优分类器与选取最优特征子集的特征选择概率分类向量机算法。该算法是对概率分类向量机特征选择的扩展,可提高其在高维数据集上的性能。通过选取零均值的高斯分布作为先验,在模型中起到正则项的作用,同时在核函数和特征中引入稀疏,得到泛化性更好的分类模型。在高维度和低维度数据集中的实验结果表明,该算法同时具有较好的分类和特征选择能力。 展开更多
关键词 机器学习 核函数 稀疏贝叶斯 特征选择 概率分类向量机 自动相关性检测
在线阅读 下载PDF
一种多网卡环境的Linux流量控制算法
17
作者 王凌睿 顾乃杰 任开新 《小型微型计算机系统》 CSCD 北大核心 2015年第6期1214-1218,共5页
流量控制是网络管理中用于保证服务质量的常见手段,令牌桶算法是常用的的流量控制算法之一.使用令牌桶算法在多网卡环境下进行流量控制时存在业务分类的问题,目前,缺少在这种场景下根据业务优先级进行剩余带宽利用的流量控制算法.本文... 流量控制是网络管理中用于保证服务质量的常见手段,令牌桶算法是常用的的流量控制算法之一.使用令牌桶算法在多网卡环境下进行流量控制时存在业务分类的问题,目前,缺少在这种场景下根据业务优先级进行剩余带宽利用的流量控制算法.本文基于令牌桶算法提出了一种改进的共享令牌桶算法,并在实际应用场景中进行了实验对比.改进的共享令牌桶算法能够在多网卡环境下对不同的网卡设置服务优先等级,在多个网卡间按照优先级的高低实现空闲令牌的共享.实验结果表明,改进的共享令牌桶算法能够在多网卡环境中有效地达到流量控制目的,同时实现按网卡优先级分配空闲令牌,提高带宽利用率. 展开更多
关键词 流量控制 令牌桶算法 带宽 多网卡Linux内核
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部