期刊文献+
共找到340篇文章
< 1 2 17 >
每页显示 20 50 100
Adaptive learning with guaranteed stability for discrete-time recurrent neural networks 被引量:1
1
作者 邓华 吴义虎 段吉安 《Journal of Central South University of Technology》 EI 2007年第5期685-689,共5页
To avoid unstable learning, a stable adaptive learning algorithm was proposed for discrete-time recurrent neural networks. Unlike the dynamic gradient methods, such as the backpropagation through time and the real tim... To avoid unstable learning, a stable adaptive learning algorithm was proposed for discrete-time recurrent neural networks. Unlike the dynamic gradient methods, such as the backpropagation through time and the real time recurrent learning, the weights of the recurrent neural networks were updated online in terms of Lyapunov stability theory in the proposed learning algorithm, so the learning stability was guaranteed. With the inversion of the activation function of the recurrent neural networks, the proposed learning algorithm can be easily implemented for solving varying nonlinear adaptive learning problems and fast convergence of the adaptive learning process can be achieved. Simulation experiments in pattern recognition show that only 5 iterations are needed for the storage of a 15×15 binary image pattern and only 9 iterations are needed for the perfect realization of an analog vector by an equilibrium state with the proposed learning algorithm. 展开更多
关键词 recurrent neural networks adaptive learning nonlinear discrete-time systems pattern recognition
在线阅读 下载PDF
基于深度学习的目标分割在岩石智能识别上的应用 被引量:3
2
作者 何陆灏 周永章 张灿 《矿物岩石地球化学通报》 北大核心 2025年第3期525-541,共17页
随着人工智能技术的快速发展,深度学习在图像处理领域取得了显著进展,特别是在目标检测和目标分割方面。传统的岩石识别方法受限于复杂的背景和岩石的多样性,无法满足实际需求。深度学习的快速发展为岩石智能识别提供了新的思路和技术... 随着人工智能技术的快速发展,深度学习在图像处理领域取得了显著进展,特别是在目标检测和目标分割方面。传统的岩石识别方法受限于复杂的背景和岩石的多样性,无法满足实际需求。深度学习的快速发展为岩石智能识别提供了新的思路和技术支持。本研究旨在应用深度学习模型YOLOv8-seg于岩石智能识别任务中,评估其在目标检测和分割任务中的识别效果和稳定性,以期为地质勘探和地质资源管理提供技术支持。研究采用YOLOv8-seg模型,对包括玄武岩、花岗岩、大理岩、石英岩、煤炭、灰岩和砂岩在内的多种岩石类型进行训练,以优化模型的识别能力。该模型结合了目标检测和实例分割功能,并通过box_loss、seg_loss、cls_loss和dfl_loss等多种损失函数优化边界框预测、分割性能、类别识别准确性和回归精度。在目标分割任务中,YOLOv8-seg模型的precision(B)和recall(B)分别达到0.91284和0.93587,mAP50(B)和mAP50-95(B)分别为0.86666和0.83686;precision(M)和recall(M)分别为0.90394和0.93438,mAP50(M)和mAP50-95(M)分别为0.85931和0.81856,说明模型具备较高的分割精度和召回率。F1Score(B)和F1Score(M)在第551轮分别达至0.92421和0.91891,较初始值提升显著。测试集结果表明,模型在玄武岩、煤、灰岩等岩石类型的置信度均保持在90%以上,在岩石开采、煤炭运输等实际应用场景中的识别率保持在85%以上。YOLOv8-seg模型在岩石智能识别任务中表现出色,具有较高的精度、召回率和稳定性,适用于多种岩石分类和识别任务。结果表明,该模型在地质勘探和地质资源管理中具备广泛应用潜力,为岩石智能识别提供了一种可靠的解决方案。 展开更多
关键词 岩石识别 深度学习 机器学习 卷积神经网络 目标分割 图像识别
在线阅读 下载PDF
综合特征分段组稀疏编码的交通标志识别方法
3
作者 朱逸峰 奚峥皓 +3 位作者 郑阳 刘翔 刘亚奇 张星 《计算机科学与探索》 北大核心 2025年第10期2712-2721,共10页
随着无人驾驶、辅助驾驶等技术的发展,交通标志识别(TSR)问题被更多的研究者所关注。目前,在普通交通环境下的TSR问题得到了较好的解决,但当环境中存在交通标志模糊、部分遮挡等噪声干扰时,其TSR的处理效果并不理想。针对该问题进行研究... 随着无人驾驶、辅助驾驶等技术的发展,交通标志识别(TSR)问题被更多的研究者所关注。目前,在普通交通环境下的TSR问题得到了较好的解决,但当环境中存在交通标志模糊、部分遮挡等噪声干扰时,其TSR的处理效果并不理想。针对该问题进行研究,提出了一种新颖的结合孪生网络的综合特征分段组稀疏编码的TSR问题解决方法。提取交通标志的多个不同尺度特征编码,并提出利用综合特征编码的方法来表征交通标志;通过提出的分段组稀疏编码方法对交通标志的综合特征编码进行优化,以改善模型对编码的学习能力,提高编码的鲁棒性;构建了用于分段组稀疏编码训练的孪生神经网络模型,该模型因其简单的结构和较少的层数使其不易出现过拟合问题,同时所提模型也具有较少的参数量,较大幅度提升了模型的运算速度。实验表明,所提方法在TT100K数据集原始环境、运动模糊环境中,与目前SOTA模型最好成绩相比其准确率、精确率、召回率与F1分数等评价指标相近,模型参数量减少70.8%,FPS提升51.4%;在部分遮挡噪声环境中,各指标均显著优于目前SOTA模型最好成绩,尤其在遮挡率为60%时,所提方法的准确率和FPS分别较目前SOTA模型最好成绩提升了0.118和27 FPS。 展开更多
关键词 计算机视觉 交通标志识别 分段组稀疏编码 孪生神经网络
在线阅读 下载PDF
嵌入注意力机制的车道线像素级识别算法研究
4
作者 肖庭舒 罗小龙 +2 位作者 相龙伟 陈阳光 王朋燕 《激光杂志》 北大核心 2025年第2期106-114,共9页
车辆自动行驶的安全性和稳定性离不开车道线准确识别。然而,日常驾驶中面临着复杂多变的天气和光照条件、道路标记模糊或遮挡等挑战。研究并设计基于深度神经网络的车道线识别算法,以提高识别技术在面对复杂环境的鲁棒性与检测结果精度... 车辆自动行驶的安全性和稳定性离不开车道线准确识别。然而,日常驾驶中面临着复杂多变的天气和光照条件、道路标记模糊或遮挡等挑战。研究并设计基于深度神经网络的车道线识别算法,以提高识别技术在面对复杂环境的鲁棒性与检测结果精度。通过构建以VGG-16为主链并嵌入通道注意力和空间注意力机制的全卷积神经网络模型,实现端到端像素级别的车道线语义分割。嵌入注意力模块的新模型在CULane通用数据集上验证结果同VGG-解码语义分割方法相比,其平均像素准确率与均交并比(Mean Intersection over Union, MIoU)分别提升2.2%与1.3%。且在车道线不存在场景下,预测结果的像素准确率达到70%。嵌入注意力机制的图像分割算法研究为车道线识别问题提供了有效解决方案,有力支撑车道线检测技术在无人驾驶场景的应用。 展开更多
关键词 注意力机制 深度神经网络 语义分割 车道线识别 图像分割
在线阅读 下载PDF
融合图神经网络与概率编码的加工特征识别
5
作者 赵显文 莫轩东 +1 位作者 夏铭远 胡小锋 《哈尔滨工业大学学报》 北大核心 2025年第4期116-130,共15页
为解决多加工特征交叉下的特征定位问题,提高复杂零件加工特征识别性能,提出实例分割框架下的加工特征识别方法Brep3pNet。首先,基于三维模型的边界表示,提取面点云、面邻接图等几何与拓扑数据,构建三维模型的图表示,利用点云学习网络... 为解决多加工特征交叉下的特征定位问题,提高复杂零件加工特征识别性能,提出实例分割框架下的加工特征识别方法Brep3pNet。首先,基于三维模型的边界表示,提取面点云、面邻接图等几何与拓扑数据,构建三维模型的图表示,利用点云学习网络以及图神经网络学习三维模型面级嵌入表示。其次,提出概率位置编码方法,引入位置先验信息将三维模型各面编码为与空间位置相关的三元高斯分布,基于Bhattacharyya核度量面间相似性,以实现加工特征的面级定位,生成候选实例。最后,设计得分网络用于预测实例生成质量,以此指导实例间的非极大抑制,去除冗余特征实例,获得最终加工特征识别结果。本研究在MFCAD、MFCAD++、MFInstSeg和合成的回转类零件数据集等4个多特征数据集上对所提方法进行评估。研究结果表明:Brep3pNet相较于其他先进方法具有更好的特征定位能力,可以通过轻量的模型参数实现最优的特征识别准确率,展现了所提方法在相交特征识别上的应用潜力。 展开更多
关键词 加工特征识别 实例分割 点云 图神经网络 概率编码
在线阅读 下载PDF
多层次通道融合语音情感识别方法 被引量:1
6
作者 张丽敏 李扬 +1 位作者 蔡浩 燕浩 《计算机科学与探索》 北大核心 2025年第8期2219-2228,共10页
语音情感识别是机器情感认知能力的关键,对于提高人机交互质量至关重要。然而,现有研究多聚焦于浅层特征的分析,忽略了多特征融合的优势,同时数据样本量有限,影响了模型的泛化能力,导致语音情感识别准确率不够理想。为了进一步提高语音... 语音情感识别是机器情感认知能力的关键,对于提高人机交互质量至关重要。然而,现有研究多聚焦于浅层特征的分析,忽略了多特征融合的优势,同时数据样本量有限,影响了模型的泛化能力,导致语音情感识别准确率不够理想。为了进一步提高语音情感识别的准确率,提出一种基于数据增强和多层次通道融合的语音情感识别方法。将原始语音加入高斯白噪声、音高转换和混合处理三种方法进行数据增强,提高模型的鲁棒性。提出一种基于wav2vec 2.0模型和CNN模型的多层次并行通道网络结构。其中,第一个通道采用wav2vec 2.0模型作为主干网络,学习语音数据的深层表征,再经过两层卷积的CNN模型进行计算;第二个通道提取语音情感浅层特征作为输入,采用五层卷积的CNN模型学习语音数据的浅层表征,更全面地分析语音数据的深层表征和浅层表征。将两个通道输出的表征进行融合,形成深浅结合的多层次语音情感特征体系。所提出的模型在RAVDESS和CASIA数据集上分别进行测试,准确率达到94.38%和98.75%,实验结果验证了所提方法的有效性。 展开更多
关键词 语音情感识别 多层次通道融合 wav2vec 2.0 卷积神经网络(CNN)
在线阅读 下载PDF
基于CNN和双向GRU混合孪生网络的语音情感识别方法
7
作者 彭鹏 蔡子婷 +3 位作者 刘雯玲 陈才华 曾维 黄宝来 《计算机应用》 北大核心 2025年第8期2515-2521,共7页
针对现有语音情感识别(SER)模型精度较低、泛化能力较差的问题,提出一种孪生的Multi-scale CNNBiGRU网络。该网络通过引入多尺度特征提取器(MSFE)和多维度注意力(MDA)模块构建孪生网络,并利用样本对的形式增加模型训练量,从而提高模型... 针对现有语音情感识别(SER)模型精度较低、泛化能力较差的问题,提出一种孪生的Multi-scale CNNBiGRU网络。该网络通过引入多尺度特征提取器(MSFE)和多维度注意力(MDA)模块构建孪生网络,并利用样本对的形式增加模型训练量,从而提高模型的识别精度,使它能更好地适应复杂的真实应用场景。在IEMOCAP和EMODB这2个公开数据集上的实验结果表明,所提模型在识别精确率上较CNN-BiGRU分别提升了8.28和7.79个百分点。此外,通过收集客服真实语音对话录音构建一个客服语音情感数据集,在该数据集上的实验结果表明,所提模型的识别精确率可达到87.85%,证明所提模型具有良好的泛化性。 展开更多
关键词 语音情感识别 卷积神经网络 双向GRU 混合孪生网络 深度学习
在线阅读 下载PDF
俄汉平行语音语料库词性标注一致性检查方法
8
作者 种惠芳 《现代电子技术》 北大核心 2025年第20期142-146,共5页
俄汉平行语音语料库在语言学研究、跨文化交流、语言工程等领域具有广泛的应用价值,为此,提出一种俄汉平行语音语料库词性标注一致性检查方法,确保语料库中词性标注的准确性和统一性,提高俄汉平行语音语料库词性标注质量,提升处理俄汉... 俄汉平行语音语料库在语言学研究、跨文化交流、语言工程等领域具有广泛的应用价值,为此,提出一种俄汉平行语音语料库词性标注一致性检查方法,确保语料库中词性标注的准确性和统一性,提高俄汉平行语音语料库词性标注质量,提升处理俄汉双语任务的效率,为后续的语言研究、机器翻译等应用提供可靠的数据基础。利用双向循环神经网络识别语料库中的俄汉平行语音,将语音数据转变成文本数据,形成俄汉平行文本;通过隐马尔可夫模型获取俄汉平行文本词性标注集合,利用维特比算法求解最优词性标记序列,实现对俄汉平行文本的词性标注;依据聚类思想,采用重心聚类算法判断俄汉平行文本的词性标注是否一致,从而实现俄汉平行语音语料库词性标注的一致性检查。实验结果表明,所提方法可以有效实现俄汉平行语音语料库词性标注一致性检查,具有较好的准确性和可靠性。 展开更多
关键词 俄汉平行语音语料库 语音识别 词性标注 隐马尔可夫模型 双向循环神经网络 一致性检查
在线阅读 下载PDF
多尺度单目深度信息辅助的铁路桥梁视觉识别方法
9
作者 杨涵 徐庆凯 +4 位作者 章金勇 蒋友 于泓川 舒江鹏 徐声亮 《东南大学学报(自然科学版)》 北大核心 2025年第5期1319-1327,共9页
为提高利用深度学习模型进行基础设施检测的计算机视觉任务的准确度和效率,提出了一种多尺度单目深度信息辅助的铁路桥梁视觉识别方法。建立了多任务神经网络,在单目深度图的辅助下,同时完成构件识别和病害分割2项任务。为充分利用深度... 为提高利用深度学习模型进行基础设施检测的计算机视觉任务的准确度和效率,提出了一种多尺度单目深度信息辅助的铁路桥梁视觉识别方法。建立了多任务神经网络,在单目深度图的辅助下,同时完成构件识别和病害分割2项任务。为充分利用深度图与2项任务在不同尺度上的相关性,在多任务神经网络结构上提出了多尺度特征交互机制。建立了多尺度多模态蒸馏模块、跨尺度特征传递模块和特征融合模块,实现了多尺度特征共享和交互,并使用大规模图片数据集对该方法进行验证。结果表明,构件识别和病害分割的平均F1分数分别为93.48%和85.93%,较无深度信息辅助的单任务网络分别提高1.87%和4.41%。与独立训练的特定于任务的网络相比,多任务网络的浮点运算数和预测时长分别降低17.89%和30.48%。由此表明,利用所提方法可以提升铁路桥梁视觉识别的准确度和效率。 展开更多
关键词 铁路桥梁 构件识别 病害分割 多任务神经网络 多尺度 单目深度图
在线阅读 下载PDF
相近色干扰下大型变电站玻璃绝缘子目标识别算法
10
作者 陈赟 张英 +1 位作者 李端姣 刘建明 《沈阳工业大学学报》 北大核心 2025年第4期478-485,共8页
【目的】在大型变电站监控系统中,玻璃绝缘子的目标识别是确保电力设备安全运行的重要环节。然而,受环境复杂性和图像采集条件的限制,玻璃绝缘子图像往往存在清晰度差、相近色干扰等问题,导致目标识别困难,直接影响变电站的安全监控效... 【目的】在大型变电站监控系统中,玻璃绝缘子的目标识别是确保电力设备安全运行的重要环节。然而,受环境复杂性和图像采集条件的限制,玻璃绝缘子图像往往存在清晰度差、相近色干扰等问题,导致目标识别困难,直接影响变电站的安全监控效果。【方法】为了解决这一问题,提出一种相近色干扰下大型变电站玻璃绝缘子目标识别算法。针对图像清晰度不足和相近色干扰问题,将原始图像从RGB空间转换为HSV空间。通过精细分解HSV空间的色相H、饱和度S和亮度V分量,计算特征差值,增强图像的色彩表现和视觉效果,从而有效消除相近色干扰。采用自适应阈值分割技术,结合HSV空间的色彩特征,对图像进行精确分割,分离出玻璃绝缘子目标区域与复杂背景。设计了一种双尺度分类卷积神经网络(CNN),通过多尺度特征提取和分类,实现对复杂背景下玻璃绝缘子的高精度目标识别。该网络结合了局部细节和全局上下文信息,进一步提升了识别的鲁棒性和准确性。【结果】实验结果表明,研究提出的算法应用优势显著。在色彩增强方面,通过HSV空间的特征差值计算,显著提升了图像的色彩对比度和视觉效果,有效消除了相近色干扰。在图像分割性能上,自适应阈值分割技术能够精确分离玻璃绝缘子目标区域与复杂背景,分割准确性达到较高水平。在目标识别方面,双尺度分类卷积神经网络在复杂背景下表现出较强的抗干扰能力,对玻璃绝缘子的识别精度显著高于传统方法。【结论】研究提出的相近色干扰下大型变电站玻璃绝缘子目标识别算法,通过色彩增强、自适应阈值分割和双尺度分类卷积神经网络的有机结合,成功解决了图像清晰度不足和相近色干扰导致的目标识别难题。该算法在色彩增强、分割性能和抗干扰能力上均表现出色,能够高效、准确地识别玻璃绝缘子目标,为大型变电站的安全监控提供了可靠的技术保障。 展开更多
关键词 相近色干扰 大型变电站 复杂背景 玻璃绝缘子 目标识别 自适应阈值分割 色彩增强 双尺度分类卷积神经网络
在线阅读 下载PDF
基于深度学习的鱼类识别相关技术研究现状及展望 被引量:10
11
作者 汤永华 张志鹏 +2 位作者 林森 刘兴通 张志佳 《海洋渔业》 CSCD 北大核心 2024年第2期246-256,共11页
为促进渔业生产智能化、现代化发展,综述了基于深度学习的鱼类识别相关技术。首先,从数据集构建、数据预处理、神经网络模型设计以及模型训练等4个方面阐述了基于深度学习的鱼类识别工作流程。然后,从图像分类、目标检测、图像分割3个... 为促进渔业生产智能化、现代化发展,综述了基于深度学习的鱼类识别相关技术。首先,从数据集构建、数据预处理、神经网络模型设计以及模型训练等4个方面阐述了基于深度学习的鱼类识别工作流程。然后,从图像分类、目标检测、图像分割3个角度总结了近几年鱼类识别相关技术的研究进展及应用成果。其中,图像分类主要用于识别个体鱼的色泽与种类,目标检测侧重于估计鱼群的数量和体型,而图像分割则在推断鱼类的状态和行为方面发挥着重要作用。同时,分析了不同方法所具备的优势,比较了各方法在数据集中的性能指标。最后,对深度学习在鱼类识别领域的下一步发展方向和研究重点进行了展望。综上,深度学习方法效率普遍较高、泛化能力普遍较强,深度学习技术在鱼类识别中的广泛应用能够为渔业科研人员提供有效的技术支撑。 展开更多
关键词 鱼类识别 深度学习 卷积神经网络 目标检测 图像分割 研究进展
在线阅读 下载PDF
基于双通道特征融合网络的语音情感识别
12
作者 周晓彦 王丽丽 +1 位作者 邵勇斌 鞠醒 《声学技术》 CSCD 北大核心 2024年第6期854-861,共8页
针对语音情感识别中判别性的情感特征提取难题,结合卷积神经网络和视觉transformer网络结构,提出一种双通道特征融合的语音表征方法。使用基于倒瓶颈结构的卷积模块通道,并引入类transformer训练策略提取局部频谱特征,通过改进视觉trans... 针对语音情感识别中判别性的情感特征提取难题,结合卷积神经网络和视觉transformer网络结构,提出一种双通道特征融合的语音表征方法。使用基于倒瓶颈结构的卷积模块通道,并引入类transformer训练策略提取局部频谱特征,通过改进视觉transformer提取全局序列特征,利用卷积神经网络直接提取整个语谱图代替分块部分,更好地提取时序信息,将提取到的特征信息进行融合,能够获取判别性强的情感特征,最后输入到Softmax分类器得到识别结果。在EMO-DB和CASIA数据库上进行实验,文中所提模型的平均准确率分别达到了94.24%和93.05%,与其他模型进行对比试验,结果优于其他模型,表明了该方法的有效性。 展开更多
关键词 语音情感识别 卷积神经网络 视觉transformer 特征融合
在线阅读 下载PDF
基于改进DeepLabV3+的丘陵田间道路图像分割方法研究 被引量:5
13
作者 李法霖 石军锋 +3 位作者 梁新成 李云伍 刘鹏 陈欣 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第8期172-183,共12页
为解决丘陵地区智能农机装备因道路狭窄、路况复杂导致道路信息提取精度低和推理速度慢等问题,以丘陵田间道路作为研究对象制作数据集,提出一种基于改进DeepLabV3+的丘陵田间道路图像分割方法.首先在编码器模块中使用轻量化的主干网络G_... 为解决丘陵地区智能农机装备因道路狭窄、路况复杂导致道路信息提取精度低和推理速度慢等问题,以丘陵田间道路作为研究对象制作数据集,提出一种基于改进DeepLabV3+的丘陵田间道路图像分割方法.首先在编码器模块中使用轻量化的主干网络G_Ghost_RegNetX_4.0GF提取图像特征,保证精度并减小模型参数数量.再采用轻量级的空洞空间金字塔池化模块,将不同尺度特征融合.试验结果表明,改进模型的平均交并比和推理速度分别为87.6%及116.08 f/s,与当前主流图像分割网络FCN、DeepLabV3及PSPNet相比,MIoU分别提升了0.8%,2.2%,1%,推理速度分别为对比网络的1.33,1.83,1.76倍.所提模型的参数总量为14.41×10^(6),浮点计算量为49.34×10^(9),模型参数及计算量大幅减小.改进后的算法具有较高的检测精度和推理速度,有利于解决智能农机装备在丘陵田间道路上行驶的自主导航问题. 展开更多
关键词 丘陵道路 机器视觉 场景识别 语义分割 神经网络
在线阅读 下载PDF
基于Mask R-CNN的复杂环境下辣椒识别方法研究 被引量:4
14
作者 付晓鸽 李涵 +1 位作者 左治江 杜铮 《中国农机化学报》 北大核心 2024年第9期215-219,共5页
针对辣椒采摘机器人在真实场景中辣椒簇状、粘连和光照不均导致无法精准采摘辣椒的问题,提出一种基于Mask R-CNN实例分割网络模型的辣椒识别方法。以真实场景下的辣椒为研究对象,采集自然生长的辣椒图像4496张,对其中的4000张进行数据... 针对辣椒采摘机器人在真实场景中辣椒簇状、粘连和光照不均导致无法精准采摘辣椒的问题,提出一种基于Mask R-CNN实例分割网络模型的辣椒识别方法。以真实场景下的辣椒为研究对象,采集自然生长的辣椒图像4496张,对其中的4000张进行数据标注作为数据集,通过设置不同的学习率、训练周期和模型网络层对数据集进行训练。试验结果表明,Mask R-CNN网络模型对真实场景下辣椒的识别和分割效果较好,平均准确率达到90.34%,平均速度达到0.82 s/幅,为智能辣椒采摘机器人的辣椒分割识别和定位提供有力的技术支撑。 展开更多
关键词 辣椒识别 实例分割 Mask R-CNN 神经网络 采摘机器人
在线阅读 下载PDF
基于语义分割的输电线路树障检测方法 被引量:2
15
作者 蔡文彪 吴怀诚 +2 位作者 李立学 董云鹏 张嘉杨 《沈阳工业大学学报》 CAS 北大核心 2024年第6期766-771,共6页
针对复杂环境下输电线路树障检测识别准确率较低的问题,提出了一种基于卷积神经网络的D-LinkNet模型语义分割技术。算法采用编码器-解码器结构,利用扩展卷积扩大感受野的同时引入特征提取模块,通过像素间的关联信息矩阵来构建网络权值矩... 针对复杂环境下输电线路树障检测识别准确率较低的问题,提出了一种基于卷积神经网络的D-LinkNet模型语义分割技术。算法采用编码器-解码器结构,利用扩展卷积扩大感受野的同时引入特征提取模块,通过像素间的关联信息矩阵来构建网络权值矩阵,提高了网络对边界模糊区域的分割能力。仿真实验结果表明,所提算法将树障检测的准确度提高至97.87%,相较于FCN模型预测准确率提高了12.23%,且在有效提高识别精度的同时兼顾了运算速度,具有更高的实用价值。 展开更多
关键词 输电线路 树障 语义分割 卷积神经网络 特征识别 关联信息 权值矩阵 边界模糊区域
在线阅读 下载PDF
基于神经网络加速器的FPGA语音情感识别系统 被引量:1
16
作者 乔栋 陈章进 +1 位作者 邓良 张廓 《计算机应用与软件》 北大核心 2024年第10期163-169,246,共8页
针对现有语音情感识别系统的部署功耗高、不具有便携性的缺点,提出一种基于神经网络加速器的FPGA语音情感识别系统设计。在FPGA上实现语音MFCC(Mel Frequency Cepstrum Coefficient)特征的提取,便于进行识别;为神经网络加速器设计指令... 针对现有语音情感识别系统的部署功耗高、不具有便携性的缺点,提出一种基于神经网络加速器的FPGA语音情感识别系统设计。在FPGA上实现语音MFCC(Mel Frequency Cepstrum Coefficient)特征的提取,便于进行识别;为神经网络加速器设计指令生成算法,将网络模型部署在神经网络加速器实现语音情感识别。整个系统主要硬件资源消耗为37078个LUT和153个DSP,支持在主流FPGA平台上的部署。经过检验,语音情感识别系统的指令运算误差可达0.06以下,输出误差为0.0004以下,满足语音情感识别的需求。 展开更多
关键词 MFCC 语音情感识别 神经网络加速器 FPGA
在线阅读 下载PDF
基于生成对抗网络的手写数字重叠图像分离与识别 被引量:1
17
作者 韦家成 董然 +3 位作者 蔡成涛 林小竹 宋慧佳 王翔宇 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第11期2226-2234,共9页
为解决手写数字重叠给识别带来的障碍,探索识别重叠手写数字的高效方法,本文提出一种采用生成对抗网络分离重叠手写数字的方法,将重叠手写数字分离成2个单独的数字后再进行识别。分别使用卷积层和反卷积层构建判别器和生成器,充分提取... 为解决手写数字重叠给识别带来的障碍,探索识别重叠手写数字的高效方法,本文提出一种采用生成对抗网络分离重叠手写数字的方法,将重叠手写数字分离成2个单独的数字后再进行识别。分别使用卷积层和反卷积层构建判别器和生成器,充分提取数字特征,减少模型参数量;融入自注意力机制,快速有效提取数字显著区域特征;对生成器和判别器进行谱归一,约束网络梯度;改进模型损失函数,提高生成器分离数字的质量。在通过MNIST数据集构造的数据上进行试验,结果表明:本文提出的方法对重叠手写数字的识别准确率达95.91%;峰值信噪比和结构相似性指数分别为22.11和0.8961,相比CapsNet网络模型有了显著提升。 展开更多
关键词 生成对抗网络 重叠手写数字分离 字符分割 字符识别 重叠目标识别 自注意力机制 深度学习 神经网络
在线阅读 下载PDF
基于注意力机制语谱图特征提取的语音识别 被引量:10
18
作者 姜囡 庞永恒 高爽 《吉林大学学报(理学版)》 CAS 北大核心 2024年第2期320-330,共11页
针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语... 针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率. 展开更多
关键词 语音识别 CTC模型 循环神经网络 注意力机制
在线阅读 下载PDF
协调语音能量区域的正则化优化算法 被引量:3
19
作者 师晨康 薛珮芸 +1 位作者 白静 赵建星 《计算机工程与设计》 北大核心 2024年第7期2173-2179,共7页
为有效解决语音识别模型过拟合问题,提出一种协调语音能量区域的正则化优化算法。根据语音的共振峰特性,对语音信号高能量区域进行集体失活处理,增加模型对语音信号低能量区域的关注度;为进一步提升声学模型性能,采用堆叠8层的门控卷积... 为有效解决语音识别模型过拟合问题,提出一种协调语音能量区域的正则化优化算法。根据语音的共振峰特性,对语音信号高能量区域进行集体失活处理,增加模型对语音信号低能量区域的关注度;为进一步提升声学模型性能,采用堆叠8层的门控卷积神经网络提取语音时序特征,并对其中的门控机制进行优化,缓解梯度衰减现象;采用联结时序分类算法以汉字为建模单元对语音识别模型进行训练和解码。在公开中文语音数据集Aishell-1上的实验结果表明,该语音识别模型字错率降低至11.27%,与基线模型相比,字错率下降了7.93%,验证了该方法的有效性。 展开更多
关键词 语音识别 声学模型 语音能量区域 正则化 卷积神经网络 联结时序分类 深度学习
在线阅读 下载PDF
基于VMD的双通道构音障碍语音特征图谱提取算法
20
作者 薛珮芸 白静 +1 位作者 张楠 赵建星 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期793-801,共9页
针对在提取构音障碍患者语音有效特征信息不足,导致语音识别率低的问题,提出一种基于变分模态分解(VMD)的多尺度双通道滤波器组(MBCFbank)特征图谱提取算法.首先,为了更好地提取符合人耳听觉结构特性的声学特征,提出一种双通道滤波器组(... 针对在提取构音障碍患者语音有效特征信息不足,导致语音识别率低的问题,提出一种基于变分模态分解(VMD)的多尺度双通道滤波器组(MBCFbank)特征图谱提取算法.首先,为了更好地提取符合人耳听觉结构特性的声学特征,提出一种双通道滤波器组(BCFbank)特征提取算法,该算法采用Mel滤波后做对数变换,同时采用Gammatone滤波后作非线性响度变换;其次,采用VMD来优化BCFbank特征,对分解后的多个语音信号分量筛选出相关系数较高的3个,分别提取其BCFbank特征及其差分特征,同时对未分解的语音信号提取BCFbank特征,从而构成MBCFbank特征图谱;最后,在双路语音识别模型上进行训练和识别.实验结果表明,基于BCFbank特征、MBCFbank特征图谱的语音识别模型准确率最高分别达到了87.82%,94.34%,优于Fbank特征的识别效果. 展开更多
关键词 构音障碍语音识别 变分模态分解 卷积神经网络 MBCFbank特征
在线阅读 下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部