期刊文献+
共找到1,222篇文章
< 1 2 62 >
每页显示 20 50 100
基于EfficientNetV2-RetNet的端到端中文管制语音识别
1
作者 梁海军 常瀚文 +2 位作者 何一民 赵志伟 孔建国 《电讯技术》 北大核心 2025年第2期254-260,共7页
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获... 自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。 展开更多
关键词 空中交通管制 自动语音识别 端到端深度学习 迁移学习
在线阅读 下载PDF
基于多粒度时空注意力机制的说话人识别模型
2
作者 朱文博 吴靖 +2 位作者 金浩 叶维彰 朱珍 《声学技术》 北大核心 2025年第1期93-101,共9页
深度学习已广泛应用在说话人识别领域,但当前模型存在识别率低和模型参数复杂度高的问题,难以进行轻量化语音识别。针对此问题,文章提出一种基于多粒度时空注意力机制的说话人识别模型,该模型由多粒度混合模块、时空注意力机制模块、通... 深度学习已广泛应用在说话人识别领域,但当前模型存在识别率低和模型参数复杂度高的问题,难以进行轻量化语音识别。针对此问题,文章提出一种基于多粒度时空注意力机制的说话人识别模型,该模型由多粒度混合模块、时空注意力机制模块、通道压缩模块组成。其中多粒度混合模块和时空注意力机制模块以多尺度建模角度来捕捉局部时序上下文特征和空间关联特征信息,并通过多粒度方式耦合不同时空信息的关联特征以提高全局时空建模能力。同时,通道压缩模块通过聚合不同说话人信道以及上下文语境依赖表征以减少整体模型参数数量。在多组公开数据集上进行五重交叉验证实验,结果表明:对比主流模型,所提方法能够有效地提高说话人识别准确率、降低参数量,并达到最优的表现,在轻量化说话人识别模型方面具有重要的应用价值。 展开更多
关键词 深度学习 卷积神经网络 说话人识别 注意力机制 轻量化模型
在线阅读 下载PDF
噪声环境下基于域对抗图卷积网络和坐标注意力的说话人确认方法
3
作者 陈家辉 葛子瑞 +2 位作者 王天朗 郭海燕 杨震 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期57-67,共11页
为了减弱背景噪声对说话人确认(Speaker Verification,SV)性能的影响,提出一种基于域对抗图卷积网络(Domain Adversarial Graph Convolution Network,DA⁃GCN)和坐标注意力(Coordinate Attention,CA)的SV方法来提升噪声环境下的SV性能。... 为了减弱背景噪声对说话人确认(Speaker Verification,SV)性能的影响,提出一种基于域对抗图卷积网络(Domain Adversarial Graph Convolution Network,DA⁃GCN)和坐标注意力(Coordinate Attention,CA)的SV方法来提升噪声环境下的SV性能。首先,针对噪声环境下局部特征变得不稳定这个问题,提出引入CA模块,将全局时间信息和全局频率信息编码到通道注意力中,以强调有用通道,提取鲁棒性的说话人特征。其次,提出构建DA⁃GCN来辅助主网络提取与噪声相关性更小的说话人特征来进行后续的分类。具体而言,将语音信号映射为图信号,利用GCN分别对干净语音图信号特征和含噪语音图信号特征进行聚合,通过域对抗(Domain Adversarial,DA)训练,辅助主网络提取干净语音域和含噪语音域共享的说话人特征,从而降低噪声对SV性能的影响。在VoxCeleb1数据集上的实验结果表明,所提CA⁃DA⁃GCN的性能优于基线模型ExU⁃Net且表现出良好的泛化能力。 展开更多
关键词 噪声环境 说话人确认 域对抗 坐标注意力机制 图卷积神经网络
在线阅读 下载PDF
基于并行卷积和双重注意力机制的说话人识别
4
作者 陶佳佳 赵永钢 +2 位作者 华杭波 孔明 梁晓瑜 《微电子学与计算机》 2025年第1期1-8,共8页
为解决说话人识别面对多种场景造成性能变差的问题,提出了一种基于并行卷积和双重注意力机制的识别方法。该方法基于ECAPA-TDNN模型结构,对网络组件和损失函数计算模块进行了改进。首先,残差模块的改进是引入“分组”的思想,通过在残差... 为解决说话人识别面对多种场景造成性能变差的问题,提出了一种基于并行卷积和双重注意力机制的识别方法。该方法基于ECAPA-TDNN模型结构,对网络组件和损失函数计算模块进行了改进。首先,残差模块的改进是引入“分组”的思想,通过在残差块构建多分支并行连接,获取多层次特征。其次,注意力模块的改进是利用通道注意力和空间注意力两种机制,对特征的不同位置进行注意力加权,便于模型自适应地选择和强调特征,捕获全局特征和局部关键信息。然后,使用Sub-center loss函数计算损失,应对多变化特征。最后,在大型的中文多场景数据集CN-Celeb上评估模型的有效性并选取数据集的六种单一场景测试说话人识别系统。实验结果表明:与ResNet34模型和ECAPA-TDNN模型相比,EER分别降低了6.03%和5.57%,minDCF分别降低了7.31%和7.02%;6种单一场景测试结果的均值低于测试集结果,且在“drama”和“speech”场景下表现优异,EER最低仅有4.48%,minDCF最低为0.2322。说明该方法具有强大的优越性和适应性,能够针对不同场景进行有效识别,从而提高说话人识别准确率和鲁棒性。 展开更多
关键词 说话人识别 并行连接 注意力机制 多场景数据集
在线阅读 下载PDF
基于STM32的辨音识别系统的设计与应用 被引量:1
5
作者 李棚 孔健 +2 位作者 叶飞 张明存 刘明明 《科学技术创新》 2024年第3期64-67,共4页
声音识别技术能够用于多种环境参数检测,本文采用STM32的DSP技术,对全向拾音器采集到环境声音进行快速傅里叶变换(FFT),获取待测声音的主频率和次频率,通过液晶屏显示采集信号的强度和主要频率分量。该设备能够有效对环境声音的主要参... 声音识别技术能够用于多种环境参数检测,本文采用STM32的DSP技术,对全向拾音器采集到环境声音进行快速傅里叶变换(FFT),获取待测声音的主频率和次频率,通过液晶屏显示采集信号的强度和主要频率分量。该设备能够有效对环境声音的主要参赛进行检测,在噪声检测和一般设备运行故障检测具有较高的适用性。 展开更多
关键词 STM32F103主控 快速傅里叶变换(FFT) 数字信号处理(DSP)
在线阅读 下载PDF
基于深度学习的水下目标识别技术 被引量:2
6
作者 丁元明 徐利华 侯孟珂 《舰船科学技术》 北大核心 2024年第1期143-147,共5页
在水下复杂场景下,目标对象具有姿态不同、遮挡和背景复杂等特点,这对卷积网络的特征提取能力提出巨大挑战。Mask R-CNN算法在水下目标特征提取过程中也存在特征提取能力欠佳的问题,导致算法在水下目标检测准确性较差。因此,提出一种基... 在水下复杂场景下,目标对象具有姿态不同、遮挡和背景复杂等特点,这对卷积网络的特征提取能力提出巨大挑战。Mask R-CNN算法在水下目标特征提取过程中也存在特征提取能力欠佳的问题,导致算法在水下目标检测准确性较差。因此,提出一种基于Mask R-CNN的改进水下目标目标识别方法。首先可采用金字塔切分的通道注意力模块PAS代替采用了ResNet50的3×3卷积模块,该模块可通过对每个通道进行金字塔的切分,针对通道切分完成后所得出来的通道特征图上的空间信息来进行不用的尺度特征层提取;同时通过采用另一种更加安全稳定和高效的ECANEt通道注意力模块代替PAS模块中的SENet通道注意力模,对多维度的通道注意力权重进行特征重标定;最后对特征金字塔FPN的网络结构进行改进,加强不同特征层之间的信息融合。根据不同场景下进行的实验对比,改进后的网络能够提高水下目标识别的准确率,平均检测精度可达91.3%。本文所提出的改进Mask RCNN网络模型,能够适应水下复杂多变的场景,为水下目标的识别提供理论依据与技术方案。 展开更多
关键词 水下目标识别 Mask R-CNN 深度学习
在线阅读 下载PDF
基于ERes-ECAM的动物声纹识别 被引量:1
7
作者 侯卫民 孙艺菲 刘峻滔 《无线电通信技术》 北大核心 2024年第4期789-798,共10页
声纹识别技术不仅在人类身份验证领域广泛应用,在动物种类识别方面也取得一定进展。现有模型存在特征表达能力不足的问题,同时,在保证性能的前提下,模型的时间复杂度和推理速度有待优化。提出用于发声动物嵌入学习的改进的残差块连接改... 声纹识别技术不仅在人类身份验证领域广泛应用,在动物种类识别方面也取得一定进展。现有模型存在特征表达能力不足的问题,同时,在保证性能的前提下,模型的时间复杂度和推理速度有待优化。提出用于发声动物嵌入学习的改进的残差块连接改进的上下文感知掩蔽(Enhanced Res2block connected Enhanced Context Aware Masking, ERes-ECAM)新型架构,采用了稠密连接的时延神经网络(Densely-connected Time Delay Neural Network, D-TDNN)作为骨干,为了解决模糊不相关噪声问题的同时能够提取更多有效的关键信息,在D-TDNN层中采用多粒度池化方法的改进的上下文感知掩蔽(Enhanced Context Aware Masking, ECAM)模块,前端连接残差模块,通过局部特征融合(Local Feature Fusion, LFF)的方式,将残差块内提取的特征进行融合来提取局部信息,提升了声纹验证系统的准确性和鲁棒性。在Anim-Celeb和Pig-Celeb两个测试集中分别实验,实验结果表明,所提架构的等错误率(Equal Error Rate, EER)分别达到6.88%和7.24%,同时,对动物种类和猪只种类识别准确率达到了93.12%和92.76%。 展开更多
关键词 深度学习 声纹识别 上下文感知掩码 局部特征融合 动物种类识别
在线阅读 下载PDF
语音识别在空中交通管制中的应用挑战与发展 被引量:1
8
作者 孔建国 李煜琨 +1 位作者 蒋培元 梁海军 《航空计算技术》 2024年第1期124-129,共6页
研究一种安全可靠的管制语音识别系统对于推进空管自动化进程、降低管制人员负荷、提升安全效能至关重要。对管制语音识别技术发展所面临的挑战进行了详细介绍,测试科大讯飞、腾讯云、阿里云、上海麦图这4家公司的商用语音识别系统。结... 研究一种安全可靠的管制语音识别系统对于推进空管自动化进程、降低管制人员负荷、提升安全效能至关重要。对管制语音识别技术发展所面临的挑战进行了详细介绍,测试科大讯飞、腾讯云、阿里云、上海麦图这4家公司的商用语音识别系统。结果表明,在前3家通用领域的商用ASR系统中,科大讯飞识别效果最好,CER为25.36%。相比之下,由于麦图的产品是基于ATC数据训练,具有最佳性能,其CER为15.02%。此外,设计了实验来探究人工设计的语音特征和基于自监督预训练策略提取的特征之间的优缺点。结果表明,后者有利于提升识别系统识别准确率和鲁棒性,但存在推理速度慢和部署难度大的问题。最后,总结了研究进展并进行了未来展望。 展开更多
关键词 ATC ASR 多任务学习 自监督学习 知识蒸馏
在线阅读 下载PDF
基于双路时延神经网络的说话人及性别识别
9
作者 叶汉民 蒲立力 程小辉 《桂林理工大学学报》 北大核心 2024年第4期715-721,共7页
为提高说话人和性别识别性能,提出一种新的时延神经网络(time delay neural network,TDNN)变体——双路时延神经网络。在网络架构层面,通过神经网络底层设置不同上下文大小时延单元捕捉说话人声纹信息特征,构建双路并行网络使得网络学... 为提高说话人和性别识别性能,提出一种新的时延神经网络(time delay neural network,TDNN)变体——双路时延神经网络。在网络架构层面,通过神经网络底层设置不同上下文大小时延单元捕捉说话人声纹信息特征,构建双路并行网络使得网络学习丰富异构特征,同时将通道注意力与空间注意力双机制融合于深度网络模型进而提取语音信息特征,在保证精度的前提下使得该网络实现说话人身份和性别的同时识别。基于公共数据集Librispeech、ST-CMDS的测试结果表明,该方法对说话人识别准确率分别能达到76.43%和75.82%,说话人性别识别准确率分别能达到91.69%和90.06%,比原有时延神经网络在说话人识别准确率上分别提高7.90和8.11百分点。 展开更多
关键词 说话人识别 性别识别 时延神经网络 通道注意力 空间注意力
在线阅读 下载PDF
粒径比率对声波操纵颗粒分离过程影响的数值模拟研究
10
作者 吴悠 田晓平 +2 位作者 KENZA Ayyada 王璜鹏 杨文婧 《电声技术》 2024年第4期23-27,共5页
基于驻波表面声波的微粒操纵技术因其高效低耗而得到广泛应用,但仅依靠实验方法和理论研究难以全面研究微观尺度下的微粒运动。对微流体内声波分离微观颗粒的过程进行数值模拟,并进一步研究不同粒径颗粒的粒径比率对颗粒分离过程的影响... 基于驻波表面声波的微粒操纵技术因其高效低耗而得到广泛应用,但仅依靠实验方法和理论研究难以全面研究微观尺度下的微粒运动。对微流体内声波分离微观颗粒的过程进行数值模拟,并进一步研究不同粒径颗粒的粒径比率对颗粒分离过程的影响。结果表明,两种颗粒的粒径越接近,颗粒分离越困难;粒径差越大,颗粒分离效果越好;粒径比率影响颗粒分离过程的本质是影响了大小颗粒受声场作用力间的差距。 展开更多
关键词 颗粒分离 离散元 表面声波 微流体
在线阅读 下载PDF
规则压缩模型和灵活架构的Transformer加速器设计
11
作者 姜小波 邓晗珂 +1 位作者 莫志杰 黎红源 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1079-1088,共10页
基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了... 基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了模型映射到硬件的效率。目前的加速器研究主要聚焦在解决模型数量上的复杂性,但对如何解决模型结构上的复杂性研究得不多。该文首先提出规则压缩模型,降低模型的结构复杂度,提高模型和硬件的匹配度,提高模型映射到硬件的效率。接着提出一种硬件友好的模型压缩方法,采用规则的偏移对角权重剪枝方案和简化硬件量化推理逻辑。此外,提出一个高效灵活的硬件架构,包括一种以块为单元的权重固定脉动运算阵列,同时包括一种准分布的存储架构。该架构可以高效实现算法到运算阵列的映射,同时实现高效的数据存储效率和降低数据移动。实验结果表明,该文工作在性能损失极小的情况下实现93.75%的压缩率,在FPGA上实现的加速器可以高效处理压缩后的Transformer模型,相比于中央处理器(CPU)和图形处理器(GPU)能效分别提高了12.45倍和4.17倍。 展开更多
关键词 自然语音处理 TRANSFORMER 模型压缩 硬件加速器 机器翻译
在线阅读 下载PDF
基于双通道特征融合网络的语音情感识别
12
作者 周晓彦 王丽丽 +1 位作者 邵勇斌 鞠醒 《声学技术》 CSCD 北大核心 2024年第6期854-861,共8页
针对语音情感识别中判别性的情感特征提取难题,结合卷积神经网络和视觉transformer网络结构,提出一种双通道特征融合的语音表征方法。使用基于倒瓶颈结构的卷积模块通道,并引入类transformer训练策略提取局部频谱特征,通过改进视觉trans... 针对语音情感识别中判别性的情感特征提取难题,结合卷积神经网络和视觉transformer网络结构,提出一种双通道特征融合的语音表征方法。使用基于倒瓶颈结构的卷积模块通道,并引入类transformer训练策略提取局部频谱特征,通过改进视觉transformer提取全局序列特征,利用卷积神经网络直接提取整个语谱图代替分块部分,更好地提取时序信息,将提取到的特征信息进行融合,能够获取判别性强的情感特征,最后输入到Softmax分类器得到识别结果。在EMO-DB和CASIA数据库上进行实验,文中所提模型的平均准确率分别达到了94.24%和93.05%,与其他模型进行对比试验,结果优于其他模型,表明了该方法的有效性。 展开更多
关键词 语音情感识别 卷积神经网络 视觉transformer 特征融合
在线阅读 下载PDF
基于MHA-ResNet的语音情绪识别算法
13
作者 周传华 郝敏 +1 位作者 曾辉 王勇 《微电子学与计算机》 2024年第9期41-46,共6页
语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首... 语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首先,将原始语音信号数据进行预处理;其次,将提取到的情绪特征集,利用多头注意力机制具备的并行化处理且自适应关注的特性,初步获取不同状态下鉴别性的语音情绪信息;最后,残差网络进一步获取深层情绪特征,完成不同情绪的识别。为验证模型有效性,在CASIA和EmoDB数据集上进行实验,其结果显示识别准确率分别为93.59%和97.57%。 展开更多
关键词 语音情绪识别 多头注意力机制 残差网络 情绪特征集
在线阅读 下载PDF
声音识别技术在计算机信息检测中的应用研究
14
作者 吕虎 《电声技术》 2024年第10期101-103,共3页
重点探讨声音识别技术在计算机信息检测中的应用,通过阐述声音识别的基本原理,详细介绍声音识别在计算机信息检测中的应用流程,包括声音采集与预处理、特征提取、模式匹配与识别这3个主要步骤。实验结果表明,基于梅尔频率倒谱系数(Mel F... 重点探讨声音识别技术在计算机信息检测中的应用,通过阐述声音识别的基本原理,详细介绍声音识别在计算机信息检测中的应用流程,包括声音采集与预处理、特征提取、模式匹配与识别这3个主要步骤。实验结果表明,基于梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征和支持向量机(Support Vector Machine,SVM)分类器的声音识别系统能够有效识别计算机使用过程中的正常操作声音和潜在威胁声音,为计算机安全监测提供了新的解决方案。 展开更多
关键词 声音识别 计算机信息检测 语音特征提取
在线阅读 下载PDF
基于AI技术的声像档案语音识别检索应用研究 被引量:3
15
作者 魏丽维 《机电兵船档案》 2024年第1期22-24,34,共4页
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重... 本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重要。本文旨在探索并实现一种高效、准确的语音识别检索系统,以提高声像档案管理的效率,促进语音信息资源的充分利用,从而在社会、教育、医疗等领域产生积极的影响。 展开更多
关键词 AI技术 声像档案 语音识别
在线阅读 下载PDF
基于Group-Res2Block的智能合成语音说话人确认方法
16
作者 李菲 苏兆品 +2 位作者 王年松 杨波 张国富 《应用科学学报》 CAS CSCD 北大核心 2024年第4期709-722,共14页
针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的... 针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的分组,以增强说话人局部特征的上下文联系;其次,设计了并行结构的多尺度通道注意力特征融合机制,利用不同大小卷积核实现同一层级的特征在通道维度的特征选择,以获取更具表现力的说话人特征,避免信息冗余;最后,设计了串行结构的多尺度层注意力特征融合机制,构建层结构,将深浅层特征整体进行融合并赋予不同权重,以获取最优的特征表达。为验证所提出特征提取网络的有效性,构建了中英文两种智能合成语音数据集进行消融实验和对比实验。结果表明本文方法在该任务的评价指标精确度(accuracy,ACC)、等错误率(equal error rate,EER)和最小检测代价函数(minimum detection cost function,minDCF)上是最优的。此外,通过对模型泛化性能进行测试,验证了本文方法对未知智能语音算法的适用性。 展开更多
关键词 说话人确认 智能合成语音 Group-Res2Block深度神经网络 多尺度特征 注意力机制
在线阅读 下载PDF
面向中文短语音的文本无关说话人确认新框架
17
作者 毛海全 冯海泓 +3 位作者 洪峰 马皓天 徐楚林 郑立通 《声学技术》 CSCD 北大核心 2024年第4期503-510,共8页
相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,... 相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,通过长、短语音说话人分类损失增强网络对不同时长语音段的说话人分类识别能力;同时,在嵌入码空间中增大同一说话人的短语音和长语音之间的相似度,减小不同说话人的短语音之间的相似度,增强网络对短语音的特征提取能力。此外,还提出了一种基于注意力机制的验证词选择方法,选择具有高注意力权重的中文词作为系统验证提示词。实验结果表明,文章提出的改进的端到端模型结合softmax预训练使得模型在短测试语音上的等错误率相对降低29%,基于注意力机制的验证词选择方法也能筛选出具有更好识别结果的验证词,二者结合能够有效提升说话人确认系统对于短中文语音的识别性能。 展开更多
关键词 说话人确认 短语音 注意力机制 验证词选择
在线阅读 下载PDF
基于声音识别技术的网络通信数据信息安全保障方法 被引量:1
18
作者 李磊 《电声技术》 2024年第8期123-125,共3页
针对网络通信中日益突出的数据信息安全问题,提出一种基于声音识别技术的安全保障方法。该方法利用说话人的声纹特征进行身份认证,通过声纹特征提取、声纹识别算法优化和语音信号抗干扰等关键技术,实现对网络通信数据的有效保护。研究... 针对网络通信中日益突出的数据信息安全问题,提出一种基于声音识别技术的安全保障方法。该方法利用说话人的声纹特征进行身份认证,通过声纹特征提取、声纹识别算法优化和语音信号抗干扰等关键技术,实现对网络通信数据的有效保护。研究结果表明,该方法在声纹识别精度、等错误率和抗干扰能力等方面具有优异表现,验证了其可行性和有效性。 展开更多
关键词 网络通信 数据信息安全 声音识别 声纹特征
在线阅读 下载PDF
基于语音识别的机械零件自动分类回收系统的研究 被引量:1
19
作者 于洪波 邵娟 《电声技术》 2024年第2期36-38,共3页
针对传统机械零件自动分类回收系统因复杂噪声环境导致语音识别准确性不高的问题,文章提出一种混合语音降噪算法,利用谱减法、维纳滤波与小波阈值降噪对语音进行多级降噪处理。搭建实验环境对改进后的方式进行验证,实验结果表明改进后... 针对传统机械零件自动分类回收系统因复杂噪声环境导致语音识别准确性不高的问题,文章提出一种混合语音降噪算法,利用谱减法、维纳滤波与小波阈值降噪对语音进行多级降噪处理。搭建实验环境对改进后的方式进行验证,实验结果表明改进后的方式能够有效改善系统语音识别的准确性,提升系统分拣效率。 展开更多
关键词 机械零件 自动分类 语音识别 语音降噪
在线阅读 下载PDF
基于密集连接时延神经网络的说话人识别算法
20
作者 和椿皓 常铁原 +1 位作者 潘立冬 王珺 《应用声学》 CSCD 北大核心 2024年第2期378-384,共7页
说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说... 说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率和0.15的最小检测代价标准,证明了在说话人识别任务上的有效性。 展开更多
关键词 说话人识别 深度学习 神经网络 密集连接 注意力机制
在线阅读 下载PDF
上一页 1 2 62 下一页 到第
使用帮助 返回顶部