期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于通道和帧级特征注意力模型的环境声音识别
被引量:
8
1
作者
苏瑞轩
葛动元
姚锡凡
《科学技术与工程》
北大核心
2024年第16期6792-6798,共7页
为了对环境声音进行更好的识别,提出基于通道和帧级特征注意力的环境声音识别卷积神经网络模型。该模型针对声音特征特点选取一维卷积以提高模型对声音特征信息的提取能力,并引入SE-Res2Net模块实现对声音特征细粒度上的全局感受并帮助...
为了对环境声音进行更好的识别,提出基于通道和帧级特征注意力的环境声音识别卷积神经网络模型。该模型针对声音特征特点选取一维卷积以提高模型对声音特征信息的提取能力,并引入SE-Res2Net模块实现对声音特征细粒度上的全局感受并帮助模型关注特征通道间的信息,在全连接层前加入注意力统计池化模块,增强模型对表征不同声音类别的关键帧级特征的学习以提高模型识别性能。采用Urbansound8K数据集,实验结果表明:所提模型在测试集上的训练准确率达到94.5%,即模型可以有效学习声音特征中表征不同环境声音的关键信息并进行正确预测。对消融实验结果分析可得,所提模型的设计可使其分类错误率的下降率达到43.8%,表明模型对一维卷积的应用和各个模块的引入是有效的,可见所提环境声音识别模型性能优越。
展开更多
关键词
声音识别
细粒度
通道加权
帧级特征
注意力
统计
池化
在线阅读
下载PDF
职称材料
基于ASP-SERes2Net的说话人识别算法
2
作者
令晓明
陈鸿雁
+1 位作者
张小玉
张真
《北京工业大学学报》
CAS
北大核心
2025年第1期42-50,共9页
为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(sq...
为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(squeeze-and-excitation,SE)注意力模块;然后,用注意力统计池化(attention statistics pooling,ASP)代替原来的平均池化;最后,采用附加角裕度的Softmax(additive angular margin Softmax,AAM-Softmax)对说话人身份进行分类。通过实验,将ASP-SERes2Net算法与时延神经网络(time delay neural network,TDNN)、ResNet34和Res2Net进行对比,ASP-SERes2Net算法的最小检测代价函数(minimum detection cost function,MinDCF)值为0.0401,等误率(equal error rate,EER)为0.52%,明显优于其他3个模型。结果表明,ASP-SERes2Net算法性能更优,适合应用于噪声环境下的说话人识别。
展开更多
关键词
说话人识别
梅尔语谱图
Res2Net
压缩激活(squeeze-and-excitation
SE)
注意力
模块
注意力
统计
池化
(
attention
statistics
pooling
ASP)
附加角裕度的Softmax(additive
angular
margin
Softmax
AAM-Softmax)
在线阅读
下载PDF
职称材料
基于局部和全局特征提取及多级特征聚合的中文方言识别模型
3
作者
孟一凡
陈宁
李泓锴
《华东理工大学学报(自然科学版)》
CAS
CSCD
北大核心
2024年第6期898-904,共7页
与其他语种的方言相比,中文方言种类较多,且方言类间差异小,类内差异大,因此中文方言识别极具挑战性。考虑到中文方言间的差异性可能体现在语音的局部(短时)特性上,也可能体现在语音的全局(长时)特性上,同时还可能反映在语音不同层级的...
与其他语种的方言相比,中文方言种类较多,且方言类间差异小,类内差异大,因此中文方言识别极具挑战性。考虑到中文方言间的差异性可能体现在语音的局部(短时)特性上,也可能体现在语音的全局(长时)特性上,同时还可能反映在语音不同层级的特性上,本文提出一种融合语音局部和全局特征提取以及多级特征聚合的中文方言识别模型。首先通过Res2Block提取语音的局部特征,然后利用Conformer提取语音的全局特征,最后通过将多个Conformer级联输出进行多层级特征的聚合。跨域和非跨域的实验结果表明,该模型取得了比基线模型更高的识别准确率。
展开更多
关键词
CONFORMER
方言识别
多层级特征聚合
Res2Block
注意力
统计
池化
在线阅读
下载PDF
职称材料
题名
基于通道和帧级特征注意力模型的环境声音识别
被引量:
8
1
作者
苏瑞轩
葛动元
姚锡凡
机构
广西科技大学机械与汽车工程学院
华南理工大学机械与汽车工程学院
出处
《科学技术与工程》
北大核心
2024年第16期6792-6798,共7页
基金
国家自然科学基金(51765007)。
文摘
为了对环境声音进行更好的识别,提出基于通道和帧级特征注意力的环境声音识别卷积神经网络模型。该模型针对声音特征特点选取一维卷积以提高模型对声音特征信息的提取能力,并引入SE-Res2Net模块实现对声音特征细粒度上的全局感受并帮助模型关注特征通道间的信息,在全连接层前加入注意力统计池化模块,增强模型对表征不同声音类别的关键帧级特征的学习以提高模型识别性能。采用Urbansound8K数据集,实验结果表明:所提模型在测试集上的训练准确率达到94.5%,即模型可以有效学习声音特征中表征不同环境声音的关键信息并进行正确预测。对消融实验结果分析可得,所提模型的设计可使其分类错误率的下降率达到43.8%,表明模型对一维卷积的应用和各个模块的引入是有效的,可见所提环境声音识别模型性能优越。
关键词
声音识别
细粒度
通道加权
帧级特征
注意力
统计
池化
Keywords
sound recognition
fine-grained
channel weighting
frame-level features
attention
statistics pooling
分类号
TP391.42 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于ASP-SERes2Net的说话人识别算法
2
作者
令晓明
陈鸿雁
张小玉
张真
机构
兰州交通大学光电技术与智能控制教育部重点实验室
兰州交通大学国家绿色镀膜技术与装备工程技术研究中心
出处
《北京工业大学学报》
CAS
北大核心
2025年第1期42-50,共9页
基金
甘肃省自然科学基金资助项目(22JR5RA332)
甘肃省高等教育教学成果培育项目(2021)。
文摘
为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(squeeze-and-excitation,SE)注意力模块;然后,用注意力统计池化(attention statistics pooling,ASP)代替原来的平均池化;最后,采用附加角裕度的Softmax(additive angular margin Softmax,AAM-Softmax)对说话人身份进行分类。通过实验,将ASP-SERes2Net算法与时延神经网络(time delay neural network,TDNN)、ResNet34和Res2Net进行对比,ASP-SERes2Net算法的最小检测代价函数(minimum detection cost function,MinDCF)值为0.0401,等误率(equal error rate,EER)为0.52%,明显优于其他3个模型。结果表明,ASP-SERes2Net算法性能更优,适合应用于噪声环境下的说话人识别。
关键词
说话人识别
梅尔语谱图
Res2Net
压缩激活(squeeze-and-excitation
SE)
注意力
模块
注意力
统计
池化
(
attention
statistics
pooling
ASP)
附加角裕度的Softmax(additive
angular
margin
Softmax
AAM-Softmax)
Keywords
speaker recognition
Mel spectrogram
Res2Net
squeeze-and-excitation(SE)
attention
module
attention
statistics pooling(ASP)
additive angular margin Softmax(AAM-Softmax)
分类号
TN [电子电信]
在线阅读
下载PDF
职称材料
题名
基于局部和全局特征提取及多级特征聚合的中文方言识别模型
3
作者
孟一凡
陈宁
李泓锴
机构
华东理工大学信息科学与工程学院
出处
《华东理工大学学报(自然科学版)》
CAS
CSCD
北大核心
2024年第6期898-904,共7页
基金
国家自然科学基金面上项目(61771196)。
文摘
与其他语种的方言相比,中文方言种类较多,且方言类间差异小,类内差异大,因此中文方言识别极具挑战性。考虑到中文方言间的差异性可能体现在语音的局部(短时)特性上,也可能体现在语音的全局(长时)特性上,同时还可能反映在语音不同层级的特性上,本文提出一种融合语音局部和全局特征提取以及多级特征聚合的中文方言识别模型。首先通过Res2Block提取语音的局部特征,然后利用Conformer提取语音的全局特征,最后通过将多个Conformer级联输出进行多层级特征的聚合。跨域和非跨域的实验结果表明,该模型取得了比基线模型更高的识别准确率。
关键词
CONFORMER
方言识别
多层级特征聚合
Res2Block
注意力
统计
池化
Keywords
conformer
dialect identification
multi-level feature aggregation
Res2Block
attent
ive statistic pooling
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于通道和帧级特征注意力模型的环境声音识别
苏瑞轩
葛动元
姚锡凡
《科学技术与工程》
北大核心
2024
8
在线阅读
下载PDF
职称材料
2
基于ASP-SERes2Net的说话人识别算法
令晓明
陈鸿雁
张小玉
张真
《北京工业大学学报》
CAS
北大核心
2025
0
在线阅读
下载PDF
职称材料
3
基于局部和全局特征提取及多级特征聚合的中文方言识别模型
孟一凡
陈宁
李泓锴
《华东理工大学学报(自然科学版)》
CAS
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部