期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离
1
作者
王春丽
刘素倩
陈善立
《信号处理》
北大核心
2025年第4期718-729,共12页
针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合...
针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合现实中复杂的背景环境需求。为使模型可以在现实应用复杂条件下灵活应对混合语音信号中的多变性与非平稳性,采用多尺度可变形注意力机制与Transformer编码器构成(Transformer Encoder Multi-Scale deformable attention,TEMDA)模块,利用多尺度可变形注意力机制的偏移层在不同位置上进行动态计算,扩展模型的感受野,同时使模型更有效地聚焦于重要的时间点,减少噪声和混响的影响。为了更好地获取上下文信息,在多路径融合策略中,通过在双路径模块的基础上增加通道间的Conformer组成三路径模块,用于提取多说话人之间的特征信息,这样的处理方式可以更好地融合单一说话人和多说话人之间的信息,提升语音分离性能。实验表明,所提出的模型分别在纯净和带噪声的Libri2Mix、Libri3Mix数据集上达到了显著的分离效果,并且在LRS2-2Mix数据集中模型可以更好地减少噪声和混响对语音分离的影响,尺度不变信噪比改善(Scale-Invariant Signal-to-Noise Ratio Improvement,SI-SNRi)和信号失真比改善(Signal-to-Distortion Ratio Improvement,SDRi)分别为14.7 dB和15.1 dB;在三个说话人数目中的估计精度为98.89%,提升了0.12%。
展开更多
关键词
未知说话人语音分离
多尺度可变形注意力编码策略
多路径融合
吸引子估计
在线阅读
下载PDF
职称材料
基于单目RGB图像的三维手部姿态估计方法
2
作者
杨冰
徐楚阳
+1 位作者
姚金良
向学勤
《浙江大学学报(工学版)》
北大核心
2025年第1期18-26,共9页
现有的三维手部姿态估计方法大多基于Transformer技术,未充分利用高分辨率下的局部空间信息,为此提出基于改进FastMETRO的三维手部姿态估计方法.引入可变形注意力机制,使得编码器的设计不再受限于图像特征序列长度;引入交错更新多尺度...
现有的三维手部姿态估计方法大多基于Transformer技术,未充分利用高分辨率下的局部空间信息,为此提出基于改进FastMETRO的三维手部姿态估计方法.引入可变形注意力机制,使得编码器的设计不再受限于图像特征序列长度;引入交错更新多尺度特征编码器来融合多尺度特征,强化生成手部姿态;引入图卷积残差模块来挖掘网格顶点间的显式语义联系.为了验证所提方法的有效性,在数据集FreiHAND、HO3D V2和HO3D V3上开展训练及评估实验.结果表明,所提方法的回归精度优于现有先进方法,在FreiHAND、HO3D V2、HO3D V3上的普鲁克对齐-平均关节点误差分别为5.8、10.0、10.5 mm.
展开更多
关键词
三维手部姿态估计
TRANSFORMER
可变形
注意力
机制
交错更新
多尺度
特征
编码
器
神经网络
在线阅读
下载PDF
职称材料
题名
基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离
1
作者
王春丽
刘素倩
陈善立
机构
兰州交通大学电子与信息工程学院
出处
《信号处理》
北大核心
2025年第4期718-729,共12页
基金
兰州交通大学及对口支援高校(LH2023002)
兰州交通大学青年基金项目(LH2019005)
+1 种基金
内蒙古重点研发及成果转化项目(2023YFSH0043,2023YFDZ0043)
甘肃省重点人才项目。
文摘
针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合现实中复杂的背景环境需求。为使模型可以在现实应用复杂条件下灵活应对混合语音信号中的多变性与非平稳性,采用多尺度可变形注意力机制与Transformer编码器构成(Transformer Encoder Multi-Scale deformable attention,TEMDA)模块,利用多尺度可变形注意力机制的偏移层在不同位置上进行动态计算,扩展模型的感受野,同时使模型更有效地聚焦于重要的时间点,减少噪声和混响的影响。为了更好地获取上下文信息,在多路径融合策略中,通过在双路径模块的基础上增加通道间的Conformer组成三路径模块,用于提取多说话人之间的特征信息,这样的处理方式可以更好地融合单一说话人和多说话人之间的信息,提升语音分离性能。实验表明,所提出的模型分别在纯净和带噪声的Libri2Mix、Libri3Mix数据集上达到了显著的分离效果,并且在LRS2-2Mix数据集中模型可以更好地减少噪声和混响对语音分离的影响,尺度不变信噪比改善(Scale-Invariant Signal-to-Noise Ratio Improvement,SI-SNRi)和信号失真比改善(Signal-to-Distortion Ratio Improvement,SDRi)分别为14.7 dB和15.1 dB;在三个说话人数目中的估计精度为98.89%,提升了0.12%。
关键词
未知说话人语音分离
多尺度可变形注意力编码策略
多路径融合
吸引子估计
Keywords
unknown speaker speech separation
multiscale deformable attention encoder strategy
multipath fusion
attractor estimation
分类号
TN912.3 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
基于单目RGB图像的三维手部姿态估计方法
2
作者
杨冰
徐楚阳
姚金良
向学勤
机构
杭州电子科技大学计算机学院
杭州电子科技大学浙江省脑机协同智能重点实验室
杭州灵伴科技有限公司
出处
《浙江大学学报(工学版)》
北大核心
2025年第1期18-26,共9页
基金
浙江省基础公益研究计划(LGG22F020027).
文摘
现有的三维手部姿态估计方法大多基于Transformer技术,未充分利用高分辨率下的局部空间信息,为此提出基于改进FastMETRO的三维手部姿态估计方法.引入可变形注意力机制,使得编码器的设计不再受限于图像特征序列长度;引入交错更新多尺度特征编码器来融合多尺度特征,强化生成手部姿态;引入图卷积残差模块来挖掘网格顶点间的显式语义联系.为了验证所提方法的有效性,在数据集FreiHAND、HO3D V2和HO3D V3上开展训练及评估实验.结果表明,所提方法的回归精度优于现有先进方法,在FreiHAND、HO3D V2、HO3D V3上的普鲁克对齐-平均关节点误差分别为5.8、10.0、10.5 mm.
关键词
三维手部姿态估计
TRANSFORMER
可变形
注意力
机制
交错更新
多尺度
特征
编码
器
神经网络
Keywords
3D hand poses estimation
Transformer
deformable attention
interleaved update multi-scale feature encoder
neural network
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离
王春丽
刘素倩
陈善立
《信号处理》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于单目RGB图像的三维手部姿态估计方法
杨冰
徐楚阳
姚金良
向学勤
《浙江大学学报(工学版)》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部