期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于双向长短时记忆和卷积Transformer的声学词嵌入模型
被引量:
3
1
作者
高芸芸
赵腊生
张强
《计算机应用》
CSCD
北大核心
2024年第1期123-128,共6页
示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-L...
示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-LSTM提取特征、对语音序列进行建模,并通过叠加方式来提高模型的学习能力;其次,为了能在捕获全局信息的同时学习到局部信息,将CNN和Transformer编码器并联连接组成卷积Transformer,充分利用它在特征提取上的优势,聚合更多有效的信息,提高嵌入的区分性。在对比损失约束下,所提模型平均精度达到了94.36%,与基于注意力的Bi-LSTM模型相比,平均精度提高了1.76%。实验结果表明,所提模型可以有效改善模型性能,更好地实现示例查询语音关键词检测。
展开更多
关键词
卷积神经网络
声学词嵌入
语音信息
示例查询语音关键
词
检测
循环神经网络
在线阅读
下载PDF
职称材料
基于wav2vec预训练的样例关键词识别
被引量:
5
2
作者
李昭奇
黎塔
《计算机科学》
CSCD
北大核心
2022年第1期59-64,共6页
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标...
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标注数据数量。使用wav2vec预训练可以减少神经网络对数据量的依赖,提升系统的性能。使用wav2vec模型提取的预训练特征直接替换梅尔频率倒谱系数特征后,在SwitchBoard语料库中提取的数据集上使双向长短时记忆网络的神经网络声学词嵌入系统的平均准确率提高了11.1%,等精度召回值提高了10.0%。将wav2vec特征与梅尔频率倒谱系数特征相融合以提取嵌入向量的方法进一步提高了系统的性能,与仅使用wav2vec的方法相比,融合方法的平均准确率提高了5.3%,等精度召回值提高了2.5%。
展开更多
关键词
声学词嵌入
孤立
词
识别
wav2vec预训练
样例查询
语音片段查询
在线阅读
下载PDF
职称材料
题名
基于双向长短时记忆和卷积Transformer的声学词嵌入模型
被引量:
3
1
作者
高芸芸
赵腊生
张强
机构
先进设计与智能计算省部共建教育部重点实验室(大连大学)
出处
《计算机应用》
CSCD
北大核心
2024年第1期123-128,共6页
基金
辽宁省教育厅基本科研项目(LJKMZ20221838)。
文摘
示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-LSTM提取特征、对语音序列进行建模,并通过叠加方式来提高模型的学习能力;其次,为了能在捕获全局信息的同时学习到局部信息,将CNN和Transformer编码器并联连接组成卷积Transformer,充分利用它在特征提取上的优势,聚合更多有效的信息,提高嵌入的区分性。在对比损失约束下,所提模型平均精度达到了94.36%,与基于注意力的Bi-LSTM模型相比,平均精度提高了1.76%。实验结果表明,所提模型可以有效改善模型性能,更好地实现示例查询语音关键词检测。
关键词
卷积神经网络
声学词嵌入
语音信息
示例查询语音关键
词
检测
循环神经网络
Keywords
Convolutional Neural Network(CNN)
Acoustic Word Embedding(AWE)
speech information
Query-by-Example Spoken Term Detection(QbE-STD)
Recurrent Neural Network(RNN)
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于wav2vec预训练的样例关键词识别
被引量:
5
2
作者
李昭奇
黎塔
机构
中国科学院声学研究所语言声学与内容理解重点实验室
中国科学院大学
出处
《计算机科学》
CSCD
北大核心
2022年第1期59-64,共6页
基金
国家重点研发计划(2020AAA0108002)。
文摘
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标注数据数量。使用wav2vec预训练可以减少神经网络对数据量的依赖,提升系统的性能。使用wav2vec模型提取的预训练特征直接替换梅尔频率倒谱系数特征后,在SwitchBoard语料库中提取的数据集上使双向长短时记忆网络的神经网络声学词嵌入系统的平均准确率提高了11.1%,等精度召回值提高了10.0%。将wav2vec特征与梅尔频率倒谱系数特征相融合以提取嵌入向量的方法进一步提高了系统的性能,与仅使用wav2vec的方法相比,融合方法的平均准确率提高了5.3%,等精度召回值提高了2.5%。
关键词
声学词嵌入
孤立
词
识别
wav2vec预训练
样例查询
语音片段查询
Keywords
Acoustic word embedding
Isolated word discrimination
wav2vec pretraining
Query-by-example
Spoken term detection
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于双向长短时记忆和卷积Transformer的声学词嵌入模型
高芸芸
赵腊生
张强
《计算机应用》
CSCD
北大核心
2024
3
在线阅读
下载PDF
职称材料
2
基于wav2vec预训练的样例关键词识别
李昭奇
黎塔
《计算机科学》
CSCD
北大核心
2022
5
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部