期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于深度学习的多声音事件检测研究综述
1
作者
张珑
张恒远
+1 位作者
魏育华
杨烁祯
《天津师范大学学报(自然科学版)》
CAS
北大核心
2024年第6期1-12,共12页
多声音事件检测是当前语音处理的研究热点之一,本文对近年来基于深度学习的多声音事件检测模型进行综述.首先介绍了4种监督学习模型和13种弱监督学习模型,弱监督学习模型包括基于平均教师的模型、基于注意力的模型、基于源分离的模型、...
多声音事件检测是当前语音处理的研究热点之一,本文对近年来基于深度学习的多声音事件检测模型进行综述.首先介绍了4种监督学习模型和13种弱监督学习模型,弱监督学习模型包括基于平均教师的模型、基于注意力的模型、基于源分离的模型、基于自训练的模型以及其他模型,分析了各模型的特征、结构和性能;然后对各种模型使用的数据集及评价指标进行简要介绍;最后讨论了该领域未来的研究方向.
展开更多
关键词
深度学习
多声音事件检测
弱监督学习
半监督学习
在线阅读
下载PDF
职称材料
端到端流式语音识别研究综述
被引量:
14
2
作者
王澳回
张珑
+1 位作者
宋文宇
孟杰
《计算机工程与应用》
CSCD
北大核心
2023年第2期22-33,共12页
语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的...
语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的处理时间。目前在学术研究领域,端到端语音识别已经取得了丰硕的研究成果,而流式语音识别在学术研究以及工业应用中还存在着一些挑战与困难,因此,最近两年,端到端流式语音识别逐渐成为语音领域的一个研究热点与重点。从端到端流式识别模型与性能优化等方面对近些年所展开的研究进行全面的调查与分析,具体包括以下内容:(1)详细分析和归纳了端到端流式语音识别的各种方法与模型,包括直接实现流式识别的CTC与RNN-T模型,以及对注意力机制进行改进以实现流式识别的单调注意力机制等方法;(2)介绍了端到端流式语音识别模型提高识别准确率与减少延迟的方法,在提高准确率方面,主要有最小词错率训练、知识蒸馏等方法,在降低延迟方面,主要有对齐、正则化等方法;(3)介绍了流式语音识别一些常用的中英文开源数据集以及流式识别模型的性能评价标准;(4)讨论了端到端流式语音识别模型的未来发展与展望。
展开更多
关键词
人机交互
语音识别
端到端
流式
延迟
在线阅读
下载PDF
职称材料
声音事件检测综述
被引量:
3
3
作者
杨烁祯
张珑
+1 位作者
王建华
张恒远
《广西师范大学学报(自然科学版)》
CAS
北大核心
2023年第2期1-18,共18页
声音事件检测技术能够识别出一个音频段中存在的事件类别并标注出各事件的起止时间,在智能城市、医疗监控、野生动物保护等应用场景有巨大潜力,是机器听觉领域的一个重要研究课题。本文从监督学习和半监督学习2个方面对声音事件检测方...
声音事件检测技术能够识别出一个音频段中存在的事件类别并标注出各事件的起止时间,在智能城市、医疗监控、野生动物保护等应用场景有巨大潜力,是机器听觉领域的一个重要研究课题。本文从监督学习和半监督学习2个方面对声音事件检测方法进行综述,汇总和分析现有研究中使用的特征、检测模型及其性能。对于监督学习,重点介绍机器学习方法和深度学习方法。对于半监督学习,总结基于均值教师、协同训练、多尺度卷积和注意力机制等4种有效方法。最后,介绍常用数据集和评价指标,并讨论未来可能的研究方向,包括声音分离预处理、合成数据和真实数据域适应、自注意力模型优化、特征选择和融合、流式系统建模等问题。
展开更多
关键词
声音事件检测
机器学习
深度学习
神经网络
监督学习
半监督学习
在线阅读
下载PDF
职称材料
题名
基于深度学习的多声音事件检测研究综述
1
作者
张珑
张恒远
魏育华
杨烁祯
机构
天津师范大学
计算机
与
信息
工程
学院
广州华立科技职业学院计算机信息工程学院
出处
《天津师范大学学报(自然科学版)》
CAS
北大核心
2024年第6期1-12,共12页
基金
国家自然科学基金面上资助项目(61771173)
天津市自然科学基金重点资助项目(20JCZDJC00400)
天津市研究生科研创新资助项目(2022SKYZ279).
文摘
多声音事件检测是当前语音处理的研究热点之一,本文对近年来基于深度学习的多声音事件检测模型进行综述.首先介绍了4种监督学习模型和13种弱监督学习模型,弱监督学习模型包括基于平均教师的模型、基于注意力的模型、基于源分离的模型、基于自训练的模型以及其他模型,分析了各模型的特征、结构和性能;然后对各种模型使用的数据集及评价指标进行简要介绍;最后讨论了该领域未来的研究方向.
关键词
深度学习
多声音事件检测
弱监督学习
半监督学习
Keywords
deep learning
polyphonic sound event detection
weakly supervised learning
semi-supervised learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
端到端流式语音识别研究综述
被引量:
14
2
作者
王澳回
张珑
宋文宇
孟杰
机构
天津师范大学
计算机
与
信息
工程
学院
广州华立科技职业学院计算机信息工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2023年第2期22-33,共12页
基金
国家自然科学基金面上项目(61771173)
天津市自然科学基金重点项目(20JCZDJC00400)。
文摘
语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的处理时间。目前在学术研究领域,端到端语音识别已经取得了丰硕的研究成果,而流式语音识别在学术研究以及工业应用中还存在着一些挑战与困难,因此,最近两年,端到端流式语音识别逐渐成为语音领域的一个研究热点与重点。从端到端流式识别模型与性能优化等方面对近些年所展开的研究进行全面的调查与分析,具体包括以下内容:(1)详细分析和归纳了端到端流式语音识别的各种方法与模型,包括直接实现流式识别的CTC与RNN-T模型,以及对注意力机制进行改进以实现流式识别的单调注意力机制等方法;(2)介绍了端到端流式语音识别模型提高识别准确率与减少延迟的方法,在提高准确率方面,主要有最小词错率训练、知识蒸馏等方法,在降低延迟方面,主要有对齐、正则化等方法;(3)介绍了流式语音识别一些常用的中英文开源数据集以及流式识别模型的性能评价标准;(4)讨论了端到端流式语音识别模型的未来发展与展望。
关键词
人机交互
语音识别
端到端
流式
延迟
Keywords
human-computer interaction
speech recognition
end to end
streaming
delay
分类号
TN912.34 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
声音事件检测综述
被引量:
3
3
作者
杨烁祯
张珑
王建华
张恒远
机构
天津师范大学
计算机
与
信息
工程
学院
广州华立科技职业学院计算机信息工程学院
出处
《广西师范大学学报(自然科学版)》
CAS
北大核心
2023年第2期1-18,共18页
基金
国家自然科学基金(61771173)
天津市自然科学基金(20JCZDJC00400)。
文摘
声音事件检测技术能够识别出一个音频段中存在的事件类别并标注出各事件的起止时间,在智能城市、医疗监控、野生动物保护等应用场景有巨大潜力,是机器听觉领域的一个重要研究课题。本文从监督学习和半监督学习2个方面对声音事件检测方法进行综述,汇总和分析现有研究中使用的特征、检测模型及其性能。对于监督学习,重点介绍机器学习方法和深度学习方法。对于半监督学习,总结基于均值教师、协同训练、多尺度卷积和注意力机制等4种有效方法。最后,介绍常用数据集和评价指标,并讨论未来可能的研究方向,包括声音分离预处理、合成数据和真实数据域适应、自注意力模型优化、特征选择和融合、流式系统建模等问题。
关键词
声音事件检测
机器学习
深度学习
神经网络
监督学习
半监督学习
Keywords
sound event detection
machine learning
deep learning
neural networks
supervised learning
semi-supervised learning
分类号
TN912.3 [电子电信—通信与信息系统]
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于深度学习的多声音事件检测研究综述
张珑
张恒远
魏育华
杨烁祯
《天津师范大学学报(自然科学版)》
CAS
北大核心
2024
0
在线阅读
下载PDF
职称材料
2
端到端流式语音识别研究综述
王澳回
张珑
宋文宇
孟杰
《计算机工程与应用》
CSCD
北大核心
2023
14
在线阅读
下载PDF
职称材料
3
声音事件检测综述
杨烁祯
张珑
王建华
张恒远
《广西师范大学学报(自然科学版)》
CAS
北大核心
2023
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部