期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于深度学习的多声音事件检测研究综述
1
作者 张珑 张恒远 +1 位作者 魏育华 杨烁祯 《天津师范大学学报(自然科学版)》 CAS 北大核心 2024年第6期1-12,共12页
多声音事件检测是当前语音处理的研究热点之一,本文对近年来基于深度学习的多声音事件检测模型进行综述.首先介绍了4种监督学习模型和13种弱监督学习模型,弱监督学习模型包括基于平均教师的模型、基于注意力的模型、基于源分离的模型、... 多声音事件检测是当前语音处理的研究热点之一,本文对近年来基于深度学习的多声音事件检测模型进行综述.首先介绍了4种监督学习模型和13种弱监督学习模型,弱监督学习模型包括基于平均教师的模型、基于注意力的模型、基于源分离的模型、基于自训练的模型以及其他模型,分析了各模型的特征、结构和性能;然后对各种模型使用的数据集及评价指标进行简要介绍;最后讨论了该领域未来的研究方向. 展开更多
关键词 深度学习 多声音事件检测 弱监督学习 半监督学习
在线阅读 下载PDF
端到端流式语音识别研究综述 被引量:14
2
作者 王澳回 张珑 +1 位作者 宋文宇 孟杰 《计算机工程与应用》 CSCD 北大核心 2023年第2期22-33,共12页
语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的... 语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的处理时间。目前在学术研究领域,端到端语音识别已经取得了丰硕的研究成果,而流式语音识别在学术研究以及工业应用中还存在着一些挑战与困难,因此,最近两年,端到端流式语音识别逐渐成为语音领域的一个研究热点与重点。从端到端流式识别模型与性能优化等方面对近些年所展开的研究进行全面的调查与分析,具体包括以下内容:(1)详细分析和归纳了端到端流式语音识别的各种方法与模型,包括直接实现流式识别的CTC与RNN-T模型,以及对注意力机制进行改进以实现流式识别的单调注意力机制等方法;(2)介绍了端到端流式语音识别模型提高识别准确率与减少延迟的方法,在提高准确率方面,主要有最小词错率训练、知识蒸馏等方法,在降低延迟方面,主要有对齐、正则化等方法;(3)介绍了流式语音识别一些常用的中英文开源数据集以及流式识别模型的性能评价标准;(4)讨论了端到端流式语音识别模型的未来发展与展望。 展开更多
关键词 人机交互 语音识别 端到端 流式 延迟
在线阅读 下载PDF
声音事件检测综述 被引量:3
3
作者 杨烁祯 张珑 +1 位作者 王建华 张恒远 《广西师范大学学报(自然科学版)》 CAS 北大核心 2023年第2期1-18,共18页
声音事件检测技术能够识别出一个音频段中存在的事件类别并标注出各事件的起止时间,在智能城市、医疗监控、野生动物保护等应用场景有巨大潜力,是机器听觉领域的一个重要研究课题。本文从监督学习和半监督学习2个方面对声音事件检测方... 声音事件检测技术能够识别出一个音频段中存在的事件类别并标注出各事件的起止时间,在智能城市、医疗监控、野生动物保护等应用场景有巨大潜力,是机器听觉领域的一个重要研究课题。本文从监督学习和半监督学习2个方面对声音事件检测方法进行综述,汇总和分析现有研究中使用的特征、检测模型及其性能。对于监督学习,重点介绍机器学习方法和深度学习方法。对于半监督学习,总结基于均值教师、协同训练、多尺度卷积和注意力机制等4种有效方法。最后,介绍常用数据集和评价指标,并讨论未来可能的研究方向,包括声音分离预处理、合成数据和真实数据域适应、自注意力模型优化、特征选择和融合、流式系统建模等问题。 展开更多
关键词 声音事件检测 机器学习 深度学习 神经网络 监督学习 半监督学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部