张衡一号卫星在轨6年积累了海量观测数据,检测其中的闪电哨声波事件(Lightning Whistler,LW)对于分析空间物理环境规律具有重要意义.但现有基于时频图像的方法推理速度过慢,完成任务需约40年.为此,研究首次从音频事件检测的角度提出高...张衡一号卫星在轨6年积累了海量观测数据,检测其中的闪电哨声波事件(Lightning Whistler,LW)对于分析空间物理环境规律具有重要意义.但现有基于时频图像的方法推理速度过慢,完成任务需约40年.为此,研究首次从音频事件检测的角度提出高速的闪电哨声波检测模型WhisNet,将检测的时间成本从40年压缩至54天.方法为以4 s滑动窗截取波形,提取梅尔频谱特征,利用轻量级卷积循环神经网络(CRNN)提取音频事件特征,输出层预测LW事件起始时间和持续时长.基于2020年4月1-10日的感应磁力仪(SCM)数据实验显示,WhisNet检测性能与传统方法相当,但计算量和参数量减少99%,速度提升98%.进一步在2020年5月SCM数据上的应用结果与WGLC(全球闪电气候学和时间序列,WWLLN Global Lightning Climatology and time series)全球闪电密度趋势高度一致,验证了WhisNet在大规模卫星数据处理中的准确性与适用性.研究结果为挖掘其他海量地球空间事件提供了重要参考.展开更多
为了解决人们在强噪声环境下,通过空气途径传递的语音信号会严重失真的问题,提出了一种基于深层双向长短期记忆-深度卷积神经网络(Deep Bidirectional Long and Short Term Memory-Deep Convolutional Neural Network,DBLSTM-DCNN)的骨...为了解决人们在强噪声环境下,通过空气途径传递的语音信号会严重失真的问题,提出了一种基于深层双向长短期记忆-深度卷积神经网络(Deep Bidirectional Long and Short Term Memory-Deep Convolutional Neural Network,DBLSTM-DCNN)的骨导语音转气导语音的语音转换模型。该模型利用DBLSTM层收集和保存相邻连续帧的隐藏信息,再通过DCNN层来提取频域方面的特征信息,可以很好地解决由于骨导语音高频成份严重缺失导致的转换语音不够自然的问题。实验结果表明,该模型的语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)、对数谱距离(Log-spectral Distance,LSD)等客观评价指标均有良好的表现,证明了该模型在骨导语音转气导语音方面具有较好的转换效果。展开更多
文摘张衡一号卫星在轨6年积累了海量观测数据,检测其中的闪电哨声波事件(Lightning Whistler,LW)对于分析空间物理环境规律具有重要意义.但现有基于时频图像的方法推理速度过慢,完成任务需约40年.为此,研究首次从音频事件检测的角度提出高速的闪电哨声波检测模型WhisNet,将检测的时间成本从40年压缩至54天.方法为以4 s滑动窗截取波形,提取梅尔频谱特征,利用轻量级卷积循环神经网络(CRNN)提取音频事件特征,输出层预测LW事件起始时间和持续时长.基于2020年4月1-10日的感应磁力仪(SCM)数据实验显示,WhisNet检测性能与传统方法相当,但计算量和参数量减少99%,速度提升98%.进一步在2020年5月SCM数据上的应用结果与WGLC(全球闪电气候学和时间序列,WWLLN Global Lightning Climatology and time series)全球闪电密度趋势高度一致,验证了WhisNet在大规模卫星数据处理中的准确性与适用性.研究结果为挖掘其他海量地球空间事件提供了重要参考.
文摘为了解决人们在强噪声环境下,通过空气途径传递的语音信号会严重失真的问题,提出了一种基于深层双向长短期记忆-深度卷积神经网络(Deep Bidirectional Long and Short Term Memory-Deep Convolutional Neural Network,DBLSTM-DCNN)的骨导语音转气导语音的语音转换模型。该模型利用DBLSTM层收集和保存相邻连续帧的隐藏信息,再通过DCNN层来提取频域方面的特征信息,可以很好地解决由于骨导语音高频成份严重缺失导致的转换语音不够自然的问题。实验结果表明,该模型的语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)、对数谱距离(Log-spectral Distance,LSD)等客观评价指标均有良好的表现,证明了该模型在骨导语音转气导语音方面具有较好的转换效果。