期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于生成式算法的序列到序列目标说话人检测和日志系统 被引量:1
1
作者 陈正阳 钱彦旻 《信号处理》 北大核心 2025年第9期1570-1580,共11页
通常来说,神经网络说话人日志系统都是通过判别式算法来实现,也就是说给定固定的输入会得到固定的输出。这种方法可能会存在一定的问题,因为说话人日志的标签往往是区域标注,这种标注的说话人区域边界往往存在一定的误差,这些误差也可... 通常来说,神经网络说话人日志系统都是通过判别式算法来实现,也就是说给定固定的输入会得到固定的输出。这种方法可能会存在一定的问题,因为说话人日志的标签往往是区域标注,这种标注的说话人区域边界往往存在一定的误差,这些误差也可能会影响判别式算法的训练。最近,生成式算法吸引了很多研究人员的关注,生成式算法的推理过程往往是一个迭代的过程,可以得到更精细的结果。同时,生成式算法对分布建模的本质也会使其受到说话人标签误差的影响比较小。基于神经网络的说话人日志系统大体可分为两类,端到端说话人日志系统和目标说话人活动检测系统。在这篇文章中,我们尝试将生成式算法用到序列到序列的目标说话人检测系统中。在这种目标说话人活动检测系统的实现基础上,实现了两种生成式算法来预测结果的分布,分别是扩散算法(Diffusion)和流匹配算法(Flow-Matching)。在实验中,我们发现在语音活动的二值标签空间上实现生成式算法效果不佳。为此,提出了一个标签自编码器将二值标签序列压缩到一个更加低维且连续的隐空间。在这个隐空间上,我们提出的基于流匹配的算法超过了基线系统。此外,由于生成式算法预测的是结果的分布,因此多次采样生成式算法的结果并不相同。我们发现将流匹配算法多次采样的结果做结果融合还能进一步提升系统,最终系统相比于基线系统取得了大约12%的相对提升。 展开更多
关键词 目标说话人检测 说话人日志 生成式算法 扩散算法 流匹配算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部