期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于生成式算法的序列到序列目标说话人检测和日志系统
被引量:
1
1
作者
陈正阳
钱彦旻
《信号处理》
北大核心
2025年第9期1570-1580,共11页
通常来说,神经网络说话人日志系统都是通过判别式算法来实现,也就是说给定固定的输入会得到固定的输出。这种方法可能会存在一定的问题,因为说话人日志的标签往往是区域标注,这种标注的说话人区域边界往往存在一定的误差,这些误差也可...
通常来说,神经网络说话人日志系统都是通过判别式算法来实现,也就是说给定固定的输入会得到固定的输出。这种方法可能会存在一定的问题,因为说话人日志的标签往往是区域标注,这种标注的说话人区域边界往往存在一定的误差,这些误差也可能会影响判别式算法的训练。最近,生成式算法吸引了很多研究人员的关注,生成式算法的推理过程往往是一个迭代的过程,可以得到更精细的结果。同时,生成式算法对分布建模的本质也会使其受到说话人标签误差的影响比较小。基于神经网络的说话人日志系统大体可分为两类,端到端说话人日志系统和目标说话人活动检测系统。在这篇文章中,我们尝试将生成式算法用到序列到序列的目标说话人检测系统中。在这种目标说话人活动检测系统的实现基础上,实现了两种生成式算法来预测结果的分布,分别是扩散算法(Diffusion)和流匹配算法(Flow-Matching)。在实验中,我们发现在语音活动的二值标签空间上实现生成式算法效果不佳。为此,提出了一个标签自编码器将二值标签序列压缩到一个更加低维且连续的隐空间。在这个隐空间上,我们提出的基于流匹配的算法超过了基线系统。此外,由于生成式算法预测的是结果的分布,因此多次采样生成式算法的结果并不相同。我们发现将流匹配算法多次采样的结果做结果融合还能进一步提升系统,最终系统相比于基线系统取得了大约12%的相对提升。
展开更多
关键词
目标说话人检测
说话人日志
生成式
算法
扩散
算法
流匹配算法
在线阅读
下载PDF
职称材料
题名
基于生成式算法的序列到序列目标说话人检测和日志系统
被引量:
1
1
作者
陈正阳
钱彦旻
机构
上海交通大学计算机学院
出处
《信号处理》
北大核心
2025年第9期1570-1580,共11页
基金
科技创新2030-国家重大项目(2021ZD0201500)
国家自然科学基金(62122050,62071288)。
文摘
通常来说,神经网络说话人日志系统都是通过判别式算法来实现,也就是说给定固定的输入会得到固定的输出。这种方法可能会存在一定的问题,因为说话人日志的标签往往是区域标注,这种标注的说话人区域边界往往存在一定的误差,这些误差也可能会影响判别式算法的训练。最近,生成式算法吸引了很多研究人员的关注,生成式算法的推理过程往往是一个迭代的过程,可以得到更精细的结果。同时,生成式算法对分布建模的本质也会使其受到说话人标签误差的影响比较小。基于神经网络的说话人日志系统大体可分为两类,端到端说话人日志系统和目标说话人活动检测系统。在这篇文章中,我们尝试将生成式算法用到序列到序列的目标说话人检测系统中。在这种目标说话人活动检测系统的实现基础上,实现了两种生成式算法来预测结果的分布,分别是扩散算法(Diffusion)和流匹配算法(Flow-Matching)。在实验中,我们发现在语音活动的二值标签空间上实现生成式算法效果不佳。为此,提出了一个标签自编码器将二值标签序列压缩到一个更加低维且连续的隐空间。在这个隐空间上,我们提出的基于流匹配的算法超过了基线系统。此外,由于生成式算法预测的是结果的分布,因此多次采样生成式算法的结果并不相同。我们发现将流匹配算法多次采样的结果做结果融合还能进一步提升系统,最终系统相比于基线系统取得了大约12%的相对提升。
关键词
目标说话人检测
说话人日志
生成式
算法
扩散
算法
流匹配算法
Keywords
target speaker voice activity detection
speaker diarization
generative method
diffusion algorithm
flow-matching algorithm
分类号
TN912.3 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于生成式算法的序列到序列目标说话人检测和日志系统
陈正阳
钱彦旻
《信号处理》
北大核心
2025
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部