-
题名面向说话人日志的多原型驱动图神经网络方法
- 1
-
-
作者
毛青青
贾洪杰
朱必松
-
机构
江苏大学计算机科学与通信工程学院
-
出处
《计算机应用研究》
北大核心
2025年第6期1778-1783,共6页
-
基金
江苏省自然科学基金资助项目(BK20190838)。
-
文摘
最近,图神经网络在会话级建模中的应用,已显示出其在说话人日志任务上的有效性。然而,现有的大多数图神经网络变体仅依赖于局部结构信息,忽略了全局说话人信息的重要性,无法充分弥补说话人日志任务中说话人信息不足的问题。提出了面向说话人日志的多原型驱动图神经网络方法(MPGNN)用于表示学习,该方法在每个会话中有效地结合了局部和全局说话人信息,并同时将x-vector重新映射到一个更适合聚类的新的嵌入空间。此外,多原型学习模块的设计采用了动态自适应的方法,这一关键组件能够捕获更准确的全局说话人信息。实验结果表明,所提出的MPGNN方法显著优于基线系统,能在AMI_SDM和CALLHOME数据集上分别达到3.33%、3.52%、5.66%和6.52%的说话人日志错误率(DER)。
-
关键词
说话人日志
图神经网络
局部结构信息
全局说话人信息
多原型学习
-
Keywords
speaker diarization
graph neural network
local structure information
global speaker information
multiprototype learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-