-
题名孤独症访谈场景下融入角色信息的说话人日志方法
- 1
-
-
作者
王康月
程铭
谢奕香
邹小兵
李明
-
机构
武汉大学计算机学院
昆山杜克大学大数据研究中心
中山大学附属第三医院儿童行为发育中心
-
出处
《计算机科学》
北大核心
2025年第2期231-241,共11页
-
基金
国家自然科学基金面上项目(62171207)
广州市重点研发计划(202007030011)。
-
文摘
说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然存在角色信息,以孤独症辅助诊断为例,典型的情境包括医生、家长和接受诊断的孩子这3种明确定义的角色。但在实际对话中,角色和说话人之间的对应关系可能并非一一对应。例如,在孤独症诊断过程中,每次会话仅涉及一个孩子,而医生或家长的数量却是不确定的。文中认为语音片段中隐含的角色信息与声纹信息可以进行有效的互补,进而降低错误率,故提出一种将角色信息引入序列到序列目标说话人语音活动检测(Seq2Seq-TSVAD)中的方法。在CPEP-3数据集上,说话人日志的错误率(DER)为20.61%,相比Seq2Seq-TSVAD方法降低了9.8%,相比模块化说话人日志方法降低了19.3%,表明孤独症访谈场景下角色信息在提升说话人日志性能方面具有明显的作用。
-
关键词
说话人日志
角色分类
特定说话人语音活动检测
声纹特征提取
孤独症谱系障碍
-
Keywords
Speaker diarization
Role classification
Specific speaker voice activity detection
Voiceprint feature extraction
Autism spectrum disorder
-
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
-