-
题名基于预分割的说话人分割方法
被引量:4
- 1
-
-
作者
郑铁然
李海峰
刘先
韩纪庆
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《通信学报》
EI
CSCD
北大核心
2009年第2期118-122,128,共6页
-
基金
国家重点基础研究发展计划("973"计划)基金资助项目(2007CB311100)~~
-
文摘
对传统的基于贝叶斯信息准则(BIC)的说话人分割方法进行了改进,通过引入预分割环节来降低说话人分割的计算量。理论分析和实验验证表明,基于预分割的说话人分割方法在基本保证分割性能的前提下,运算量得到了有效控制。
-
关键词
说话人分割
贝叶斯信息准则
跳变点检测
预分割
-
Keywords
speaker identification
Bayesian information criterion
speaker change detection
pre-segmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名广播语音的音频分割
被引量:11
- 2
-
-
作者
贾磊
穆向禺
徐波
-
机构
中国科学院自动化所
-
出处
《中文信息学报》
CSCD
北大核心
2002年第1期37-42,共6页
-
基金
国家自然科学基金重点项目 (6 9835 0 0 3)
国家"973"项目 (G19980 30 5 0 4 )
-
文摘
本文的广播电视新闻的分割系统分为三部分 :分割、分类和聚类。分割部分是采用本文提出的基于检测熵变化趋势的分割算法来检测连续语音音频信号的声学特征跳变点 ,从而实现不同性质的音频信号的分割。这种检测方法不同于传统的需要门限的跳变点检测方法 ,它是以检测一定窗长的信号内部的每一个可能的分割点所分割的两段信号的信号熵的变化趋势来检测音频信号声学特征跳变点的 ,可以避免由于门限的选择不当所带来的分割错误。分类部分是采用传统的基于高斯混合模型 (GMM )的高斯分类器进行分类 ,聚类部分采用基于矢量量化 (VQ)的说话人聚类算法进行说话人聚类。应用此系统分割三段 30分钟的新闻 ,成功的实现了连续音频信号的分割 ,去除掉了所有的背景音乐 ,以较高的精度把属于同一个人的说话语音划归为一类 。
-
关键词
广播语音
音频分割
声学特征跳变点检测
BIC准则
熵变化趋势
语音处理
-
Keywords
broadcasting segmentation
speaker change detection
BIC criterion
Entropy change trend
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名基于音频的电视新闻节目的主题检索和聚类
- 3
-
-
作者
王磊
杜利民
王劲林
-
机构
中国科学院声学研究所
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2007年第10期2498-2503,共6页
-
文摘
随着流媒体应用的蓬勃兴起,基于媒体内容的检索和管理逐渐成为当前的学术研究热点。新闻节目作为电视节目的一种常见形式,对其主题进行自动提取检索具有重要的实际意义。该文从电视新闻节目的音频入手,综合应用了播音室语音/非播音室语音分类、说话人转换点检测以及按说话人聚类等多种技术,实现了对电视新闻节目的主题的检索和聚类。实验表明,该文中的方法能够找到新闻节目中96%以上的播音室段落,并对其进行准确归类,显示了这种方法的可行性和潜在价值。
-
关键词
新闻主题检索
音频分类
说话人检测
说话人聚类
贝叶斯信息准则
-
Keywords
News topic retrieval
Studio / non-studio classification
speaker change detection
speaker clustering
Bayesian Information Criterion (BIC)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名新的基于综合特征的新闻事件分割方法
- 4
-
-
作者
刘文萍
蒋小森
-
机构
北京林业大学信息学院数字媒体教研室
北方工业大学计算机系
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第31期233-236,共4页
-
基金
北京市教委面上项目No.KM200710009005~~
-
文摘
提出了一种基于新闻视频中的标题字幕信息和音视频特征对新闻事件进行分割的方法,并实现了一个新闻事件分割、浏览和检索的原型系统。提出的方法综合利用新闻视频中的标题检测、主持人画面检测以及静音片段和语者切换检测技术分割整段新闻中的新闻事件。实验结果表明,该方法较仅利用标题的新闻事件分割方法在分割准确性上有了显著提高。
-
关键词
视频检索
新闻事件分割
文字提取
语者切换检测
静音片段检测
-
Keywords
video retrieval
news events segmentation
caption extraction
speaker change detection
silence gap detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于计算听觉场景分析的说话人转换检测
被引量:1
- 5
-
-
作者
杨登舟
刘加
夏善红
-
机构
中国科学院电子学研究所
中国科学院大学
清华大学电子工程系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第2期316-321,共6页
-
基金
国家自然科学基金"噪声和短语音条件下的说话人识别"(61370034)
-
文摘
在短时语音说话人快速转变的说话人转换检测中,用于训练说话人模型的连续语音较短导致模型不稳健,致使说话人转换检测的性能较差。为此,提出一种新的说话人转换检测方法。借鉴人耳听觉处理机制将语音信号分解为多个子带,可以得到准确的浊、清音边界,实现对零散清、浊音子段的拼接。利用贝叶斯信息准则判决语音子段间的疑似转换点,并运用音高特征做区间验证。实验结果表明,该方法在平均语音子段时长为1.34 s的极短语音条件下,可使说话人转换检测的等错率降至23.2%,F1值达到70%。
-
关键词
说话人转换检测
计算听觉场景分析
伽马通能量倒谱系数
音高
贝叶斯信息准则
-
Keywords
speaker change detection(scd)
Computational Auditory Scene Analysis(CASA)
Gammatone Energy Cepstral Coefficients(GECC)
pitch
Bayesian Information Criterion(BCI)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-