-
题名基于多码本矢量量化的非限定文本的联机话者辨认方法
被引量:1
- 1
-
-
作者
马继涌
高文
姚鸿勋
-
机构
哈尔滨工业大学计算机科学系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
1999年第6期712-716,共5页
-
基金
国家"八六三"计划
国家自然科学基金
-
文摘
传统的利用话者的一个时期的语音作为训练语音,进行话者码本训练的方法,识别系统往往不够稳定.为了适应话者自身语音的时变性,文中提出了利用话者不同时期的语音进行训练话者的模型,每个话者具有多个码本.这些码本是采用逐渐减小误识率的优化过程得到的.为了补偿不同信道对系统识别性能的影响,文中给出了一种信道补偿方法.同时提出以一帧高能的浊音语音特征代替一个浊音音素的特征,实现了在线浊音特征提取,利用两级矢量量化及码本索引策略减少了44%的识别计算量.这些方法大大增加了系统的识别速度和鲁棒性.文中比较了用PLP分析和LPC倒谱分析进行话者辨认的识别结果.
-
关键词
联机话者辨认
多码本矢量量化
语音识别
-
Keywords
on line text independent speaker identification, multiple codebooks quantization, transmission compensation
-
分类号
TN912.34
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名内外特征交互与融合的双流注意力图像修复方法
- 2
-
-
作者
黄光远
黄荣
周树波
蒋学芹
-
机构
东华大学信息科学与技术学院
东华大学数字化纺织服装技术教育部工程研究中心
-
出处
《电子学报》
北大核心
2025年第4期1293-1307,共15页
-
基金
国家自然科学基金(No.62001099)
中央高校基本科研业务费专项资金(No.2232023D-30)。
-
文摘
注意力机制及其变体已广泛应用于基于深度学习的图像修复领域,它们将破损图像内部分为完好区域和缺失区域,捕获完好区域的远距离上下文信息以填充缺失区域.随着缺失区域增大,完好区域特征减少,限制了注意力机制的性能,从而导致修复效果不佳.为拓展注意力机制捕获上下文的范围,本文通过矢量量化码本学习视觉原子.这些视觉原子刻画了图像块的结构、纹理等特征,组成用于图像修复的外部特征,以弥补图像内部完好区域特征的不足.在此基础上,本文提出一种内外特征交互与融合的双流注意力图像修复方法.该方法结合内部和外部两个信息源,设计了内部掩码注意力和内外交叉注意力,组成双流注意力以实现内部特征之间以及内部和外部特征之间的交互,生成内外源修复特征.内部掩码注意力通过掩码屏蔽缺失区域特征的干扰,仅在完好区域捕获上下文信息,生成内源修复特征.内外交叉注意力通过计算内部特征与由视觉原子组成的外部特征之间的相似度关系,实现内外特征之间的交互,生成外源修复特征.此外,本文设计了可控特征融合模块,利用内外源修复特征之间的相关性生成空间权重图,为每个空间位置精确地筛选内外源修复特征,从而实现内部与外部特征的融合.在Places2、FFHQ和Paris StreetView三个公开的数据集上的实验结果表明本文方法在PSNR、SSIM、L1、LPIPS和FID指标上比其他先进方法平均提高了3.45%、1.34%、13.91%、13.64%和16.92%.消融实验结果和可视化实验结果表明图像内部特征与由视觉原子组成的外部特征均有益于修复破损图像.
-
关键词
图像修复
矢量量化码本
视觉原子
掩码注意力
交叉注意力
特征融合
-
Keywords
image inpainting
vector-quantized codebook
visual atoms
masked attention
cross attention
feature fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-