期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
基于链接时序分类的日语语音识别 被引量:3
1
作者 孙健 郭武 《小型微型计算机系统》 CSCD 北大核心 2018年第10期2129-2133,共5页
目前,端到端的语音识别系统因其简洁性和高效性成为大规模连续语音识别的发展趋势.本文将基于链接时序分类的端到端技术应用到日语语音识别上,考虑到日语中平假名、片假名和日语汉字多种书写形式的特性,通过在日语数据集上的实验,探讨... 目前,端到端的语音识别系统因其简洁性和高效性成为大规模连续语音识别的发展趋势.本文将基于链接时序分类的端到端技术应用到日语语音识别上,考虑到日语中平假名、片假名和日语汉字多种书写形式的特性,通过在日语数据集上的实验,探讨了不同建模单元对识别性能的影响;进一步将音素信息应用到模型的初始网络训练中,改善语音识别系统性能,最终效果优于基于隐马尔可夫模型和双向长短时记忆网络的主流语音识别系统. 展开更多
关键词 语音识别 日语 链接时序分类 端到端
在线阅读 下载PDF
采用通用语音属性建模的说话人确认 被引量:2
2
作者 张圣 郭武 《小型微型计算机系统》 CSCD 北大核心 2016年第11期2577-2581,共5页
本文提出采用通用语音属性的方法来进行自动语音识别的声学模型建模,并将其应用到说话人识别的全变量空间建模中.首先将发音方式和发音位置两种属性联合构成通用语音属性的基本单元用于声学建模,在此基础上采用深度学习算法建立语音识... 本文提出采用通用语音属性的方法来进行自动语音识别的声学模型建模,并将其应用到说话人识别的全变量空间建模中.首先将发音方式和发音位置两种属性联合构成通用语音属性的基本单元用于声学建模,在此基础上采用深度学习算法建立语音识别的声学模型;用此声学模型来获得说话人识别的每帧声学特征对应的后验概率,将这个后验概率作为全变量空间分析的零阶统计量,在此基础上完成说话人识别中的i-vector建模及识别.在NIST 2012的说话人识别评测任务中,提出的算法能够取得与主流算法相当的识别水平.进一步,当我们把基于通用语音属性的DNN/i-vector系统与目前主流的系统进行得分域的融合,相对于最好的单系统,男声等错误率平均下降了12.1%,女声等错误率平均下降了14.4%. 展开更多
关键词 说话人确认 深度神经网络 通用语音属性
在线阅读 下载PDF
基于时域波形的半监督端到端虚假语音检测方法 被引量:3
3
作者 方昕 黄泽鑫 +6 位作者 张聿晗 高天 潘嘉 付中华 高建清 刘俊华 邹亮 《计算机应用》 CSCD 北大核心 2023年第1期227-231,共5页
现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(D... 现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(DP-Res2Net),提出一种基于时域波形的半监督端到端虚假语音检测方法。首先,为了解决训练数据集和测试数据集两者数据分布差异较大的问题,采用半监督学习进行领域迁移;然后,对于特征工程,直接将时域采样点输入DP-Res2Net中,增加局部的多尺度信息,并充分利用音频片段之间的依赖性;最后,输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量,用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能,实验结果表明它的等错误率(EER)为19.97%,与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的,且具有更高的泛化能力。 展开更多
关键词 虚假语音检测 语音合成 音色转换 说话人识别 时域 半监督学习
在线阅读 下载PDF
融合潜在主题信息和卷积语义特征的文本主题分类 被引量:9
4
作者 陈培新 郭武 《信号处理》 CSCD 北大核心 2017年第8期1090-1096,共7页
经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流,卷积神经网络(Convol... 经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流,卷积神经网络(Convolutional Neural Network,CNN)已成为目前一种主流的文本分类模型。本文通过CNN和概率主题模型PLSA(Probabilistic Latent Semantic Analysis)、LDA(Latent Dirichlet Allocation)在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了让文本特征向量更好地刻画文本的主题信息,本文将卷积语义特征和文本的潜在主题向量分别归一化以消除两者量级上的差异,然后将两者融合,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征向量能显著地提升文本主题分类任务的F1值。 展开更多
关键词 概率主题模型 词向量 卷积神经网络 文本分类
在线阅读 下载PDF
渐进学习语音增强方法在语音识别中的应用 被引量:5
5
作者 文仕学 孙磊 杜俊 《小型微型计算机系统》 CSCD 北大核心 2018年第1期1-6,共6页
在语音识别实际应用中,带噪语音信噪比的复杂性会造成识别难度增大,导致语音识别系统性能下降.本文将渐进学习语音增强方法应用于语音识别,以取代传统语音识别中使用的基于深层神经网络的语音增强方法.本文使用渐进学习语音增强方法在... 在语音识别实际应用中,带噪语音信噪比的复杂性会造成识别难度增大,导致语音识别系统性能下降.本文将渐进学习语音增强方法应用于语音识别,以取代传统语音识别中使用的基于深层神经网络的语音增强方法.本文使用渐进学习语音增强方法在识别模型前端进行降噪预处理,然后再作识别,以更好地提升语音信噪比,进而提高系统性能.首先使用渐进学习方法训练一个深层神经网络.然后,将语音经过这个渐进学习深层神经网络作增强.最后,将渐进学习深层神经网络增强后的语音经过语音识别模型作识别.通过实验验证,本文使用的渐进学习语音增强及识别方法,相对于传统语音增强及识别方法,在识别准确率上有10.28%的相对提升. 展开更多
关键词 语音增强 语音识别 深层神经网络 渐进学习
在线阅读 下载PDF
基于声道长度对齐的年龄语音转换 被引量:2
6
作者 李金中 李贤 汪增福 《中国科学技术大学学报》 CAS CSCD 北大核心 2015年第7期575-581,共7页
提出一种基于声道长度对齐的年龄语音转换方法.该方法包含频谱转换和基频转换两个方面,前者在频域依据声道因子和弯折函数对已进行基音标注过的每一帧语音的频谱进行弯折转换;后者对基频特征的转换采用线性变换方法.实验结果表明,通过... 提出一种基于声道长度对齐的年龄语音转换方法.该方法包含频谱转换和基频转换两个方面,前者在频域依据声道因子和弯折函数对已进行基音标注过的每一帧语音的频谱进行弯折转换;后者对基频特征的转换采用线性变换方法.实验结果表明,通过对同一人不同年龄段的语音进行转换合成,由年龄较大语音向年龄较小语音转换时,转换合成得到的语音频谱平均距离得到明显减小,转换效果较好,而从年龄较小语音向年龄较大语音转换时,频谱平均距离减少较小,同时女性年龄语音转换的效果和自然度都好于男性. 展开更多
关键词 年龄语音转换 声道长度对齐 基音标注 声道因子 弯折函数 线性变换
在线阅读 下载PDF
自由表述口语语音评测后验概率估计改进方法 被引量:5
7
作者 许苏魁 戴礼荣 +2 位作者 魏思 刘庆峰 高前勇 《中文信息学报》 CSCD 北大核心 2017年第2期212-219,共8页
该文研究了两种用于改善深度神经网络声学建模框架下自由表述口语语音评测任务后验概率估计的方法:1)使用RNN语言模型对一遍解码N-best候选做语言模型得分重估计来获得更准确的识别结果以重新估计后验概率;2)借鉴多语种神经网络训练框架... 该文研究了两种用于改善深度神经网络声学建模框架下自由表述口语语音评测任务后验概率估计的方法:1)使用RNN语言模型对一遍解码N-best候选做语言模型得分重估计来获得更准确的识别结果以重新估计后验概率;2)借鉴多语种神经网络训练框架,提出将方言数据聚类状态加入解码神经网络输出节点,在后验概率估计中引入方言似然度得分以评估方言程度的新方法。实验表明,这两种方法估计出的后验概率与人工分相关度分别绝对提升了3.5%和1.0%,两种方法融合后相关度绝对提升4.9%;对于一个真实的评测任务,结合该文改进的后验概率评分特征,总体评分相关度绝对提升2.2%。 展开更多
关键词 自由表述口语 语音评测 后验概率 深度神经网络 RNN语言模型
在线阅读 下载PDF
端到端维吾尔语语音识别研究 被引量:2
8
作者 丁枫林 郭武 孙健 《小型微型计算机系统》 CSCD 北大核心 2020年第1期19-23,共5页
近几年来,基于端到端模型的语音识别系统因其相较于传统混合模型的结构简洁性和易于训练性而得到广泛的应用,并在汉语和英语等大语种上取得了显著的效果.本文将自注意力机制和链接时序分类损失代价函数相结合,将这种端到端模型应用到维... 近几年来,基于端到端模型的语音识别系统因其相较于传统混合模型的结构简洁性和易于训练性而得到广泛的应用,并在汉语和英语等大语种上取得了显著的效果.本文将自注意力机制和链接时序分类损失代价函数相结合,将这种端到端模型应用到维吾尔语语音识别上.考虑到维吾尔语属于典型的黏着语,其丰富的构词形式使得维吾尔语的词汇量异常庞大,本文引入字节对编码算法进行建模单元的生成,从而获得合适的端到端建模输出单元.在King-ASR450维吾尔语数据集上,提出的算法明显优于基于隐马尔可夫模型的经典混合系统和基于双向长短时记忆网络的端到端模型,最终识别词准确率为91.35%. 展开更多
关键词 语音识别 维吾尔语 端到端 自注意力 字节对编码 链接时序分类
在线阅读 下载PDF
深度神经网络在维吾尔语大词汇量连续语音识别中的应用 被引量:12
9
作者 麦麦提艾力.吐尔逊 戴礼荣 《数据采集与处理》 CSCD 北大核心 2015年第2期365-371,共7页
研究将深度神经网络有效地应用到维吾尔语大词汇量连续语音识别声学建模中的两种方法:深度神经网络与隐马尔可夫模型组成混合架构模型(Deep neural network hidden Markov model,DNNHMM),代替高斯混合模型进行状态输出概率的计算;深度... 研究将深度神经网络有效地应用到维吾尔语大词汇量连续语音识别声学建模中的两种方法:深度神经网络与隐马尔可夫模型组成混合架构模型(Deep neural network hidden Markov model,DNNHMM),代替高斯混合模型进行状态输出概率的计算;深度神经网络作为前端的声学特征提取器提取瓶颈特征(Bottleneck features,BN),为传统的GMM-HMM(Gaussian mixture model-HMM)声学建模架构提供更有效的声学特征(BN-GMM-HMM)。实验结果表明,DNN-HMM模型和BN-GMM-HMM模型比GMM-HMM基线模型词错误率分别降低了8.84%和5.86%,两种方法都取得了较大的性能提升。 展开更多
关键词 深度神经网络 维吾尔语 GMM-HMM 瓶颈特征
在线阅读 下载PDF
结合CNN不同层信息的全变量建模人脸特征表达学习方法 被引量:2
10
作者 洪新海 宋彦 《信号处理》 CSCD 北大核心 2017年第8期1073-1081,共9页
如何学习有效的人脸特征表达是人脸识别的关键性问题。现有基于卷积神经网络(Convolutional Neural Networks,CNN)的人脸深度特征表达学习方法大多在人脸图像经过了有效检测和校正的情况下,能够获得优异的性能,而在复杂场景下其推广性... 如何学习有效的人脸特征表达是人脸识别的关键性问题。现有基于卷积神经网络(Convolutional Neural Networks,CNN)的人脸深度特征表达学习方法大多在人脸图像经过了有效检测和校正的情况下,能够获得优异的性能,而在复杂场景下其推广性和鲁棒性受到极大限制。对此,本文提出了结合CNN不同层信息的全变量建模人脸特征表达学习方法,将提取的人脸局部深度特征中所包含的差异信息按照子空间进行建模,有效聚合局部深度特征的同时得到人脸在低维子空间的特征表达(i Vector)。在IJB-A(IARPA Janus Benchmark A)上的实验结果表明,与现有的深度特征表达相比,该方法学习得到的人脸iVector表达能够显著提升人脸识别系统的识别性能和计算效率。 展开更多
关键词 卷积神经网络 全变量建模 人脸识别 人脸特征表达
在线阅读 下载PDF
融合声学特征和深度特征的语音文档分类 被引量:1
11
作者 刘谭 郭武 《数据采集与处理》 CSCD 北大核心 2021年第5期932-938,共7页
传统的语音文档分类系统通常是基于语音识别系统所转录的文本实现的,识别错误会严重影响到这类系统的性能。尽管将语音和识别文本融合可以一定程度上减轻识别错误的影响,但大多数融合都是在表示向量层面融合,没有充分利用语音声学和语... 传统的语音文档分类系统通常是基于语音识别系统所转录的文本实现的,识别错误会严重影响到这类系统的性能。尽管将语音和识别文本融合可以一定程度上减轻识别错误的影响,但大多数融合都是在表示向量层面融合,没有充分利用语音声学和语义信息之间的互补性。本文提出融合声学特征和深度特征的神经网络语音文档分类,在神经网络训练中,首先采用训练好的声学模型为每个语音文档提取包含语义信息的深度特征,然后将语音文档的声学特征和深度特征通过门控机制逐帧进行融合,融合后的特征用于语音文档分类。在语音新闻播报语料集上进行实验,本文提出的系统明显优于基于语音和文本融合的语音文档分类系统,最终的分类准确率达到97.27%。 展开更多
关键词 神经网络 语音文档分类 语音识别 深度特征 门控机制
在线阅读 下载PDF
融合自动检错的单元挑选语音合成方法
12
作者 孙晓辉 凌震华 戴礼荣 《数据采集与处理》 CSCD 北大核心 2016年第2期385-392,共8页
提出了一种融合自动检错的单元挑选语音合成方法。本文方法旨在设计与主观听感更加一致的单元挑选准则,以提高合成语音的自然度。首先利用众包网络平台快速大量地收集测听人对于合成语音的主观评价数据,取代了传统的利用具备语言学知识... 提出了一种融合自动检错的单元挑选语音合成方法。本文方法旨在设计与主观听感更加一致的单元挑选准则,以提高合成语音的自然度。首先利用众包网络平台快速大量地收集测听人对于合成语音的主观评价数据,取代了传统的利用具备语言学知识的专家收集主观评价数据的方法;然后基于这些主观评价数据,提取对应语音的音节时长、单元代价以及声学参数距离等特征,构建基于支持向量机的合成错误检测器;在合成阶段,该检测器被用来对传统单元挑选输出的N条路径行重打分,以确定最优的单元挑选序列。倾向性测听结果表明本文方法可以有效地提高合成语音的自然度。 展开更多
关键词 语音合成 单元挑选 支持向量机 众包 合成错误检测
在线阅读 下载PDF
不平衡训练数据下的基于深度学习的文本分类 被引量:23
13
作者 陈志 郭武 《小型微型计算机系统》 CSCD 北大核心 2020年第1期1-5,共5页
近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流.但是当不同类别的训练数据不均衡时,训练得到的神经网络模型会由多数类所主导,分类结果往往倾向多数类,极大彩响了分类... 近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流.但是当不同类别的训练数据不均衡时,训练得到的神经网络模型会由多数类所主导,分类结果往往倾向多数类,极大彩响了分类效果.针对这种情况,本文在卷积神经网络训练过程中,损失函数引入类别标签权重,强化少数类对模型参数的影响.在复旦大学文本分类数据集上进行测试,实验表明本文提出的方法相比于基线系统宏平均F1值提高了4.49%,较好地解决数据不平衡分类问题. 展开更多
关键词 不平衡数据集 词向量 卷积神经网络 文本分类
在线阅读 下载PDF
一种同步人脸运动跟踪与表情识别算法 被引量:6
14
作者 於俊 汪增福 李睿 《电子学报》 EI CAS CSCD 北大核心 2015年第2期371-376,共6页
针对单视频动态变化背景下的人脸表情识别问题,提出了一种同步人脸运动跟踪和表情识别算法,并在此基础上构建了一个实时系统.该系统达到了如下目标:首先在粒子滤波框架下结合在线外观模型和柱状几何模型进行人脸三维运动跟踪;接着基于... 针对单视频动态变化背景下的人脸表情识别问题,提出了一种同步人脸运动跟踪和表情识别算法,并在此基础上构建了一个实时系统.该系统达到了如下目标:首先在粒子滤波框架下结合在线外观模型和柱状几何模型进行人脸三维运动跟踪;接着基于生理知识来提取人脸表情的静态信息;然后基于流形学习来提取人脸表情的动态信息;最后在人脸运动跟踪过程中,结合人脸表情静态信息和动态信息来进行表情识别.实验结果表明,该系统在大姿态和丰富表情下具有较好的综合优势. 展开更多
关键词 人脸运动跟踪 人脸表情识别 流形学习 粒子滤波
在线阅读 下载PDF
采用深度神经网络的说话人特征提取方法 被引量:8
15
作者 张涛涛 陈丽萍 +1 位作者 蒋兵 戴礼荣 《小型微型计算机系统》 CSCD 北大核心 2017年第1期142-146,共5页
在说话人确认中,通常采用的声学特征(如MFCC,PLP特征等)包含的主要是文本信息和信道信息,说话人信息属于其中的弱信息,极易受到语音信号中的文本信息及信道、噪声等干扰的影响.针对这个问题,提出一种基于深度神经网络提取语音信号中说... 在说话人确认中,通常采用的声学特征(如MFCC,PLP特征等)包含的主要是文本信息和信道信息,说话人信息属于其中的弱信息,极易受到语音信号中的文本信息及信道、噪声等干扰的影响.针对这个问题,提出一种基于深度神经网络提取语音信号中说话人特征的方法,该方法用语音识别深度神经网络各个隐层非线性输出值来提取说话人特征.在RSR2015数据库上开展了GMM-UBM文本无关和文本相关说话人确认实验,实验结果表明本文方法提取的特征相对于传统的MFCC特征,系统等错误率(Equal Error Rate,EER)有了明显的下降. 展开更多
关键词 说话人确认 深度神经网络 DN特征
在线阅读 下载PDF
宽线性波束形成技术综述 被引量:4
16
作者 叶中付 徐东阳 +1 位作者 曹圣红 徐旭 《数据采集与处理》 CSCD 北大核心 2014年第3期333-340,共8页
在圆信号的假设条件下,传统的线性波束形成技术仅仅利用了天线阵列观测矢量的协方差矩阵。然而,现代通信领域中的很多人工调制信号具有非圆特性,观测矢量不仅存在协方差矩阵,还存在伪协方差矩阵。宽线性波束形成技术是针对非圆信号环境... 在圆信号的假设条件下,传统的线性波束形成技术仅仅利用了天线阵列观测矢量的协方差矩阵。然而,现代通信领域中的很多人工调制信号具有非圆特性,观测矢量不仅存在协方差矩阵,还存在伪协方差矩阵。宽线性波束形成技术是针对非圆信号环境提出的一类新技术,该类技术通过构造一个包含天线阵列观测矢量及其共轭的扩展观测矢量,建立有利于特定方向信号接收的目标函数及约束,推导出相应的扩展权重矢量。同传统线性波束形成技术相比,宽线性波束形成技术对非圆信号的接收性能有了明显提升。本文介绍了圆信号和非圆信号定义,给出了阵列模型并介绍了最小方差无畸变响应波束形成,对各种宽线性波束形成算法进行了综述,并对宽线性波束形成技术的下一步研究方向进行了展望。 展开更多
关键词 非回信号 波束形成 宽线性波束形成 稳健宽线性波束形成
在线阅读 下载PDF
基于LDOF准则的自适应高斯后端语种识别方法 被引量:3
17
作者 叶中付 戚婷 +1 位作者 李赛峰 宋彦 《通信学报》 EI CSCD 北大核心 2017年第4期17-24,共8页
针对由语种类内多样性引起的测试样本和训练模型不匹配的问题,提出一种基于局部距离离群因子准则(LDOF,local distance-based outlier factor)的自适应高斯后端语种识别方法。定义LDOF准则,实现有效的参数寻优过程并动态地在多类语种训... 针对由语种类内多样性引起的测试样本和训练模型不匹配的问题,提出一种基于局部距离离群因子准则(LDOF,local distance-based outlier factor)的自适应高斯后端语种识别方法。定义LDOF准则,实现有效的参数寻优过程并动态地在多类语种训练集上挑选出与测试样本特性相近的训练样本,调整原高斯后端,进而得到改进的语种识别方法。在NIST LRE 2009的6个易混淆语种任务集上的实验结果表明,所提方法的等错误概率(EER,equal error rate)和平均检测代价有显著提升。 展开更多
关键词 语种识别 类内多样性 自适应高斯后端 LDOF
在线阅读 下载PDF
面向普通用户的3D虚拟人脸动画 被引量:2
18
作者 罗常伟 江辰 +2 位作者 李睿 於俊 汪增福 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2015年第3期492-498,共7页
为合成真实感人脸动画,提出一种实时的基于单摄像头的3D虚拟人脸动画方法.首先根据用户的单张正面人脸图像重建用户的3D人脸模型,并基于该人脸模型合成姿态、光照和表情变化的人脸图像,利用这些图像训练特定用户的局部纹理模型;然后使... 为合成真实感人脸动画,提出一种实时的基于单摄像头的3D虚拟人脸动画方法.首先根据用户的单张正面人脸图像重建用户的3D人脸模型,并基于该人脸模型合成姿态、光照和表情变化的人脸图像,利用这些图像训练特定用户的局部纹理模型;然后使用摄像头拍摄人脸视频,利用特定用户的局部纹理模型跟踪人脸特征点;最后由跟踪结果和3D关键形状估计Blendshape系数,通过Blendshape模型合成的人脸动画.实验结果表明,该方法能实时合成真实感3D人脸动画,且只需要一个普通的摄像头,非常适合普通用户使用. 展开更多
关键词 人脸动画 人脸特征点跟踪 Blendshape模型 表演驱动
在线阅读 下载PDF
基于SIFT特征匹配的实时鲁棒视频去抖动系统 被引量:4
19
作者 於俊 汪增福 《系统工程与电子技术》 EI CSCD 北大核心 2014年第2期390-395,共6页
面向视频去抖动领域,提出了一个实时系统。在有效地利用尺度不变特征转换算法的鲁棒特征提取特性和随机采样一致算法的鲁棒拟合特性的基础上,所提系统可以根据运动参数的变化剧烈程度,自动调整低通滤波器的尺寸来确定抖动参数以实现图... 面向视频去抖动领域,提出了一个实时系统。在有效地利用尺度不变特征转换算法的鲁棒特征提取特性和随机采样一致算法的鲁棒拟合特性的基础上,所提系统可以根据运动参数的变化剧烈程度,自动调整低通滤波器的尺寸来确定抖动参数以实现图像补偿,从而有效地避免了过稳和欠稳现象;所提系统将丰富的视频参考信息与图像纹理合成算法结合起来,有效地提高了输出视频的稳定性和完整性。客观实验结果表明,该系统在峰值信噪比和耗时方面具有较好的综合优势。主观实验结果表明,所提系统在消除抖动视频中让人不舒适感方面具有较好的优越性。 展开更多
关键词 图像匹配 运动估计、决定和补偿 视频修复
在线阅读 下载PDF
基于经验模式分解和多种评价准则的电子稳像 被引量:2
20
作者 於俊 汪增福 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2014年第3期423-429,共7页
针对摄影中易产生视频抖动的问题,提出一个实时鲁棒的视频去抖动系统.该系统具有如下特性:1)提取参考帧和当前帧的Sift特征点,并对它们进行匹配,通过随机采样一致(RANSAC)算法来得到全局运动参数;2)基于经验模式分解以及多种评价准则(... 针对摄影中易产生视频抖动的问题,提出一个实时鲁棒的视频去抖动系统.该系统具有如下特性:1)提取参考帧和当前帧的Sift特征点,并对它们进行匹配,通过随机采样一致(RANSAC)算法来得到全局运动参数;2)基于经验模式分解以及多种评价准则(全局运动参数和特征点对位置误差)来确定抖动参数以实现对当前帧的运动补偿;3)结合图像纹理合成算法来修复运动补偿后的视频帧,从而得到稳定和完整的输出视频.通过比较抖动视频和去抖动后的视频结果表明:该系统能够在保持实时性的同时提高视频的平均信噪比约7.2dB,大大提高人对视频中内容的辨识度和观察舒适感. 展开更多
关键词 图像匹配 运动估计 运动决定 运动补偿 视频修复
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部