期刊文献+
共找到66篇文章
< 1 2 4 >
每页显示 20 50 100
融合注意力机制的ResNeXt语音欺骗检测模型 被引量:1
1
作者 张旺 杨乘 罗娅娅 《计算机应用与软件》 北大核心 2024年第8期298-302,共5页
针对残差神经网络在语音欺骗检测中存在超参数过多且对于高频特征显著性突出不够的问题,提出一种融合注意力机制的ResNeXt-Attention网络(RA-Net)。RA-Net采用残差结合分组卷积的方式,用一组小卷积核代替大卷积核,且采用MFM(Max Feature... 针对残差神经网络在语音欺骗检测中存在超参数过多且对于高频特征显著性突出不够的问题,提出一种融合注意力机制的ResNeXt-Attention网络(RA-Net)。RA-Net采用残差结合分组卷积的方式,用一组小卷积核代替大卷积核,且采用MFM(Max Feature Map)作为新的拼接方法。加入的注意力机制通过学习原始特征的信息,减少了对边缘信息的关注。在ASVspoof2019数据集上实验表明,RA-Net相比基准线高斯混合模型(GMM)的等错误率(EER)降低了4.72百分点和6.23百分点,与残差网络(Residal Neural Network,ResNet)相比EER降低了0.69百分点和0.89百分点,证明了该模型的有效性。 展开更多
关键词 语音欺骗检测 ResNeXt MFM 注意力机制 RA-Net
在线阅读 下载PDF
融合注意力机制轻量级网络的语声情感识别
2
作者 冀常鹏 佟婷婷 代巍 《应用声学》 CSCD 北大核心 2024年第4期892-899,共8页
在语声情感识别过程中,为解决缺乏方言数据库、识别模型准确率低等问题,建立辽西方言语声情感数据库,并提出一种融合注意力机制轻量级网络的语声情感识别模型。模型由特征组合网络、CBAM注意力机制、深度卷积网络及输出层四部分组成。利... 在语声情感识别过程中,为解决缺乏方言数据库、识别模型准确率低等问题,建立辽西方言语声情感数据库,并提出一种融合注意力机制轻量级网络的语声情感识别模型。模型由特征组合网络、CBAM注意力机制、深度卷积网络及输出层四部分组成。利用3个大小不同的并行卷积提取浅层语声特征并进行拼接;引入CBAM注意力模块将空间特征与通道特征融合;融合后的特征输入深度卷积网络,提取语声深层次特征,输出多维特征向量;输出层对语声进行情感分类识别。模型在IEMOCAP、Emo-DB和自建辽西语声情感数据库上验证,分别取得82.5%、96.2%和90.8%的准确率。实验结果表明,与其他深度学习的模型相比,该文提出的模型在参数量更少的同时识别率更高。 展开更多
关键词 语声情感识别 辽西方言 深度学习 轻量级
在线阅读 下载PDF
基于Conformer的端到端语音识别方法 被引量:3
3
作者 胡从刚 申艺翔 +1 位作者 孙永奇 赵思聪 《计算机应用研究》 CSCD 北大核心 2024年第7期2018-2024,共7页
针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将... 针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将多分支融合为单分支,以降低计算复杂度、加快模型推理速度。然后,利用基于压缩和激励网络的通道注意力机制弥补缺失的通道特征信息,以提高语音识别准确率。最后,在公开数据集Aishell-1上的实验结果表明:相较于Conformer,所提出方法的字错误率降低了10.67%,验证了方法的先进性。此外,RepVGG-SE声学输入网络能够有效提高多种Transformer变体的端到端语音识别模型的整体性能,具有很好的泛化能力。 展开更多
关键词 语音识别 CONFORMER RepVGG 压缩和激励网络
在线阅读 下载PDF
基于改进小波阈值和EMD的语音去噪方法 被引量:20
4
作者 李洋 景新幸 杨海燕 《计算机工程与设计》 CSCD 北大核心 2014年第7期2462-2466,共5页
为了有效抑制语音信号传输中引入的噪声,提出一种基于经验模态分解(EMD)的小波阈值去噪方法。针对传统小波阈值去噪方法中,硬阈值函数的不连续性和软阈值函数中估计小波系数与分解小波系数之间的恒定偏差问题,构造了一种高阶可导的新阈... 为了有效抑制语音信号传输中引入的噪声,提出一种基于经验模态分解(EMD)的小波阈值去噪方法。针对传统小波阈值去噪方法中,硬阈值函数的不连续性和软阈值函数中估计小波系数与分解小波系数之间的恒定偏差问题,构造了一种高阶可导的新阈值函数。该函数通过调整双参数实现函数形状的灵活变化,以接近理想小波系数。将该去噪方法应用于实际语音信号进行去噪处理。实验结果表明,在信噪比较低时,相比单纯采用小波阈值方法和EMD尺度滤波方法,采用该方法对语音信号进行处理能提高信噪比,较好地抑制噪声的干扰,可用于噪声环境下语音识别系统的前端处理,提高系统的识别效果。 展开更多
关键词 语音去噪 经验模态分解 小波变换 小波阈值去噪 信噪比
在线阅读 下载PDF
自适应秩约束逆矩阵近似分解及其在语音增强中的应用
5
作者 王强进 吴占涛 +1 位作者 李宝庆 杨宇 《计算机应用研究》 CSCD 北大核心 2024年第11期3389-3393,共5页
针对低秩约束和稀疏矩阵分解(constrained low-rank and sparse matrix decomposition, CLSMD)方法中硬阈值可能导致降噪后的语音信号分量丢失或出现孤立噪声问题,提出了一种自适应秩约束逆矩阵近似(adaptive rank constrained inverse ... 针对低秩约束和稀疏矩阵分解(constrained low-rank and sparse matrix decomposition, CLSMD)方法中硬阈值可能导致降噪后的语音信号分量丢失或出现孤立噪声问题,提出了一种自适应秩约束逆矩阵近似(adaptive rank constrained inverse matrix approximation, ARCIMA)分解方法。该方法首先采用能量阈值法初步估计低秩矩阵秩值,然后从语音信号子空间矩阵的结构特性出发,采用修正双边随机投影(modified bilateral random projections, MBRP)方法求解代表纯净语音信号的低秩矩阵,降低使用SVD方法的计算量,并通过Tikhonov正则化优化方法改善迭代求解过程中解的病态性。实验结果表明,该方法相比经典方法在多种噪声环境下取得了更好的PESQ得分,并且增强语音的时域波形也更接近原始信号的波形。该方法去噪性能在低信噪比噪声条件下具有优势。 展开更多
关键词 自适应秩约束逆矩阵近似 修正双边随机投影 语音增强
在线阅读 下载PDF
语音测谎技术研究现状与展望 被引量:6
6
作者 赵力 梁瑞宇 +1 位作者 谢跃 庄东哲 《数据采集与处理》 CSCD 北大核心 2017年第2期246-257,共12页
早期的谎言测试技术易受个人和环境影响,同时反测谎技术对其影响也很大。基于脑电信号的测谎技术虽然能够直接观察撒谎行为发生时内部相关脑区的神经活动,更加客观地揭示撒谎活动的内部规律,但是此类技术所需的专业设备庞大而贵重。相... 早期的谎言测试技术易受个人和环境影响,同时反测谎技术对其影响也很大。基于脑电信号的测谎技术虽然能够直接观察撒谎行为发生时内部相关脑区的神经活动,更加客观地揭示撒谎活动的内部规律,但是此类技术所需的专业设备庞大而贵重。相比之下,语音测谎技术具有时空跨越性和高隐蔽性等优点。本文介绍当前测谎技术的发展情况和基本原理,介绍并分析了当前的非语音测谎指标和声学相关指标的类型及特点;然后介绍了目前公开的几种语音相关的测谎数据库,并重点阐述了语音测谎分类算法的研究进展;最后从汉语测谎语料库建立、语音特征表达、反测谎技术研究、理论研究和配套工作开展等方面对语音测谎技术进行了展望。 展开更多
关键词 谎言 测谎仪 语音信号处理 特征提取
在线阅读 下载PDF
IP通信中媒体传输的应用层路由机制研究综述 被引量:4
7
作者 张秀武 雷为民 +1 位作者 张伟 李鸿彬 《小型微型计算机系统》 CSCD 北大核心 2010年第8期1526-1531,共6页
如何提供高质量的服务质量保证(QoS)一直是IP通信中的一个研究热点.现有方案主要从三个方面来解决QoS问题:底层网络的QoS保证;编解码技术的优化以及应用层路由技术(又称为传输控制优化).本文重点讨论应用层路由机制.介绍应用层路由的基... 如何提供高质量的服务质量保证(QoS)一直是IP通信中的一个研究热点.现有方案主要从三个方面来解决QoS问题:底层网络的QoS保证;编解码技术的优化以及应用层路由技术(又称为传输控制优化).本文重点讨论应用层路由机制.介绍应用层路由的基本概念以及现有的应用层路由技术,并进行对比分析.结合SIP协议和P2P技术,提出一种全新的应用层路由系统框架:SIP+P2P系统,并详细介绍其中的一些关键技术.指出IP通信应用层路由领域中需要进一步研究的热点问题. 展开更多
关键词 应用层路由 P2P 服务质量保证 VOIP IP通信
在线阅读 下载PDF
SMV语音编码算法及仿真 被引量:7
8
作者 宁更新 方敏群 韦岗 《计算机工程与应用》 CSCD 北大核心 2003年第29期84-86,共3页
介绍了第三代通信系统中的可选模式语音声码器(SMV)语音编码方式,简要描述了SMV的编、解码基本原理。并进行了该算法的定点C代码仿真,给出了算法的性能、计算复杂度及存储空间等仿真结果。
关键词 可选模式 多码皋激励预测 线性预测 语音编码
在线阅读 下载PDF
结合轻量卷积的非自回归语音合成方法
9
作者 钟巧霞 曾碧 +1 位作者 林镇涛 林伟 《计算机工程与设计》 北大核心 2024年第4期1166-1172,共7页
对如何有效捕捉音素之间的关联及如何合成韵律丰富的音频进行研究,提出一种结合轻量卷积的非自回归语音合成模型LCTTS。引入轻量卷积建立起音素之间的联系,解决发音出错问题。通过添加音高和能量预测器预测生成语音的韵律,解决音频韵律... 对如何有效捕捉音素之间的关联及如何合成韵律丰富的音频进行研究,提出一种结合轻量卷积的非自回归语音合成模型LCTTS。引入轻量卷积建立起音素之间的联系,解决发音出错问题。通过添加音高和能量预测器预测生成语音的韵律,解决音频韵律缺乏问题。训练模型获取梅尔频谱,结合预先训练好的声码器转化为音频。实验结果表明,提出的LCTTS模型优于先前提出的SpeedySpeech模型,在Emotional Speech Database数据集上平均意见得分获得2.8%的提升,梅尔倒谱失真测度下降0.15。 展开更多
关键词 语音合成 轻量级卷积 韵律合成 梅尔频谱生成 非自回归方法 深度学习 自然语言处理
在线阅读 下载PDF
数字助听器语音处理算法研究进展与展望 被引量:5
10
作者 邹采荣 梁瑞宇 谢跃 《数据采集与处理》 CSCD 北大核心 2016年第2期242-251,共10页
全球老龄化使听力障碍成为高发性慢性疾病,而佩戴助听器是老年性聋患者听力干预和康复最有效的手段之一。随着数字信号处理技术和电子技术的飞速进步,近年来应用于数字助听器的各种算法和技术得到了显著的发展。其中声场景分类、滤波器... 全球老龄化使听力障碍成为高发性慢性疾病,而佩戴助听器是老年性聋患者听力干预和康复最有效的手段之一。随着数字信号处理技术和电子技术的飞速进步,近年来应用于数字助听器的各种算法和技术得到了显著的发展。其中声场景分类、滤波器分解、噪声抑制和回声消除是助听器的4个基本算法。基于对这些算法的研究,本文从算法基本原理、当前研究现状、算法特点以及存在的问题进行分析介绍。此外,通过分析现阶段数字助听器算法中存在的问题,介绍了3个助听器信号处理方面的最新研究方向——听觉仿生、听觉认知和自验配助听器。本文最后对未来研究进行了展望。 展开更多
关键词 数字助听器 场景分类 滤波器分解 回声消除 噪声抑制
在线阅读 下载PDF
基于AR-HMM在线能量调整的语音增强方法 被引量:6
11
作者 何玉文 鲍长春 夏丙寅 《电子学报》 EI CAS CSCD 北大核心 2014年第10期1991-1997,共7页
针对单通道语音增强技术对非平稳噪声的跟踪不准确、噪声抑制效果较差的问题,本文提出一种基于在线能量调整的语音增强方法.该方法以归一化临界带能量为特征,采用高斯混合模型对背景噪声进行分类,利用对应类型噪声的自回归隐马尔可夫模... 针对单通道语音增强技术对非平稳噪声的跟踪不准确、噪声抑制效果较差的问题,本文提出一种基于在线能量调整的语音增强方法.该方法以归一化临界带能量为特征,采用高斯混合模型对背景噪声进行分类,利用对应类型噪声的自回归隐马尔可夫模型(Auto-Regressive Hidden Markov Model,AR-HMM)和纯净语音的AR-HMM,在最小均方误差准则下估计语音和噪声的功率谱.考虑到非平稳环境中训练集和测试集的差异性,需在线调整语音模型和噪声模型中的能量,语音模型的能量调整采用迭代的期望最大化算法;噪声模型的能量调整则利用的是模型训练过程中的能量重估方法,并以最小值控制的递归平均算法确定噪声能量调整的初始值.在ITU-T G.160标准下对算法进行性能测试,测试结果表明,本文方法对非平稳噪声的跟踪效果较好,对噪声衰减量较大,收敛时间较短. 展开更多
关键词 语音增强 非平稳噪声 隐马尔可夫模型 高斯混合模型
在线阅读 下载PDF
基于BP神经网络的正四面体阵列声源定向研究 被引量:5
12
作者 杨鹏 邢钰姣 +1 位作者 孙昊 祖丽楠 《传感器与微系统》 CSCD 北大核心 2012年第5期8-9,12,共3页
针对利用正四面体麦克风阵列获取的时延值实现目标声源跟踪这个问题,提出了一种基于BP神经网络的声源定向方法。设计了一个含有双隐层的BP神经网络,使用Matlab神经网络工具箱进行仿真实验,证明可以实现远场和近场的声源定向,进而进行声... 针对利用正四面体麦克风阵列获取的时延值实现目标声源跟踪这个问题,提出了一种基于BP神经网络的声源定向方法。设计了一个含有双隐层的BP神经网络,使用Matlab神经网络工具箱进行仿真实验,证明可以实现远场和近场的声源定向,进而进行声源跟踪,有较高的实用性。 展开更多
关键词 BP神经网络 声源定向 正四面体阵列 MATLAB仿真
在线阅读 下载PDF
一种新型快速的固定码本搜索方法 被引量:5
13
作者 赵欢 范锦秀 张波涛 《计算机工程与应用》 CSCD 北大核心 2010年第15期135-137,152,共4页
为降低AMR_WB中固定码本搜索算法的复杂度,在脉冲取代法的基础上提出了一种新的搜索算法,采用脉冲组合的方法,不仅降低了计算复杂度,而且保证了语音质量。实验结果表明,与AMR_WB采用的深度优先树搜索算法相比,在不影响语音编码质量的条... 为降低AMR_WB中固定码本搜索算法的复杂度,在脉冲取代法的基础上提出了一种新的搜索算法,采用脉冲组合的方法,不仅降低了计算复杂度,而且保证了语音质量。实验结果表明,与AMR_WB采用的深度优先树搜索算法相比,在不影响语音编码质量的条件下,提出的快速码本搜索算法的复杂度降低了53.6%。 展开更多
关键词 语音编码 AMR_WB 固定码本搜索
在线阅读 下载PDF
一种基于维纳滤波去除语音通信中混响的方法 被引量:7
14
作者 张德会 陈光冶 《上海交通大学学报》 EI CAS CSCD 北大核心 2009年第6期949-952,共4页
简要叙述了语音通信中去混响的意义.利用常规通话起始语音的习惯特点,提出了预存起始纯净语音信号,并基于维纳滤波原理,通过反卷积运算求出房间冲击响应,再通过反卷积去除语音信号混响的新方法.对语音样本的仿真试验表明,该方法对单字... 简要叙述了语音通信中去混响的意义.利用常规通话起始语音的习惯特点,提出了预存起始纯净语音信号,并基于维纳滤波原理,通过反卷积运算求出房间冲击响应,再通过反卷积去除语音信号混响的新方法.对语音样本的仿真试验表明,该方法对单字语音的去混响效果良好,在普通计算机上每字的去混响运算耗时为0.3-0.5 s. 展开更多
关键词 去混响 维纳滤波 反卷积 语音通信
在线阅读 下载PDF
改进的功率谱二次处理基音检测法 被引量:2
15
作者 朱建伟 孙水发 +1 位作者 但志平 雷帮军 《计算机工程与科学》 CSCD 北大核心 2010年第5期140-142,146,共4页
作为语音信号处理中的一项关键技术,基音检测一直是研究热点。本文分析了功率谱二次处理基音检测方法的不足:对于过渡语音,易产生半频或倍频误判;噪声干扰下,检测结果易失真;清、浊音的判断方法复杂。针对这些不足,本文提出一系列改进方... 作为语音信号处理中的一项关键技术,基音检测一直是研究热点。本文分析了功率谱二次处理基音检测方法的不足:对于过渡语音,易产生半频或倍频误判;噪声干扰下,检测结果易失真;清、浊音的判断方法复杂。针对这些不足,本文提出一系列改进方法:时域非线性处理,频域加窗滤波,简化清、浊音判断。MATLAB仿真实验结果表明,无论是高信噪比还是低信噪比语音,改进的二次谱法较AMDF法和二次谱法更能清晰、准确地检测出基音轨迹。 展开更多
关键词 基音检测 倒谱法 功率谱二次处理 非线性处理
在线阅读 下载PDF
车联网产业发展现状研究 被引量:10
16
作者 付长军 李斌 乔宏章 《无线电通信技术》 2018年第4期323-327,共5页
现代信息技术推动车联网以超乎人们想象的速度飞速发展,无论是对汽车行业还是个人生活将会带来根本性的转变。车联网是典型的跨界融合行业,涉及感知、人工智能、控制执行等众多领域。给出车联网的发展愿景、政策利好和市场前景后,结合... 现代信息技术推动车联网以超乎人们想象的速度飞速发展,无论是对汽车行业还是个人生活将会带来根本性的转变。车联网是典型的跨界融合行业,涉及感知、人工智能、控制执行等众多领域。给出车联网的发展愿景、政策利好和市场前景后,结合物联网和行业协会的车联网定义,对车联网的内涵和理念进行探讨,从体系架构和关键技术两方面对车联网的技术体系进行了剖析,最后对照分析车联网产业链中服务提供和设备制造两类产业形态,从而系统地探讨了车联网产业的发展现状。 展开更多
关键词 车联网 自动驾驶 V2X 人工智能
在线阅读 下载PDF
基于自适应超高斯混合模型的语音增强算法 被引量:2
17
作者 赵改华 周彬 张雄伟 《数据采集与处理》 CSCD 北大核心 2014年第2期232-237,共6页
语音信号的频谱结构复杂性决定了其短时谱分布不能用单一的概率密度函数(Probability density function,PDF)准确描述。据此,提出了一种采用超高斯混合模型对语音信号幅度谱建模以实现语音增强的新方法。首先,采用超高斯混合模型对语音... 语音信号的频谱结构复杂性决定了其短时谱分布不能用单一的概率密度函数(Probability density function,PDF)准确描述。据此,提出了一种采用超高斯混合模型对语音信号幅度谱建模以实现语音增强的新方法。首先,采用超高斯混合模型对语音信号幅度谱的先验分布进行建模,相对于传统的单一模型,该模型能更好地描述语音信号的多类特性;然后,在增强过程中自适应更新混合分量的PDF及其权重,从而克服了传统模型难以跟踪语音信号分布动态变化的缺点。仿真结果表明与传统的短时谱估计算法相比,该算法的噪声抑制性能有较大的提升,增强语音的主观感知质量也有明显改善。 展开更多
关键词 语音增强 超高斯混合模型 自适应
在线阅读 下载PDF
基于VMD的双通道构音障碍语音特征图谱提取算法
18
作者 薛珮芸 白静 +1 位作者 张楠 赵建星 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期793-801,共9页
针对在提取构音障碍患者语音有效特征信息不足,导致语音识别率低的问题,提出一种基于变分模态分解(VMD)的多尺度双通道滤波器组(MBCFbank)特征图谱提取算法.首先,为了更好地提取符合人耳听觉结构特性的声学特征,提出一种双通道滤波器组(... 针对在提取构音障碍患者语音有效特征信息不足,导致语音识别率低的问题,提出一种基于变分模态分解(VMD)的多尺度双通道滤波器组(MBCFbank)特征图谱提取算法.首先,为了更好地提取符合人耳听觉结构特性的声学特征,提出一种双通道滤波器组(BCFbank)特征提取算法,该算法采用Mel滤波后做对数变换,同时采用Gammatone滤波后作非线性响度变换;其次,采用VMD来优化BCFbank特征,对分解后的多个语音信号分量筛选出相关系数较高的3个,分别提取其BCFbank特征及其差分特征,同时对未分解的语音信号提取BCFbank特征,从而构成MBCFbank特征图谱;最后,在双路语音识别模型上进行训练和识别.实验结果表明,基于BCFbank特征、MBCFbank特征图谱的语音识别模型准确率最高分别达到了87.82%,94.34%,优于Fbank特征的识别效果. 展开更多
关键词 构音障碍语音识别 变分模态分解 卷积神经网络 MBCFbank特征
在线阅读 下载PDF
基于声音的高精度距离与速度估计方法 被引量:1
19
作者 张磊 何永刚 +1 位作者 胡志新 范茂军 《传感器与微系统》 CSCD 北大核心 2021年第6期40-43,51,共5页
为提高基于声技术的室内定位系统在复杂遮挡环境中的定位性能。基于双曲调频(HFM)信号的频移不变特性,提出基于复合HFM信号的距离及速度高精度估计方法;针对频谱泄漏问题,给出了复合HFM信号调制形式。数值仿真结果表明,所提出方法的测... 为提高基于声技术的室内定位系统在复杂遮挡环境中的定位性能。基于双曲调频(HFM)信号的频移不变特性,提出基于复合HFM信号的距离及速度高精度估计方法;针对频谱泄漏问题,给出了复合HFM信号调制形式。数值仿真结果表明,所提出方法的测距性能优于传统基于线性调频信号的测距方法。实验结果表明:距离估计误差小于0.1 m的概率为90%,小于0.05 m的概率为80%;速度估计误差小于0.1 m/s的概率为88%,小于0.09 m/s的概率为80%。无论是估计精度还是计算复杂度,均能够满足面向智能移动终端的室内定位系统要求。 展开更多
关键词 声音 双曲调频信号 距离 速度
在线阅读 下载PDF
“智慧城市”发展现状与思考 被引量:21
20
作者 乔宏章 付长军 《无线电通信技术》 2014年第6期1-5,共5页
智慧城市是物联网、云计算、大数据等现代信息技术与城镇化发展共同结合的产物,目前受到了国内外学者和城市管理者的普遍关注。虽然智慧城市的建设工作已经开始,但是建设目标仍不够明确,顶层设计和标准规范还需进一步研究和制定。结合... 智慧城市是物联网、云计算、大数据等现代信息技术与城镇化发展共同结合的产物,目前受到了国内外学者和城市管理者的普遍关注。虽然智慧城市的建设工作已经开始,但是建设目标仍不够明确,顶层设计和标准规范还需进一步研究和制定。结合城市管理者、智慧城市建设者以及专家学者对智慧城市的理解,对智慧城市的定义、理念和内涵进行了探讨,并介绍了当前智慧城市总体架构,最后基于相关城市的实践调查以及智慧城市的建设经验,给出智慧城市建设发展中的一些建议。 展开更多
关键词 智慧城市 整体架构设计 信息化
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部