期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于对抗学习和增强优化的深度转换语音还原方法
1
作者 苏兆品 周晓琳 +3 位作者 张国富 廉晨思 王年松 岳峰 《电子学报》 北大核心 2025年第6期1815-1828,共14页
语音转换(Voice Conversion,VC)是一种采用深度学习将源说话人声音转换为目标说话人声音的人工智能技术,不仅被广泛应用于电影配音、个性化语音定制等,也被恶意分子应用于电信诈骗、身份伪造、政治社会操纵等,给个人隐私、社会稳定乃至... 语音转换(Voice Conversion,VC)是一种采用深度学习将源说话人声音转换为目标说话人声音的人工智能技术,不仅被广泛应用于电影配音、个性化语音定制等,也被恶意分子应用于电信诈骗、身份伪造、政治社会操纵等,给个人隐私、社会稳定乃至国家安全带来严重危害.相比较于深度转换语音的检测,如何由深度转换语音恢复出源说话声音,即深度转换语音还原,对追踪真实说话人,防止VC非法使用,具有更重要的研究意义和实用价值.而目前相关的研究还较少.为此,本文提出了一种基于对抗学习和增强优化的深度转换语音还原方法.具体来说,首先分析了深度转换语音与源语音和目标语音的相似度,提出基于初步还原-增强优化的深度转换语音还原框架.其次,基于动态卷积和注意力机制设计对抗还原网络,通过生成器、分类器和鉴别器的对抗学习,从转换语音中学习尽可能多的源说话人信息.然后,设计包含音色提取器、内容提取器和声码器的增强优化网络,将初步还原语音中的音色信息和深度转换语音中的内容信息进行深度融合,生成优化后的还原语音.最后,在Free-VC、TriAAN-VC、BNE-PPG-VC三种高性能语音转换模型的数据集上验证所提方法的有效性.对比实验结果表明,本文方法针对三种语音转换模型的还原语音,在与真实语音的平均余弦相似度上分别提高了11.9、8.7和7.1个百分点,在说话人验证系统的平均等错率EER(Equal-Error-Rate)上分别降低了4.30、3.40和3.98个百分点,说明本文方法不仅可以有效恢复出源说话人语音,而且对未知深度转换语音也有一定的适用性. 展开更多
关键词 语音转换 深度转换语音 还原语音 对抗学习 增强优化 深度神经网络
在线阅读 下载PDF
基于多级信息嵌入的中文语声转换模型
2
作者 张国富 张朋 +1 位作者 苏兆品 岳峰 《应用声学》 北大核心 2025年第5期1263-1278,共16页
现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,... 现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,从目标语声中提取音色表示;其次,利用自相关函数方法分别从目标语声和源语声中提取韵律信息,并进行归一化融合;最后,设计基于多级信息嵌入策略的生成器HiFi-GAN++,在匹配后的自监督特征基础上,将音色信息和韵律信息在多层循环中逐步嵌入并生成语声。在Thchs-30、Aishell-1以及Aishell-3三种主流中文数据集的对比实验结果表明,所提模型在字错误率和说话人嵌入余弦相似度上较对比基线模型表现更优。该文模型不仅能够生成更接近真实语声质量的中文转换语声,而且对短语声和情感语声转换场景也具有良好的适应性,具有更广泛的应用前景。 展开更多
关键词 中文语声转换 多级信息嵌入 音色 韵律 生成器HiFi-GAN++
在线阅读 下载PDF
融合社区检测的协作众包任务分配方法 被引量:1
3
作者 胡林波 倪志伟 +2 位作者 程家乐 刘文涛 朱旭辉 《计算机应用》 北大核心 2025年第2期534-545,共12页
针对传统协作众包任务分配中忽视工人协作关联的问题,将工人之间的社交及历史合作关系纳入考虑范畴,提出一种融合社区检测的协作众包任务分配方法。首先,利用社区检测算法挖掘众包工人之间潜在的社交关系,形成候选社群;其次,定义协作度... 针对传统协作众包任务分配中忽视工人协作关联的问题,将工人之间的社交及历史合作关系纳入考虑范畴,提出一种融合社区检测的协作众包任务分配方法。首先,利用社区检测算法挖掘众包工人之间潜在的社交关系,形成候选社群;其次,定义协作度、交互成本和众包任务分配效用等要素后,构建综合考虑技能覆盖率、信誉度及预算成本的协作众包任务分配模型;再次,引入Piece-Wise混沌映射、柯西分布逆累积函数算子、自适应正切飞行算子和麻雀警戒机制等策略,并提出改进沙猫群优化(SCSO)算法——TSCSO;最后,利用TSCSO算法对前述模型进行求解。在不同规模真实数据集合成的算例上的实验结果表明,所提算法可使任务分配成功率维持在90%及以上水平,相较于其他改进智能算法任务分配效用平均提升20.08%~53.38%,验证了所提算法在协作众包任务分配问题中的适用性、稳定性和有效性。 展开更多
关键词 协作众包 社区检测 协作候选社群 任务分配 沙猫群优化算法
在线阅读 下载PDF
纺织品车缝线迹分割网络
4
作者 李鑫 崔文婷 +3 位作者 金帆 於全豪 余烨 路强 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第8期1246-1254,共9页
针对织物车缝线缝制工艺多样,造成其种类多、形态不定以及缝线与织物纹理近似性等导致车缝线准确分割困难等问题,提出一个基于多尺度特征的纺织品车缝线迹分割网络.首先采用融合注意力机制的残差网络提取其位置信息;然后使用增强特征金... 针对织物车缝线缝制工艺多样,造成其种类多、形态不定以及缝线与织物纹理近似性等导致车缝线准确分割困难等问题,提出一个基于多尺度特征的纺织品车缝线迹分割网络.首先采用融合注意力机制的残差网络提取其位置信息;然后使用增强特征金字塔模块,充分利用多尺度特征得到预候选区域的语义信息,将其融合后经过筛选得到车缝线候选区域;最后经过全卷积网络实现车缝线的分割.在真实纺织品车缝线数据集SewTrace上进行实验的结果表明,所提网络对纺织品车缝线迹分割的均值平均精度为0.96,计算量为1.5G;在具有相似特征的公开数据集CrackForest,CRKWH100和Kolektor上与其他同类网络进行实验的结果表明,该网络的均值平均精度分别达到0.85,0.89和0.89,分割精度和预测速度指标优于其他同类网络,证明其能够有效地提高线形目标分割精度. 展开更多
关键词 车缝线 多尺度特征 图像分割 注意力机制 增强特征金字塔
在线阅读 下载PDF
基于BN优化SNGAN的自适应音频隐写 被引量:4
5
作者 岳峰 朱慧 +1 位作者 苏兆品 张国富 《计算机学报》 EI CAS CSCD 北大核心 2022年第2期427-440,共14页
音频隐写术是将秘密信息(如文本、图像、音频、视频等)隐藏到载体音频中,不仅能够保证秘密信息本身的安全,而且能保证秘密信息传输的安全,已成为信息隐藏领域的研究热点之一.近年来,基于深度学习的音频隐写分析技术能够在充分挖掘隐写... 音频隐写术是将秘密信息(如文本、图像、音频、视频等)隐藏到载体音频中,不仅能够保证秘密信息本身的安全,而且能保证秘密信息传输的安全,已成为信息隐藏领域的研究热点之一.近年来,基于深度学习的音频隐写分析技术能够在充分挖掘隐写深度特征的基础上实现高效的隐写检测,导致隐写术的安全性降低,为隐写术带来了新的挑战.不过,生成对抗网络(Generative Adversarial Networks,GAN)的迅速发展,为音频隐写提供了一个新的解决思路.但是,现有基于GAN的音频隐写在隐藏容量、不可感知性、抗检测性上很难达到均衡,不能满足实际应用需求.为此,本文在网络结构单元上将批处理归一化与频谱归一化相结合,提出了一种基于优化频谱归一化GAN的自适应音频隐写方法(Batch Normalization optimized Spectral Normalization GAN,BNSNGAN).具体来说,首先设计了一种隐写编码器,基于时域补零法对秘密音频进行预处理,实现了任意长度秘密音频的嵌入,提高了音频隐写的不可感知性;其次设计了一种具有并行结构的隐写提取器,用不同的卷积核进行去卷积,提高了秘密信息提取的准确率;最后设计了一种以交叉熵为损失函数的隐写分析器,提高了音频隐写的抗检测性.对比实验结果表明,通过编码器、提取器和隐写分析器这三个网络的互相学习,本文所提BNSNGAN不仅可以实现任意长度秘密音频的嵌入,具有较高的秘密信息提取率,并且在隐写容量、不可感知性和抗检测性上可以达到一个较好的均衡. 展开更多
关键词 音频隐写 生成对抗网络 频谱归一化 批处理归一化 自适应隐写
在线阅读 下载PDF
嵌入局部聚类描述符的视频问答Transformer模型 被引量:3
6
作者 郭丹 姚沈涛 +1 位作者 王辉 汪萌 《计算机学报》 EI CAS CSCD 北大核心 2023年第4期671-689,共19页
视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结... 视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结果,模型首先必须捕获视频序列和复杂文本中包含的关键语义信息.本文提出了一种嵌入局部聚类描述符的视频问答Transformer模型,称为TVLAD-Net(Transformer Residual-less VLAD Network).TVLAD-Net主要包含一个端到端可训练的无残差局部聚合描述符模块(RVLAD,Residual-less Vec⁃tor of Local Aggregated Descriptor),以及一个统一的语义转换模块(Transformer).具体来说,RVLAD通过设置多个不同的聚类中心将视频和文本特征分别聚合为少量紧凑的局部聚类描述符;每个聚类描述符从全局角度分配及汇总了序列上权重不一的语义信息,相比于聚合前的视频帧特征或文本词特征具有更丰富的表征能力.Trans⁃former模块能够利用模态间的相互语义引导,实现多模态聚类描述符的语义交互,即采用多头注意力机制同时求解模态内和模态间的语义关联,进而避免了与所求解问题无关或者冗余的描述符语义单元的聚合.实验评估在TGIF-QA、MSVD-QA和MSRVTT-QA三个基准数据集上进行;实验结果表明本文方法能够实现先进的问答推理,在整体的评价指标上与现有方法相比有2%~5%的性能提升. 展开更多
关键词 视频问答 多模态数据 聚类描述符 自注意力变换网络 深度学习
在线阅读 下载PDF
基于多特征融合和BiLSTM的语音隐写检测算法 被引量:1
7
作者 苏兆品 张羚 +1 位作者 张国富 岳峰 《电子学报》 EI CAS CSCD 北大核心 2023年第5期1300-1309,共10页
针对传统互联网低比特率编解码器(internet Low Bit Rate Codec,iLBC)语音隐写主要集中在线性频谱频率系数矢量量化、码本搜索矢量量化或增益量化的单个阶段,难以应对多阶段下的联合隐写检测等问题,提出一种基于多特征融合和双向长短时... 针对传统互联网低比特率编解码器(internet Low Bit Rate Codec,iLBC)语音隐写主要集中在线性频谱频率系数矢量量化、码本搜索矢量量化或增益量化的单个阶段,难以应对多阶段下的联合隐写检测等问题,提出一种基于多特征融合和双向长短时记忆(Bi-Directional Long Short-Term Memory,BiLSTM)网络的iLBC语音隐写检测算法.通过分析隐写对不同阶段参数带来的影响,提取线性频谱频率系数矢量量化、码本搜索矢量量化和增益量化过程中的多种隐写特征,并分别输入到相应的BiLSTM检测网络,最后将各检测网络的结果进行融合,得到最终隐写检测结果 .实验表明,所提算法可以实现多阶段下的联合隐写检测,而且在语音时长较短时,仍能取得优异的检测结果,平均检测准确率达到了90%以上. 展开更多
关键词 联合隐写检测 互联网低比特率编解码器 双向长短时记忆网络 隐写特征提取 多特征融合
在线阅读 下载PDF
体系结构动态变化的软件测试资源分配算法
8
作者 李磊 张国富 +1 位作者 苏兆品 岳峰 《计算机应用》 CSCD 北大核心 2023年第7期2261-2270,共10页
测试资源分配是软件测试中的一个核心问题。已有相关研究大都假设软件的体系结构是静态不变的,且几乎没有考虑成本约束。针对该问题,提出一种体系结构动态变化的软件测试资源分配算法。首先构建了一种体系结构动态变化的多阶段多目标多... 测试资源分配是软件测试中的一个核心问题。已有相关研究大都假设软件的体系结构是静态不变的,且几乎没有考虑成本约束。针对该问题,提出一种体系结构动态变化的软件测试资源分配算法。首先构建了一种体系结构动态变化的多阶段多目标多约束测试资源分配模型;然后基于参数重估计、广义差分进化,在算法中加入了种群重新初始化,该方法能减小算法搜索空间并提升算法性能;最后在算法中加入了一种新的修复处理机制,该机制能有效剔除算法产生的无效解。与归一化加权求和多目标差分进化(WNS-MODE)算法和基于第三代广义差分进化的动态测试资源分配(DTRA-GDE3)算法相比,所提算法获得的解集的容量值分别提高了约11.81倍和0.39倍。在覆盖值指标方面,所提算法完全覆盖了WNS-MODE算法,并且相对于DTRA-GDE3算法提高了81个百分点。在超体积值指标方面,所提算法分别提高了近6倍和9倍。实验结果表明,所提算法能够更好地适应软件体系结构的动态变化,可为软件产品的动态测试提供更多和更优的测试资源分配方案,并满足用户需求的动态变化。 展开更多
关键词 构件软件 测试资源分配 动态测试 多阶段 归一化
在线阅读 下载PDF
EmailVis电子邮件中事件可视分析
9
作者 罗珣 张晴宇 +1 位作者 方芳 路强 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2021年第1期19-28,共10页
对电子邮件文本消息与收发关系的可视化,能够有效地分析过去发生的重要事件与人员交互.然而现有的电子邮件可视化软件对电子邮件主题的筛选与聚类较为简单,使得用户难以挖掘出更深层次的信息.鉴于这些不足,EmailVis通过多种角度对电子... 对电子邮件文本消息与收发关系的可视化,能够有效地分析过去发生的重要事件与人员交互.然而现有的电子邮件可视化软件对电子邮件主题的筛选与聚类较为简单,使得用户难以挖掘出更深层次的信息.鉴于这些不足,EmailVis通过多种角度对电子邮件进行归纳与分类,最终获取到可能包含重要信息的电子邮件,并将它们以点、线与邮件线程相结合的方式展现出来,以便用户快速定位到重要事件的发生时间与相关信息.最后,用户研究表明,EmailVis可以帮助公司管理人员更加清晰地回忆过去发生的项目完成进度、部门交互关系与异常事件信息,为改进工作流程和协调部门合作提供有力的数据支持,从而提高人员协作效率. 展开更多
关键词 电子邮件可视化 视觉分析 主题相似度 事件挖掘 协同工作
在线阅读 下载PDF
基于软件体系结构和广义差分进化的测试资源动态分配算法 被引量:4
10
作者 邵志胜 张国富 +1 位作者 苏兆品 李磊 《计算机应用》 CSCD 北大核心 2021年第12期3692-3701,共10页
测试资源分配是软件测试中的一个基础问题,然而已有研究大都针对并串联模块软件模型而鲜有涉及体系结构软件模型。为此,首先针对可靠性和错误数动态变化的测试环境,构建了一种基于体系结构的多阶段多目标测试资源分配模型。然后基于参... 测试资源分配是软件测试中的一个基础问题,然而已有研究大都针对并串联模块软件模型而鲜有涉及体系结构软件模型。为此,首先针对可靠性和错误数动态变化的测试环境,构建了一种基于体系结构的多阶段多目标测试资源分配模型。然后基于参数重估计、种群重新初始化、广义差分进化和归一化加权求和设计了一种面向动态可靠性和错误数的多阶段多目标测试资源分配算法。最后,在仿真实验中,与已有的归一化加权求和多目标差分进化(WNS-MODE)算法进行对比,所提算法在不同结构的体系结构软件模型实例上所获解集更优,容量值提高了约16倍,覆盖值提高了约84个百分点,超体积提高了约6倍。实验结果表明,所提算法能够更好地适应可靠性和错误数的动态变化,可为体系结构软件模型的动态测试提供更多和更优的测试资源分配方案。 展开更多
关键词 软件测试 测试资源分配 软件体系结构 动态测试 广义差分进化
在线阅读 下载PDF
遗传算法优化时间卷积网络的手机来源识别 被引量:6
11
作者 武钦芳 吴张倩 +1 位作者 苏兆品 张国富 《计算机工程与应用》 CSCD 北大核心 2022年第3期151-158,共8页
基于语音的手机来源识别已成为近年来多媒体取证领域中的一个研究热点。已有研究鲜有考虑环境背景噪声,难以满足司法领域实际应用场景的需求。提出一种遗传算法优化时间卷积网络的手机来源识别方法。基于对数域的Mel滤波器组系数特征,... 基于语音的手机来源识别已成为近年来多媒体取证领域中的一个研究热点。已有研究鲜有考虑环境背景噪声,难以满足司法领域实际应用场景的需求。提出一种遗传算法优化时间卷积网络的手机来源识别方法。基于对数域的Mel滤波器组系数特征,利用时间卷积网络进行深度语音特征学习,并利用线性判别分析提取低维深度特征,将低维深度特征输入到支持向量机中进行训练和识别。特别的,为了提高整体的识别性能,引入遗传算法,通过设计编码方式、适应度函数和遗传操作对时间卷积网络结构进行智能优化。对比实验结果表明,所提方法可对时间卷积网络结构进行自动设计,尽可能地发挥网络性能,从而进一步提升了识别准确率。 展开更多
关键词 手机来源识别 时间卷积网络 网络结构 遗传算法 智能优化
在线阅读 下载PDF
实际噪声下基于时序卷积网络的手机来源识别 被引量:1
12
作者 吴张倩 苏兆品 +1 位作者 武钦芳 张国富 《计算机工程与科学》 CSCD 北大核心 2021年第8期1461-1469,共9页
针对实际环境噪声下的手机来源识别问题,提出一种基于线性判别分析和时序卷积网络的手机来源识别方法。首先,通过分析不同手机语音特征在实际环境噪声下的分类性能,基于带能量描述符、常数Q变换域和线性判别分析得到一种新的手机语音混... 针对实际环境噪声下的手机来源识别问题,提出一种基于线性判别分析和时序卷积网络的手机来源识别方法。首先,通过分析不同手机语音特征在实际环境噪声下的分类性能,基于带能量描述符、常数Q变换域和线性判别分析得到一种新的手机语音混合特征。然后,以此混合特征为输入,基于时序卷积网络进行训练和分类。最后,在10个品牌、47种手机型号、32900条语音样本的实际环境噪声语音库上的测试结果显示,所提方法的平均识别准确率达到99.82%。此外,与经典的基于带能量描述符和支持向量机的方法,以及基于常数Q变换域和卷积神经网络的方法相比,平均识别准确率分别提高了0.44和0.54个百分点,平均召回率分别提高了0.45和0.55个百分点,平均精确率分别提高了0.41和0.57个百分点,平均F1分数分别提高了0.49和0.55个百分点。实验结果表明,所提方法具有更优的综合识别性能。 展开更多
关键词 手机来源识别 实际环境噪声 混合特征 线性判别分析 时序卷积网络
在线阅读 下载PDF
群组协作社交网络关系的分析及可视化 被引量:2
13
作者 路强 黄静 +1 位作者 盛开维 徐文强 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2021年第2期177-185,共9页
社交网络的研究应用领域广泛,大多数的研究主要关注于社交网络结构中节点和链接的变化,研究角度较为单一.而群组协作关系在社交网络中较为普遍,为更好地探索群组协作过程中群组级别网络结构的演变,首先将组级任务添加到用于图可视化的... 社交网络的研究应用领域广泛,大多数的研究主要关注于社交网络结构中节点和链接的变化,研究角度较为单一.而群组协作关系在社交网络中较为普遍,为更好地探索群组协作过程中群组级别网络结构的演变,首先将组级任务添加到用于图可视化的任务分类中,针对协作关系网络的特性,设置一个适用于群组协作关系分析的任务分类法,根据此任务分类法设置探究群组协作需完成的任务;然后设计相关可视化视图,以更直观的方式展示群组之间以及群组内部协作关系的特征以及随时间推进的演变模式;最后在学术协作文献数据集上进行具体案例分析,通过用户评估实验,采用李克特量表对调查问卷进行分析,验证了设计可视化视图的有效性和实用性,可为社交网络关系分析人员提供群组协作的可视化分析方法,更便于对群组协作网络关系的进一步探究和应用. 展开更多
关键词 社交网络 群组协作 可视化分析 任务分类 可视化设计
在线阅读 下载PDF
MDataEE:多因素时间序列数据的分析与可视化
14
作者 路强 葛逸凡 +2 位作者 余烨 黎杰 饶金刚 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2022年第10期1613-1625,共13页
多因素时间序列数据及异常数据的可视化对于提高决策分析效率等问题具有十分重要的意义.由于不同种类数据具有不同的特征,传统的可视化方法在绘制此类数据时会出现图像复杂、用户观察效率低的情况.为此,提出一种高效探索多因素时间序列... 多因素时间序列数据及异常数据的可视化对于提高决策分析效率等问题具有十分重要的意义.由于不同种类数据具有不同的特征,传统的可视化方法在绘制此类数据时会出现图像复杂、用户观察效率低的情况.为此,提出一种高效探索多因素时间序列数据及异常数据的可视化方法MDataEE.首先,使用可视化映射简化多种类数据的视图;其次,根据数据的密度和重要性以及视觉感知来优化坐标轴的绘制;最后,增加了一些交互操作,通过图像显隐及生成对比视图等操作,方便用户根据需求自由探索不同方面的数据.在真实PM2.5数据集上进行的实验结果表明,与传统可视化方法相比,所提出的方法能够生成简洁且易于分析的可视化视图,在分析异常数据变化的趋势及原因等方面更有优势,可提高用户理解并分析异常的多因素时间序列数据的效率. 展开更多
关键词 多因素时间序列数据 异常数据 可视化设计 可视化分析
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部