期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
一种适用于政务区块链的跨模态人脸生成模型
1
作者 崔思颖 谭志杰 +4 位作者 袁想 李伟平 莫同 乔秀全 吴中海 《南京师大学报(自然科学版)》 北大核心 2025年第2期102-111,共10页
如今,区块链技术被应用到包含电子证照、人脸图像等政府数据共享领域,但当前的大型区块链系统普遍面临低带宽和高存储成本的问题.本文提出了一种适用于政务区块链的跨模态人脸生成模型,将人脸图像转换为文本模态存储在链上,用户可使用... 如今,区块链技术被应用到包含电子证照、人脸图像等政府数据共享领域,但当前的大型区块链系统普遍面临低带宽和高存储成本的问题.本文提出了一种适用于政务区块链的跨模态人脸生成模型,将人脸图像转换为文本模态存储在链上,用户可使用文本与掩膜生成指定人的人脸图像.首先利用多任务学习方法训练基于ResNet-18网络结构的人脸分类器,将人脸图像转换为身份代号文本存储在链上.然后设计了区域感知码本和基于Transformer结构的混合专家采样器,采样器采用扩散模型的方法从码本中采样索引,采样结果由一个可学习的解码器转换成细粒度的人脸图像.在进行数据增强后的Casia Face V5数据集上的实验表明,模型在人脸分类任务中准确率可达95%以上,压缩效果达到了传统图像压缩方法1/10000的持久化时间与1/200的文件大小,与其他先进人脸图像生成方法相比,此模型可以可控地生成高保真度的指定人的人脸图像,并以1/20的参数量达到与大型预训练模型相近的人脸生成效果. 展开更多
关键词 区块链 模态人脸生成 可控图像生成 扩散模型 人脸识别
在线阅读 下载PDF
音频驱动跨模态视觉生成算法综述 被引量:2
2
作者 姜莱 于震 +2 位作者 王鹏飞 周东生 侯亚庆 《图学学报》 CSCD 北大核心 2022年第2期181-188,共8页
由于音频驱动的跨模态视觉生成算法具有广泛地应用场景,近年来已得到产业界和科研界的广泛关注。音频和视觉为人们日常生活中最重要和常见的2种模态,然而设计一种能够创意地想象出与音频相对应的视觉场景一直是一个巨大挑战,目前关于音... 由于音频驱动的跨模态视觉生成算法具有广泛地应用场景,近年来已得到产业界和科研界的广泛关注。音频和视觉为人们日常生活中最重要和常见的2种模态,然而设计一种能够创意地想象出与音频相对应的视觉场景一直是一个巨大挑战,目前关于音频驱动的跨模态视觉生成问题在已有文献中尚未得到系统而全面地研究。针对现有音频驱动的跨模态视觉生成算法进行概述,并将其分为音频到图像、音频到肢体动作视频和音频到说话人脸视频3类。首先阐述其具体应用领域与主流算法流程,并对涉及框架技术进行解析,然后按照技术推进的顺序对相关算法的核心内容与优劣势进行阐述,并解释其生成表现效果,最后对目前领域内所面临的机遇和挑战进行讨论,给出未来研究方向。 展开更多
关键词 跨模态生成 音频 视觉 深度学习 综述
在线阅读 下载PDF
基于动态频域分解的乐队指挥动作生成
3
作者 贺鑫 刘凡 +1 位作者 陈德龙 周睿志 《计算机应用研究》 CSCD 北大核心 2024年第3期923-927,955,共6页
近年来,音乐与人体动作之间的内在关联一直以来都在被广泛研究。然而,很少有人关注音乐驱动的乐队指挥动作生成这一任务,即以音乐为输入信号,生成与音乐节奏和语义相协调的乐队指挥动作。聚焦于这一任务,针对指挥动作多种语义成分时空... 近年来,音乐与人体动作之间的内在关联一直以来都在被广泛研究。然而,很少有人关注音乐驱动的乐队指挥动作生成这一任务,即以音乐为输入信号,生成与音乐节奏和语义相协调的乐队指挥动作。聚焦于这一任务,针对指挥动作多种语义成分时空重合的特性,提出基于动作动态频域分解(dynamic frequency-domain motion decomposition,DFMD)的指挥动作生成方法。具体地,首先利用节拍信息构建滤波器,将指挥动作分解成高频和低频分量;接着,通过深度卷积神经网络动态地学习这些分量;最后合成最终的指挥动作。在大规模指挥动作数据集ConductorMotion100上进行的实验中,基于DFMD的指挥动作生成方法得到的低频动作分量和高频动作分量的标准差分别达到了4.4579和9.6466,与真实动作十分接近。该方法突破了现有基于时域或空间域动作分解中连贯性与协调性不可兼得的局限,并有效避免了大幅值低频动作对小幅值高频动作的影响。可视化结果证明生成的动作自然、美观、多样,且与音乐信号紧密同步。为音乐与动作之间的关联提供了新的解释,并为音乐表演领域带来了创新的应用前景。 展开更多
关键词 跨模态生成 人体动作生成 频域分解 动作分解 音乐驱动生成
在线阅读 下载PDF
基于跨域对抗学习的零样本分类 被引量:11
4
作者 刘欢 郑庆华 +3 位作者 罗敏楠 赵洪科 肖阳 吕彦章 《计算机研究与发展》 EI CSCD 北大核心 2019年第12期2521-2535,共15页
零样本学习旨在识别具有少量、甚至没有训练样本的未见类,这些类与可见类遵循不同的数据分布.最近,随着深度神经网络在跨模态生成方面的成功,使用合成的样本对未见数据进行分类取得了巨大突破.现有方法通过共享生成器和解码器,联合传统... 零样本学习旨在识别具有少量、甚至没有训练样本的未见类,这些类与可见类遵循不同的数据分布.最近,随着深度神经网络在跨模态生成方面的成功,使用合成的样本对未见数据进行分类取得了巨大突破.现有方法通过共享生成器和解码器,联合传统生成对抗网络和变分自编码器来实现样本的合成.然而,由于这2种生成网络产生的数据分布不同,联合模型合成的数据遵循复杂的多域分布.针对这个问题,提出跨域对抗生成网络(CrossD-AGN),将传统生成对抗网络和变分自编码器有机结合起来,基于类级语义信息为未见类合成样本,从而实现零样本分类.提出跨域对抗学习机制,引入2个对称的跨域判别器,通过判断合成样本属于生成器域分布还是解码器域分布,促使联合模型中的生成器解码器不断优化,提高样本合成能力.在多个真实数据集上进行了广泛的实验,结果表明了所提出方法在零样本学习上的有效性和优越性. 展开更多
关键词 零样本学习 生成模型 跨模态生成 域对抗学习 联合模型
在线阅读 下载PDF
基于时空图卷积网络的语音驱动个人风格手势生成方法 被引量:1
5
作者 张斌 刘长红 +1 位作者 曾胜 揭安全 《计算机科学》 CSCD 北大核心 2022年第S02期604-608,共5页
人们在发言时的手势动作往往具有自己独特的个人风格,研究者们提出了基于生成式对抗网络的语音驱动个人风格手势生成的方法,然而所生成的动作不自然,存在时序上动作不连贯的问题。针对该问题,文中提出了一种基于时空图卷积网络的语音驱... 人们在发言时的手势动作往往具有自己独特的个人风格,研究者们提出了基于生成式对抗网络的语音驱动个人风格手势生成的方法,然而所生成的动作不自然,存在时序上动作不连贯的问题。针对该问题,文中提出了一种基于时空图卷积网络的语音驱动个人风格手势生成的方法,引入以时空图卷积网络为基础的时序动态性判别器,构建手势动作关节点之间空间和时间上的结构关系,并通过时空图卷积网络捕获手势动作关节点在空间上的相关性和提取时序上的动态性特征,使所生成的手势动作保持时序上的连贯性,以更符合真实手势的行为和结构。在Ginosar等构建的语音手势数据集上进行实验验证,与相关方法相比,正确关键点百分比指标提高了2%~5%,所生成的手势动作更自然。 展开更多
关键词 跨模态生成 手势生成 个人风格学习 时空图卷积网络 时序动态性
在线阅读 下载PDF
基于还音转换规则的胶片音频生成方法 被引量:2
6
作者 王睿琦 程皓楠 +1 位作者 叶龙 齐秋棠 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2022年第10期1524-1532,共9页
还音作为一种将电影音轨胶片记录的声波信号图转换为音频的过程,是老电影重映中的重要环节.为解决当前还音方法中音频生成失真的问题,提出了一种基于还音转换规则的胶片音频生成方法,可实现音轨胶片图像到音频信号的高精度自动化生成.... 还音作为一种将电影音轨胶片记录的声波信号图转换为音频的过程,是老电影重映中的重要环节.为解决当前还音方法中音频生成失真的问题,提出了一种基于还音转换规则的胶片音频生成方法,可实现音轨胶片图像到音频信号的高精度自动化生成.该方法包含2部分:一是在基于光电转换规则的包络线修正中,基于光度积分的包络线提取,并基于光学规则进行局部与全局校正,解决了光电转换过程中的信号误差问题;二是在基于频率调制规则的音频生成中,设计直流偏量调节方法,并基于电影音频录制还音标准进行信号频域调制,提升了合成音频质量.通过对MovieAD数据集中6类不同类别胶片进行音频生成并测试主观及客观音频评价,结果显示,相比目前较新的还音方法,文中方法生成的音频质量平均提高8.00%以上,且音频采样率可提高到行业标准的162.08%. 展开更多
关键词 音轨胶片 图像处理 模态音频生成
在线阅读 下载PDF
注意力机制引导的多模态心脏图像分割
7
作者 杨琬琪 周子奇 郭心娜 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2019年第3期27-31,41,共6页
为有效挖掘模态间共享与模态特有的信息,本文提出一种注意力机制引导的半孪生网络,用于分割多模态(MRI与CT)心脏图像.具体地,首先运用循环一致的生成对抗网络(CycleGAN)进行双向的图像生成(即从MRI到CT以及从CT到MRI),这样可以解决模态... 为有效挖掘模态间共享与模态特有的信息,本文提出一种注意力机制引导的半孪生网络,用于分割多模态(MRI与CT)心脏图像.具体地,首先运用循环一致的生成对抗网络(CycleGAN)进行双向的图像生成(即从MRI到CT以及从CT到MRI),这样可以解决模态间心脏图像不配对的问题;其次,设计一个新的半孪生网络,将原始的CT(或MR)图像及其生成的MR(或CT)图像进行配对并同时输入,先通过两个编码器(encoders)分别学习模态特有的特征,再经过一个跨模态的注意力模块将不同模态的特征进行融合,最后输入一个公共的解码器(decoder)来得到模态共享的特征,用于心脏图像分割.上述学习过程是端到端的方式进行训练.本文将所提方法在真实的CT与MR不配对的心脏图像数据集上进行实验评估,表明所提方法的分割精度超出基准方法. 展开更多
关键词 注意力机制 模态心脏图像分割 半孪生网络 模态图像生成
在线阅读 下载PDF
人工智能中的生成式方法:数学模型、优化算法及其应用
8
作者 郭田德 幸天驰 +1 位作者 韩丛英 孟帅 《运筹学学报(中英文)》 2025年第3期1-33,共33页
随着深度学习和神经网络技术的持续发展,生成式方法在机器学习领域取得了重要突破,并在多个应用场景中展现出巨大的潜力。本文构建了人工智能生成式方法的统一数学框架,并系统介绍了其核心技术,包括变分自编码器(VAE)、生成对抗网络(GAN... 随着深度学习和神经网络技术的持续发展,生成式方法在机器学习领域取得了重要突破,并在多个应用场景中展现出巨大的潜力。本文构建了人工智能生成式方法的统一数学框架,并系统介绍了其核心技术,包括变分自编码器(VAE)、生成对抗网络(GAN)、扩散模型和流模型,同时深入分析了不同方法在各类任务中的优势与局限。进一步地,本文探讨了人工智能中的生成式方法在数学、物理、生命科学、医学、计算机科学与工程等领域的应用前景。最后,本文总结了当前人工智能中的生成式方法所面临的关键挑战,并重点探讨了其在数学与智能优化研究中的未来发展方向。本文期望为相关领域的研究人员和从业者提供有价值的参考与启示。 展开更多
关键词 生成式方法 数学建模 优化方法 跨模态生成 智能优化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部