期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
情感可控的个性化完整三维虚拟形象表情动画生成 被引量:2
1
作者 李俊沂 庞德龙 +2 位作者 蔡明旭 周圣喻 余旻婧 《信号处理》 北大核心 2025年第2期382-398,共17页
语音驱动的三维虚拟形象情感表情动画,旨在合成与输入语音具有同步嘴唇动作和面部表情的三维人脸动画。然而,现有方法受限于三维人脸先验,在合成具有口腔内部结构的三维人脸动画方面存在一定的局限性,导致最终生成结果缺乏真实感。此外... 语音驱动的三维虚拟形象情感表情动画,旨在合成与输入语音具有同步嘴唇动作和面部表情的三维人脸动画。然而,现有方法受限于三维人脸先验,在合成具有口腔内部结构的三维人脸动画方面存在一定的局限性,导致最终生成结果缺乏真实感。此外,现有多数方法往往重点关注虚拟形象唇部动作与语音的同步,而较少关注语音情感变化对面部表情的影响,使得生成的表情动画不够自然,真实感受到限制,影响了用户体验。针对以上问题,本文提出了一种情感可控的个性化完整三维虚拟形象表情动画生成方法,以生成具有完整口腔结构和丰富情感表情的人脸动画,提高三维虚拟形象的真实感。该方法由三个核心模块组成:具有完整口腔结构的中性表情动画生成模块、表情检索模块和表情融合模块。具有完整口腔结构的中性表情动画生成模块首先通过基于Transformer的自回归模型实现语音到三维人脸动画序列的跨模态映射,输出中性人脸动画序列,并通过交叉监督的训练图,引入了文本驱动的一致性损失,确保了输入语音与嘴唇区域的同步性。接着,本文在该模块中提出并应用了一种基于人脸关键点的口腔结构三维模型形变算法,依次将生成的口腔模型与对应的中性人脸动画序列进行融合,输出包含口腔结构的中性表情模型序列。表情检索模块根据输入的语音序列和人脸图片进行情感识别和检索,获取带有情感的三维人脸模型。表情融合模块通过深度神经网络将包含口腔结构的中性表情动画与带有情感的三维人脸模型融合,生成具有口腔结构与情感表情的三维人脸表情动画。此外,本文还提出了一种基于线性插值的表情过渡算法实现了表情动画在多种情绪间的平滑过渡。现有实验表明,本文生成的包含口腔结构且具有情感表情的三维人脸动画均能在保持唇部动作与语音同步的同时,有效提高三维虚拟形象的真实感。 展开更多
关键词 语音驱动 情绪驱动 三维虚拟形象 面部表情动画
在线阅读 下载PDF
采用线性注意力机制的语音驱动三维人脸动画技术
2
作者 童程凯 叶阳 《小型微型计算机系统》 北大核心 2025年第6期1400-1408,共9页
语音驱动三维人脸动画技术,旨在通过输入语音,驱动三维人脸模型生成视觉对应的人脸表情动画.当前的常用方法是基于Transformer结构以自回归形式完成人脸动画生成,但是这些方法在面对长语音生成动画时的二次运算复杂度限制了其性能瓶颈,... 语音驱动三维人脸动画技术,旨在通过输入语音,驱动三维人脸模型生成视觉对应的人脸表情动画.当前的常用方法是基于Transformer结构以自回归形式完成人脸动画生成,但是这些方法在面对长语音生成动画时的二次运算复杂度限制了其性能瓶颈,在数据集稀疏情况下的过拟合问题也使得其在生成动画的准确性以及泛化性上存在不足.为了解决以上问题,本文提出一种基于线性注意力的语音驱动三维人脸动画方法.该方法采用一种新的端到端网络模型,通过语音自监督表示学习构建编码器提取语音特征,并利用线性注意力变体的结构RWKV构建人脸表情映射解码模块生成人脸动画.实验结果表明,本文的方法在人脸表情生成的准确度和时效性上都优于目前的相关方法,三维人脸网格顶点平均误差在标准化条件下上较sota方法降低了0.15,单帧人脸预测时延上也比基于传统Transformer的方法快了4倍左右. 展开更多
关键词 语音驱动 自监督 线性注意力 人脸动画
在线阅读 下载PDF
隐式情绪导向的语音驱动仿生机器人说话方法
3
作者 徐康 袁野 +3 位作者 付军秀 傅柯婷 任钦泽 刘娜 《计算机应用研究》 北大核心 2025年第8期2297-2303,共7页
提出了一种创新的隐式情绪导向语音驱动方法,用于仿生机器人的面部表情与头部姿态生成。该方法基于深度学习,通过引入颈部舵机控制系数,突破了传统方法仅依赖预编程随机动作序列的局限,实现了音频信号到自然表情的精确映射。此外,提出... 提出了一种创新的隐式情绪导向语音驱动方法,用于仿生机器人的面部表情与头部姿态生成。该方法基于深度学习,通过引入颈部舵机控制系数,突破了传统方法仅依赖预编程随机动作序列的局限,实现了音频信号到自然表情的精确映射。此外,提出了一种隐式情绪导向特征融合自编码器框架,无须显式输入情绪参数,即可从音频中隐含地推断情绪特征,并生成丰富的面部表情和颈部运动。实验表明,该方法在多个数据集上显著优于现有技术,并且通过轻量化设计,能够高效适应资源有限的移动设备。 展开更多
关键词 仿生机器人 音频驱动 情绪导向 卷积长短时记忆网络
在线阅读 下载PDF
基于机器学习的语音驱动人脸动画方法 被引量:20
4
作者 陈益强 高文 +1 位作者 王兆其 姜大龙 《软件学报》 EI CSCD 北大核心 2003年第2期215-221,共7页
语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能... 语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能有效表征人脸运动的基本模式,采用神经网络学习训练,实现了从含韵律的语音特征到人脸运动基本模式的直接映射,不仅回避了语音识别鲁棒性不高的缺陷,同时学习的结果还可以直接驱动人脸网格.最后给出对语音驱动人脸动画系统定量和定性的两种分析评价方法.实验结果表明,基于机器学习的语音驱动人脸动画不仅能有效地解决语音视频同步的难题,增强动画的真实感和逼真性,同时基于MPEG-4的学习结果独立于人脸模型,还可用来驱动各种不同的人脸模型,包括真实视频、2D卡通人物以及3维虚拟人脸. 展开更多
关键词 机器学习 语音驱动 人脸动画 语音识别 模式识别
在线阅读 下载PDF
基于数据挖掘的语音驱动三维人脸动画合成 被引量:1
5
作者 陈益强 高文 +2 位作者 王兆其 姜大龙 左力 《系统仿真学报》 CAS CSCD 2002年第4期496-500,共5页
提出采用数据挖掘的概念,利用神经网络,聚类以及统计学方法从大量语音视频库中发现语音与唇动以及人脸表情之间的关联模型,并应用于语音驱动人脸动画合成中,本文提出的方法不仅可很好地解决语音与人脸动画的同步,同时还具有易训练,鲁棒... 提出采用数据挖掘的概念,利用神经网络,聚类以及统计学方法从大量语音视频库中发现语音与唇动以及人脸表情之间的关联模型,并应用于语音驱动人脸动画合成中,本文提出的方法不仅可很好地解决语音与人脸动画的同步,同时还具有易训练,鲁棒性强,可扩展等特性。实验表明,基于数据挖掘技术的合成模型非常有效,极大提高了动画人物的真实感和可信度。 展开更多
关键词 数据挖掘 语音驱动 三维人脸动画合成 计算机
在线阅读 下载PDF
基于数据驱动技术在语料词类分析中的应用 被引量:1
6
作者 张玥杰 姚天顺 《计算机科学》 CSCD 北大核心 1999年第1期69-74,共6页
语料库语言学的主要研究内容之一是对所建立语料库中的语料,进行不同层次的语法分析。语法分析一般由两个层次组成,即词类分析(Part-of-Speech Analyzing)与句法分析(Parsing)。词类分析通常包括两个过程:(i)引入歧义(即,词法分析过程);... 语料库语言学的主要研究内容之一是对所建立语料库中的语料,进行不同层次的语法分析。语法分析一般由两个层次组成,即词类分析(Part-of-Speech Analyzing)与句法分析(Parsing)。词类分析通常包括两个过程:(i)引入歧义(即,词法分析过程);(ii)消除歧义(即,排除非法选择的过程)。 展开更多
关键词 语料 词类分析 语言信息处理 数据驱动
在线阅读 下载PDF
汉语语音理解中自动纠错系统的研究 被引量:4
7
作者 李晶皎 张王利 姚天顺 《软件学报》 EI CSCD 北大核心 1999年第4期377-381,共5页
根据汉语语音的特点,通过总结在连续汉语语音识别的汉字序列中出现错误的规律,写出相应的用于查错和校正的词法和句法语义规则.利用“词汇语义驱动”的分析方法,找出汉字序列中的错误并校正。
关键词 汉语语音理解 自动纠错 汉字信息处理 语音识别
在线阅读 下载PDF
汉语文语转换系统中停顿指数的自动标注 被引量:6
8
作者 赵永贞 刘挺 +2 位作者 王志伟 陈惠鹏 邵艳秋 《中文信息学报》 CSCD 北大核心 2004年第5期48-55,共8页
本文采用了一个基于C TOBI的停顿指数标注的语料库 ,利用有指导的学习方法对自动停顿指数标注方面做了一些有益的探索。本文共实现了三种方法 :基本的马尔科夫模型 ,引入了词长信息的马尔科夫模型 ,引入词长信息的马尔科夫模型结合基于... 本文采用了一个基于C TOBI的停顿指数标注的语料库 ,利用有指导的学习方法对自动停顿指数标注方面做了一些有益的探索。本文共实现了三种方法 :基本的马尔科夫模型 ,引入了词长信息的马尔科夫模型 ,引入词长信息的马尔科夫模型结合基于转换的错误驱动的学习方法。然后通过对 30 0 0句的真实文本进行开放测试 ,以基本的马尔科夫模型的结果作为基准 ,实验结果不断改进 ,最终达到了 78 6 %的准确率 ,错误代价降低了 14 5 % 展开更多
关键词 计算机应用 中文信息处理 文语转换 停顿指数 马尔科夫模型 基于转换的错误驱动的学习
在线阅读 下载PDF
专用语音信箱数据采集与处理 被引量:1
9
作者 吕志民 宋靖涛 周劲松 《数据采集与处理》 CSCD 1999年第4期523-526,共4页
介绍的专用语音信箱由2 条中继线、7 台分机、1 个语音处理单元以及呼叫处理程序和语音信箱管理程序组成。内外线电话能够互相呼叫或拨号访问信箱,并拥有多种程控业务新功能。语音信箱具有查询、留言和播放公众信息等功能,在被叫... 介绍的专用语音信箱由2 条中继线、7 台分机、1 个语音处理单元以及呼叫处理程序和语音信箱管理程序组成。内外线电话能够互相呼叫或拨号访问信箱,并拥有多种程控业务新功能。语音信箱具有查询、留言和播放公众信息等功能,在被叫忙音或无应答时自动进入信箱。呼叫处理程序使用状态迁移法解决呼叫信号采集、处理的多重性问题;使用时间调度技术解决多用户的实时处理问题;使用VisualBasic的MSCOMM 控件实现了串行口交互通信;将多媒体MIC控件用于语音信息的记录、储存和重放过程。 展开更多
关键词 语音信箱 数据采集 数据处理 自动交换机 电话
在线阅读 下载PDF
基于深度神经网络的语音驱动发音器官的运动合成 被引量:6
10
作者 唐郅 侯进 《自动化学报》 EI CSCD 北大核心 2016年第6期923-930,共8页
实现一种基于深度神经网络的语音驱动发音器官运动合成的方法,并应用于语音驱动虚拟说话人动画合成.通过深度神经网络(Deep neural networks,DNN)学习声学特征与发音器官位置信息之间的映射关系,系统根据输入的语音数据估计发音器官的... 实现一种基于深度神经网络的语音驱动发音器官运动合成的方法,并应用于语音驱动虚拟说话人动画合成.通过深度神经网络(Deep neural networks,DNN)学习声学特征与发音器官位置信息之间的映射关系,系统根据输入的语音数据估计发音器官的运动轨迹,并将其体现在一个三维虚拟人上面.首先,在一系列参数下对比人工神经网络(Artificial neural network,ANN)和DNN的实验结果,得到最优网络;其次,设置不同上下文声学特征长度并调整隐层单元数,获取最佳长度;最后,选取最优网络结构,由DNN输出的发音器官运动轨迹信息控制发音器官运动合成,实现虚拟人动画.实验证明,本文所实现的动画合成方法高效逼真. 展开更多
关键词 深度神经网络 语音驱动 运动合成 虚拟说话人
在线阅读 下载PDF
语音驱动的口型同步算法 被引量:1
11
作者 范鑫鑫 杨旭波 《东华大学学报(自然科学版)》 CSCD 北大核心 2017年第4期466-471,共6页
本文提出一种口型动画同步算法,可以根据输入的语音信号,生成与该信号同步的口型动画.该算法分为预处理与运行时两个阶段.在预处理阶段,预定义一个基本口型动作集合,然后令设计师通过定义该集合中元素的权重变化曲线,来设计不同音素对... 本文提出一种口型动画同步算法,可以根据输入的语音信号,生成与该信号同步的口型动画.该算法分为预处理与运行时两个阶段.在预处理阶段,预定义一个基本口型动作集合,然后令设计师通过定义该集合中元素的权重变化曲线,来设计不同音素对应的口型动画.在运行时阶段,首先获取输入语音信号对应的音素序列,然后将该序列映射到一系列口型动画片段上,最后将这些片段互相拼接,即可得到最终输出的结果.试验表明,该算法具有较高的准确率,在运行时耗时较少,并且对于不同的人脸模型具有较高的可重用性. 展开更多
关键词 语音驱动 口型同步 音素
在线阅读 下载PDF
引入非局部模块卷积神经网络的基频提取模型 被引量:3
12
作者 刘晶晶 黄浩 《计算机工程》 CAS CSCD 北大核心 2023年第3期128-133,160,共7页
基频或基音的估计是各种语音信号处理技术的关键子问题,现有信号处理技术研究多使用数据驱动的方法,即通过卷积神经网络进行基频提取。然而,卷积神经网络中的卷积操作一次只能处理局部的音频样本点,只有在递归应用卷积操作时才能捕获全... 基频或基音的估计是各种语音信号处理技术的关键子问题,现有信号处理技术研究多使用数据驱动的方法,即通过卷积神经网络进行基频提取。然而,卷积神经网络中的卷积操作一次只能处理局部的音频样本点,只有在递归应用卷积操作时才能捕获全局音频样本点依赖关系,导致计算效率低与优化困难。受非局部模块在计算机视觉任务中具有较高性能的启发,提出一种具有非局部模块的卷积神经网络用于基频提取任务。非局部模块相比不断堆叠的卷积神经网络,可以直接计算两个位置之间的关系,由于其可以忽略欧氏距离,因此能够快速捕获长范围的依赖关系。对于基频估计任务,可在卷积神经网络中加入非局部模块以计算音频样本点之间的相似性,有助于捕获帧与帧和样本点与样本点之间的全局依赖关系,且非局部模块可以保持输入输出维度不变,能够快速地集成卷积神经网络。实验结果表明,该方法平均绝对误差仅为4.7,与基线模型相比,至少降低了0.7,能够获得最佳的模型性能。 展开更多
关键词 基频 语音信号处理 数据驱动 卷积神经网络 非局部模块
在线阅读 下载PDF
英汉翻译系统上的汉语自然语音输出系统ECTRAN/SO
13
作者 曹木 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 1997年第9期710-715,共6页
本文旨在介绍在英汉翻译系统基础之上实现汉语语音输出系统ECTRAN/SO.着重讨论如何利用英汉翻译系统的语法、语义信息,产生停顿和轻音信息,借以得到自然流畅的语音输出.在本输出系统的实现过程中,用波形存储法建立常用音... 本文旨在介绍在英汉翻译系统基础之上实现汉语语音输出系统ECTRAN/SO.着重讨论如何利用英汉翻译系统的语法、语义信息,产生停顿和轻音信息,借以得到自然流畅的语音输出.在本输出系统的实现过程中,用波形存储法建立常用音库,实现了简单句子的语音输出. 展开更多
关键词 英汉翻译系统 语音输出系统 ECTRAN/SO
在线阅读 下载PDF
基于双耳线索编码原理的语音增强方法 被引量:3
14
作者 陈楠 鲍长春 《电子学报》 EI CAS CSCD 北大核心 2019年第1期227-233,共7页
借助双耳线索编码原理,通过构建一个语音和噪声的双耳线索先验码书,本文提出一种单通道语音增强方法.首先,该算法将语音和噪声的双耳线索作为语音和噪声的先验知识,在线下被训练成为先验码书.之后,在线上通过加权码书映射(Weighted Code... 借助双耳线索编码原理,通过构建一个语音和噪声的双耳线索先验码书,本文提出一种单通道语音增强方法.首先,该算法将语音和噪声的双耳线索作为语音和噪声的先验知识,在线下被训练成为先验码书.之后,在线上通过加权码书映射(Weighted Code Book Mapping,WCBM)算法估计纯净线索参数,最后,利用双耳线索编码原理增强含噪语音.此外,本文采用深度神经网络,即堆栈式自编码器(Stacked Auto-Encoders,SAE)代替WCBM算法估计纯净线索参数,提出了基于深度神经网络的双耳线索语音增强算法.进一步提高了增强算法的性能.客观测试结果表明,本文所提方法优于参考算法. 展开更多
关键词 语音增强 双耳线索编码 码书驱动 深度神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部