期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于知识增强的跨模态融合网络的多模态对话情绪识别模型 被引量:1
1
作者 干欣怡 黄贤英 +1 位作者 邹世豪 沈旭东 《计算机应用研究》 北大核心 2025年第4期1065-1072,共8页
针对未充分利用模态表征能力的差异和说话者情绪线索的问题,提出了一种基于知识增强的跨模态融合网络模型。该模型设计了外部知识增强的跨模态模块,将较弱模态特征与多层次文本和外部知识逐层融合嵌入到多头注意力层中,充分挖掘较弱模... 针对未充分利用模态表征能力的差异和说话者情绪线索的问题,提出了一种基于知识增强的跨模态融合网络模型。该模型设计了外部知识增强的跨模态模块,将较弱模态特征与多层次文本和外部知识逐层融合嵌入到多头注意力层中,充分挖掘较弱模态中的有效信息,实现模态间的特征互补和一致性。此外,模型还设计了基于有向图的情绪线索增强模块,利用基于说话者不同情绪线索的外部知识来增强融合特征,并构建上下文信息有向图,深入挖掘并利用说话者的情绪线索。实验结果表明,该模型在两个基准数据集中有效利用了模态表征能力的差异和说话者情绪线索,情绪识别效果显著优于现有方法,验证了模型的可行性与有效性。 展开更多
关键词 对话情绪识别 外部知识 数据增强 TRANSFORMER 多模态交互
在线阅读 下载PDF
说话者特征融合的对话情感识别模型 被引量:1
2
作者 刘欣雨 夏鸿斌 刘渊 《小型微型计算机系统》 北大核心 2025年第3期571-577,共7页
对话情感识别旨在预测对话中话语的情感.目前的方法大多只针对上下文信息进行建模,忽略了对说话者的建模.同时,语境在对话情感识别中起着至关重要的作用.为此,本文提出了说话者特征融合的对话情感识别模型.首先,将说话者名字作为标签进... 对话情感识别旨在预测对话中话语的情感.目前的方法大多只针对上下文信息进行建模,忽略了对说话者的建模.同时,语境在对话情感识别中起着至关重要的作用.为此,本文提出了说话者特征融合的对话情感识别模型.首先,将说话者名字作为标签进行特征提取,并在构造图结构时为说话者设置单独的节点.其次,分别构建全局对话、说话者在对话中对自己的情感影响和对其他说话者情感影响的图结构.然后,通过多头注意力获得体现对话语境的全局特征,将其与图卷积及门控循环单元融合获得分类特征.最后,通过前馈网络对话语情感进行分类.在IEMOCAP、MELD、EmoryNLP这3个基准数据集上的实验结果表明,该模型在性能指标上较其他基线模型均有一定提升. 展开更多
关键词 对话情感识别 上下文建模 说话者建模 图卷积网络 注意力机制
在线阅读 下载PDF
自适应学习图结构的多模态会话情感识别算法
3
作者 董嘉巍 刘娜 +4 位作者 袁野 李磊 胡云鑫 任钦泽 李清都 《小型微型计算机系统》 北大核心 2025年第8期1886-1892,共7页
会话是一种时序性与内部关联性极强的数据类型,不合理的建模方式往往会对会话情感识别任务的效果产生负面影响.由于会话具有天然的图结构,将会话建模为图,并使用图卷积神经网络(GCN)来提取会话信息是一种常用方法,但是天然获得的图结构... 会话是一种时序性与内部关联性极强的数据类型,不合理的建模方式往往会对会话情感识别任务的效果产生负面影响.由于会话具有天然的图结构,将会话建模为图,并使用图卷积神经网络(GCN)来提取会话信息是一种常用方法,但是天然获得的图结构往往存在大量噪声或者有缺失连接的情况,这会损害GCN的学习性能,仅使用GCN也很难处理内部关系丰富的会话信息.针对这些问题,本文提出一种自适应学习图结构学习的多模态情感识别方法.该方法使用添加了邻近稀疏自注意力机制的Transformer编码器结构作为上下文信息提取器,将简单级联的会话音频特征、文本特征、视觉特征作为输入.利用多层感知机设计了一种图结构生成器以生成良好的图结构,同时引入一种自监督去噪任务作为先验信息指导图结构生成器更新参数.其次利用关系图卷积网络和图Transformer作为局部信息提取器,有效地捕捉了会话中存在的复杂依赖关系.在数据集IEMOCAP(4-way/6-way)和MOSEI上与其他基线算法进行了对比实验,实验结果表明该方法在加权F1系数和准确率上都要优于其他基线算法. 展开更多
关键词 多模态 会话情感识别 图结构学习 图神经网络 自注意力机制
在线阅读 下载PDF
基于大语言模型的多任务生成式重构对话情绪识别
4
作者 龙禹辰 勾智楠 +1 位作者 陈宇欣 秦乐 《计算机应用研究》 北大核心 2025年第7期1964-1971,共8页
对话情绪识别(ERC)是对话系统研究中的一项关键任务,然而,现有模型往往由于管道设计的复杂性,容易过拟合于特定数据集和对话模式,从而限制了其泛化能力。为了解决这一问题,提出一个基于大语言模型的多任务生成式重构对话情绪识别模型(M-... 对话情绪识别(ERC)是对话系统研究中的一项关键任务,然而,现有模型往往由于管道设计的复杂性,容易过拟合于特定数据集和对话模式,从而限制了其泛化能力。为了解决这一问题,提出一个基于大语言模型的多任务生成式重构对话情绪识别模型(M-GERC)。该模型引入说话人识别和主题预测情绪两个基于预训练大语言模型的辅助任务。说话人识别任务旨在隐式建模对话中的对话角色关系,帮助模型更好地理解不同参与者之间的情绪交流。主题预测情绪任务则通过预测对话全局的主题,捕捉主题和情绪之间的潜在联系,从而结合上下文信息提高情绪识别的准确性。此外,M-GERC引入了知识检索模块,通过检索知识域知识并结合外部知识,进一步增强模型对上下文的理解。实验结果表明,M-GERC在DailyDialog、MELD和EmoryNLP数据集上相较于现有主流对话情绪识别模型,W-F1分别提高了3.1%、4.3%和3.7%,取得了显著提升。 展开更多
关键词 对话情绪识别 大语言模型 主题 外部知识
在线阅读 下载PDF
基于语篇解析和图注意力网络的对话情绪识别
5
作者 郝秀兰 魏少华 +1 位作者 曹乾 张雄涛 《电信科学》 北大核心 2024年第5期100-111,共12页
对话情绪识别研究主要聚焦于融合对话上下文和说话者建模的相互关系。当前研究通常忽略对话内部存在的依存关系,导致对话的上下文联系不够紧密,说话者之间的关系也缺乏逻辑。因此,提出了一种基于语篇解析和图注意力网络(discourse parsi... 对话情绪识别研究主要聚焦于融合对话上下文和说话者建模的相互关系。当前研究通常忽略对话内部存在的依存关系,导致对话的上下文联系不够紧密,说话者之间的关系也缺乏逻辑。因此,提出了一种基于语篇解析和图注意力网络(discourse parsing and graph attention network,DPGAT)的对话情绪识别模型,将对话内部的依存关系融入语境建模过程中,使语境信息更具有依赖性和全局性。首先,通过语篇解析获取对话内部的话语依存关系,构建语篇依存关系图和说话者关系图。随后,通过多头注意力机制将不同类型的说话者关系图进行内部融合。此外,在图注意力网络的基础上,结合依存关系进行循环学习,以达到上下文信息和说话人信息的有效融合,实现对话语境信息的外部融合。最终,通过分析内、外部融合的结果还原完整对话语境,并对说话者的情绪进行分析。通过在英文数据集MELD、EmoryNLP、DailyDialog和中文数据集M3ED上进行评估验证,F1分数分别为66.23%、40.03%、59.28%、52.77%,与主流的模型相比,所提模型具有较好的适用性,可在不同的语言场景中使用。 展开更多
关键词 对话情绪识别 语篇解析 图注意力网络
在线阅读 下载PDF
融入知识图谱和课程学习的对话情绪识别 被引量:3
6
作者 杜金明 孙媛媛 +1 位作者 林鸿飞 杨亮 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1299-1309,共11页
对话领域情绪识别是基于对话的情感分类任务,对话数据具有口语化、主题跨度大和标签具有语义相似性的特点.口语化表现为对话中存在隐含常识和语法知识的二义性词语和省略句,导致模型难以准确建模语义信息;主题跨度大表现为不同对话场景... 对话领域情绪识别是基于对话的情感分类任务,对话数据具有口语化、主题跨度大和标签具有语义相似性的特点.口语化表现为对话中存在隐含常识和语法知识的二义性词语和省略句,导致模型难以准确建模语义信息;主题跨度大表现为不同对话场景下的文本信息丰富度差异大、情绪转移频率差异大,导致模型性能下降.提出CK-ERC模型缓解上述问题,在预训练阶段,抽取结构化数据为模型融入常识和语法知识图谱,帮助模型建模口语化信息;在微调阶段引入监督对比学习任务帮助模型识别相似情绪标签;在训练策略上设计了基于动态阈值的课程学习策略,按照文本丰富度从高到低、情绪转移频率从低到高的策略优化模型.CK-ERC模型在双人对话、多人对话、模拟对话、日常对话等多种对话模式下显著优于其他模型,在MELD和EmoryNLP数据集上获得最佳表现. 展开更多
关键词 对话情绪识别 对比学习 知识图谱 课程学习 迁移学习
在线阅读 下载PDF
基于时序感知DAG的多模态对话情绪识别模型 被引量:3
7
作者 沈旭东 黄贤英 邹世豪 《计算机应用研究》 CSCD 北大核心 2024年第1期51-58,共8页
针对现有对话情绪识别方法中对时序信息、话语者信息、多模态信息利用不充分的问题,提出了一个时序信息感知的多模态有向无环图模型(MTDAG)。其中所设计的时序感知单元能按照时间顺序优化话语权重设置,并收集历史情绪线索,实现基于近因... 针对现有对话情绪识别方法中对时序信息、话语者信息、多模态信息利用不充分的问题,提出了一个时序信息感知的多模态有向无环图模型(MTDAG)。其中所设计的时序感知单元能按照时间顺序优化话语权重设置,并收集历史情绪线索,实现基于近因效应下对时序信息和历史信息更有效的利用;设计的上下文和话语者信息融合模块,通过提取上下文语境和话语者自语境的深度联合信息实现对话语者信息的充分利用;通过设置DAG(directed acyclic graph)子图捕获多模态信息并约束交互方向的方式,在减少噪声引入的基础上充分利用多模态信息。在两个基准数据集IEMOCAP和MELD的大量实验表明该模型具有较好的情绪识别效果。 展开更多
关键词 对话情绪识别 有向无环图 近因效应 特征提取 多模态交互
在线阅读 下载PDF
基于互信息最大化和对比损失的多模态情绪识别模型
8
作者 黎倩尔 黄沛杰 +3 位作者 陈佳炜 吴嘉林 徐禹洪 林丕源 《中文信息学报》 CSCD 北大核心 2024年第7期137-146,共10页
多模态的对话情绪识别(Emotion Recognition in Conversation,ERC)是构建情感对话系统的关键。近年来,基于图的融合方法在会话中动态聚合多模态上下文特征,提高了模型在多模态对话情绪识别方面的性能。然而,这些方法都没有充分保留和利... 多模态的对话情绪识别(Emotion Recognition in Conversation,ERC)是构建情感对话系统的关键。近年来,基于图的融合方法在会话中动态聚合多模态上下文特征,提高了模型在多模态对话情绪识别方面的性能。然而,这些方法都没有充分保留和利用输入数据中的有价值的信息。具体地说,它们都没有保留从输入到融合结果的任务相关信息,并且忽略了标签本身蕴含的信息。为了解决上述问题,该文提出了一种基于互信息最大化和对比损失的多模态对话情绪识别模型(Multimodal ERC with Mutual Information Maximization and Contrastive Loss,MMIC)。模型通过在输入级和融合级上分级最大化模态之间的互信息(Mutual Information),使任务相关信息在融合过程中得以保存,从而生成更丰富的多模态表示。该文还在基于图的动态融合网络中引入了监督对比学习(Supervised Contrastive Learning),通过充分利用标签蕴含的信息,使不同情绪相互排斥,增强了模型识别相似情绪的能力。在两个英文和一个中文的公共数据集上的大量实验证明了该文所提出模型的有效性和优越性。此外,在所提出模型上进行的案例探究有效地证实了模型可以有效保留任务相关信息,更好地区分出相似的情绪。消融实验和可视化结果证明了模型中每个模块的有效性。 展开更多
关键词 多模态对话情绪识别 图卷积网络 互信息 监督对比学习
在线阅读 下载PDF
情感增强的对话文本情绪识别模型 被引量:5
9
作者 王雨 袁玉波 +1 位作者 过弋 张嘉杰 《计算机应用》 CSCD 北大核心 2023年第3期706-712,共7页
针对现有的许多研究忽略了说话人的情绪和情感的相关性的问题,提出一种情感增强的图网络对话文本情绪识别模型——SBGN。首先,将主题和对话意图融入文本,并微调预训练语言模型RoBERTa以提取重构的文本特征;其次,给出情绪分析的对称学习... 针对现有的许多研究忽略了说话人的情绪和情感的相关性的问题,提出一种情感增强的图网络对话文本情绪识别模型——SBGN。首先,将主题和对话意图融入文本,并微调预训练语言模型RoBERTa以提取重构的文本特征;其次,给出情绪分析的对称学习结构,将重构特征分别输入图神经网络(GNN)情绪分析模型和双向长短时记忆(Bi-LSTM)情感分类模型;最后,融合情绪分析和情感分类模型,将情感分类的损失函数作为惩罚以构建新的损失函数,并通过学习调节得到最优的惩罚因子。在公开数据集DailyDialog上的实验结果表明,相较于DialogueGCN模型与目前最先进的DAG-ERC模型,SBGN模型的微平均F1分别提高16.62与14.81个百分点。可见,SBGN模型能有效提高对话系统情绪分析的性能。 展开更多
关键词 对话情绪识别 情感分类 主题诱导 图神经网络 双向长短时记忆
在线阅读 下载PDF
一种基于层次化R-GCN的会话情绪识别方法 被引量:1
10
作者 赖河蒗 李玲俐 +1 位作者 胡婉玲 颜学明 《计算机工程》 CAS CSCD 北大核心 2022年第1期85-92,共8页
会话情绪识别包括说话者自身情绪影响以及说话者之间情绪影响这2个重要因素,为了充分考虑上述影响因素以提高会话情绪识别效果,提出一种基于层次化关系图卷积神经网络(HRGCN)的识别方法。使用一个基础神经网络对会话序列的特征数据进行... 会话情绪识别包括说话者自身情绪影响以及说话者之间情绪影响这2个重要因素,为了充分考虑上述影响因素以提高会话情绪识别效果,提出一种基于层次化关系图卷积神经网络(HRGCN)的识别方法。使用一个基础神经网络对会话序列的特征数据进行优化,按照不同的说话者划分出2个不同的会话子序列,采用2个局部关系图卷积神经网络(R-GCN)分别对2个子序列进行局部建模,按照会话发生的时间顺序重新整合局部建模后的2个子序列,并利用全局R-GCN对其进行全局建模。通过对输入的多模态特征数据的分层次建模,使得会话序列捕获到更多的上下文信息。在IEMOCAP数据集上的实验结果表明,与当前流行的循环神经网络LSTM、GRU等相比,HRGCN方法的会话情绪识别性能较高,准确率与F1值分别达到84.48%与84.40%。 展开更多
关键词 基础神经网络 关系图卷积神经网络 会话 情绪识别 人工智能
在线阅读 下载PDF
融合生成对抗网络与时间卷积网络的普通话情感识别 被引量:2
11
作者 李海烽 张雪英 +2 位作者 段淑斐 贾海蓉 Huizhi Liang 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第9期1865-1875,共11页
为了探究声学与发音学转换对普通话情感识别的影响,提出融合声学与发音特征转换的情感识别系统.根据人体发音机制,录制普通话多模态音视频情感数据库.设计双向映射生成对抗网络(Bi-MGAN)来解决双模态间的特征转换问题,定义生成器损失函... 为了探究声学与发音学转换对普通话情感识别的影响,提出融合声学与发音特征转换的情感识别系统.根据人体发音机制,录制普通话多模态音视频情感数据库.设计双向映射生成对抗网络(Bi-MGAN)来解决双模态间的特征转换问题,定义生成器损失函数和映射损失函数来优化网络.搭建基于特征-维度注意力机制的残差时间卷积网络(ResTCN-FDA),利用注意力机制自适应地为不同种类特征和不同维度通道赋予不同的权重.实验结果表明,Bi-MGAN在正向和反向映射任务中的转换精度均优于主流的转换网络算法;ResTCN-FDA在给定情感数据集上的评价指标远高于传统的情感识别算法;真实特征融合映射特征使得情感被正确识别的准确率显著提升,证明了映射对普通话情感识别的积极作用. 展开更多
关键词 循环生成对抗网络 情感识别 声学与发音学转换 时间卷积网络 注意力机制
在线阅读 下载PDF
对话情绪识别综述 被引量:7
12
作者 陈晓婷 李实 《计算机工程与应用》 CSCD 北大核心 2023年第3期33-48,共16页
对话情绪识别是情感计算领域的一个热门研究课题,旨在检测对话过程中每个话语的情感类别。其在对话理解和对话生成方面具有重要的研究意义,同时在社交媒体分析、推荐系统、医疗和人机交互等诸多领域具有广泛的实际应用价值。随着深度学... 对话情绪识别是情感计算领域的一个热门研究课题,旨在检测对话过程中每个话语的情感类别。其在对话理解和对话生成方面具有重要的研究意义,同时在社交媒体分析、推荐系统、医疗和人机交互等诸多领域具有广泛的实际应用价值。随着深度学习技术的不断创新和发展,对话情绪识别受到学术界和工业界越来越多的关注,现阶段需要综述性的文章对已有研究成果进行总结,以便更好地开展后续工作。从问题定义、问题切入方式、研究方法、主流数据集等多个角度对该领域的研究成果进行全面梳理,回顾和分析了对话情绪识别任务的发展。对话文本中含有丰富的语义信息,结合视频和音频可以进一步提升建模效果,因此,重点对文本对话情绪识别以及多模态对话情绪识别的方法进行了梳理,立足于当前研究现状,总结了现有对话情绪识别领域存在的开放问题以及未来的发展趋势。 展开更多
关键词 情感分析 对话理解 对话情绪识别 深度学习
在线阅读 下载PDF
融合人脸表情的手语到汉藏双语情感语音转换 被引量:2
13
作者 宋南 吴沛文 杨鸿武 《声学技术》 CSCD 北大核心 2018年第4期372-379,共8页
针对聋哑人与正常人之间存在的交流障碍问题,提出了一种融合人脸表情的手语到汉藏双语情感语音转换的方法。首先使用深度置信网络模型得到手势图像的特征信息,并通过深度神经网络模型得到人脸信息的表情特征。其次采用支持向量机对手势... 针对聋哑人与正常人之间存在的交流障碍问题,提出了一种融合人脸表情的手语到汉藏双语情感语音转换的方法。首先使用深度置信网络模型得到手势图像的特征信息,并通过深度神经网络模型得到人脸信息的表情特征。其次采用支持向量机对手势特征和人脸表情特征分别进行相应模型的训练及分类,根据识别出的手势信息和人脸表情信息分别获得手势文本及相应的情感标签。同时,利用普通话情感训练语料,采用说话人自适应训练方法,实现了一个基于隐Markov模型的情感语音合成系统。最后,利用识别获得的手势文本和情感标签,将手势及人脸表情转换为普通话或藏语的情感语音。客观评测表明,静态手势的识别率为92.8%,在扩充的Cohn-Kanade数据库和日本女性面部表情(Japanese Female Facial Expression,JAFFE)数据库上的人脸表情识别率为94.6%及80.3%。主观评测表明,转换获得的情感语音平均情感主观评定得分4.0分,利用三维情绪模型(Pleasure-Arousal-Dominance,PAD)分别评测人脸表情和合成的情感语音的PAD值,两者具有很高的相似度,表明合成的情感语音能够表达人脸表情的情感。 展开更多
关键词 手势识别 表情识别 深度神经网络 汉藏双语情感语音合成 手语到语音转换
在线阅读 下载PDF
手语到情感语音的转换
14
作者 王伟喆 郭威彤 杨鸿武 《计算机工程与科学》 CSCD 北大核心 2022年第10期1869-1876,共8页
为了解决语言障碍者与健康人之间的交流障碍问题,提出了一种基于神经网络的手语到情感语音转换方法。首先,建立了手势语料库、人脸表情语料库和情感语音语料库;然后利用深度卷积神经网络实现手势识别和人脸表情识别,并以普通话声韵母为... 为了解决语言障碍者与健康人之间的交流障碍问题,提出了一种基于神经网络的手语到情感语音转换方法。首先,建立了手势语料库、人脸表情语料库和情感语音语料库;然后利用深度卷积神经网络实现手势识别和人脸表情识别,并以普通话声韵母为合成单元,训练基于说话人自适应的深度神经网络情感语音声学模型和基于说话人自适应的混合长短时记忆网络情感语音声学模型;最后将手势语义的上下文相关标注和人脸表情对应的情感标签输入情感语音合成模型,合成出对应的情感语音。实验结果表明,该方法手势识别率和人脸表情识别率分别达到了95.86%和92.42%,合成的情感语音EMOS得分为4.15,合成的情感语音具有较高的情感表达程度,可用于语言障碍者与健康人之间正常交流。 展开更多
关键词 手势识别 人脸表情识别 情感语音合成 神经网络 手语到语音转换 语言障碍者
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部