期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
人的视觉行为识别研究回顾、现状及展望 被引量:49
1
作者 单言虎 张彰 黄凯奇 《计算机研究与发展》 EI CSCD 北大核心 2016年第1期93-112,共20页
人的行为识别是计算机视觉领域中的重点研究问题之一.相对于静态图像中物体识别研究,行为识别更加关注如何感知感兴趣目标在图像序列中的时空运动变化.视觉行为的存在方式从二维空间到三维时空的扩展大大增加了行为表达及后续识别任务... 人的行为识别是计算机视觉领域中的重点研究问题之一.相对于静态图像中物体识别研究,行为识别更加关注如何感知感兴趣目标在图像序列中的时空运动变化.视觉行为的存在方式从二维空间到三维时空的扩展大大增加了行为表达及后续识别任务的复杂性,同时也为视觉研究者提供了更广阔的空间以尝试不同的解决思路和技术方法.近年来,人的行为识别相关工作层出不穷,已成为计算机视觉研究中的热点方向.以时间为顺序,对从21世纪初至今约15年中出现的视觉行为识别研究方法进行了梳理、归类和总结.相比其他综述性文章,以不同时期人的行为识别数据库的演化为线索,介绍不同时期行为识别研究所关注的研究重点问题和主要研究思路,能更清晰直观地体现行为识别研究的发展历程.同时,以数据库演化历程为顺序介绍行为识别,能更好地呼应当前视觉领域愈来愈受人关注的大数据驱动的研究思路.通过对相关工作的梳理和总结,还对今后行为识别研究的发展方向做出展望,希望对各位研究者方向把握上提供一些帮助. 展开更多
关键词 计算机视觉 行为识别 时空运动 数据库演化 综述
在线阅读 下载PDF
基于发音特征的汉语声调建模方法及其在汉语语音识别中的应用 被引量:2
2
作者 晁浩 杨占磊 刘文举 《计算机应用》 CSCD 北大核心 2013年第10期2939-2944,共6页
发音特征表征了语音的发音方式信息,能够辅助传统的韵律特征改善声调建模的精度。在分析汉语声韵母发音特点的基础上,将发音方式划分为19类,并提出利用阶层式多层感知器计算语音信号属于各类的后验概率,作为发音特征。之后,将发音特征... 发音特征表征了语音的发音方式信息,能够辅助传统的韵律特征改善声调建模的精度。在分析汉语声韵母发音特点的基础上,将发音方式划分为19类,并提出利用阶层式多层感知器计算语音信号属于各类的后验概率,作为发音特征。之后,将发音特征与传统的韵律特征一起用于声调建模。实验结果显示,加入发音特征后,在三种不同的建模方法下声调识别的准确率提升约5%。将声调模型融入大词表连续语音识别系统后,汉字错误率有了明显的下降。 展开更多
关键词 语音识别 声调建模 发音特征 阶层式多层感知机分类器
在线阅读 下载PDF
属性建模与课程学习相结合的属性级情感分类方法 被引量:1
3
作者 叶静 向露 宗成庆 《软件学报》 EI CSCD 北大核心 2024年第9期4377-4389,共13页
属性级情感分类任务旨在判断句子针对给定属性的情感极性,因其广泛应用而备受关注.该任务的关键在于识别给定属性相关的上下文描述,并根据上下文内容判断发文者针对相应属性的情感倾向.统计发现,大约30%的评论中并不包含关于给定属性的... 属性级情感分类任务旨在判断句子针对给定属性的情感极性,因其广泛应用而备受关注.该任务的关键在于识别给定属性相关的上下文描述,并根据上下文内容判断发文者针对相应属性的情感倾向.统计发现,大约30%的评论中并不包含关于给定属性的明确情感描述,但仍然传达了清晰的情感倾向,这被称为隐式情感表达.近年来,基于注意力机制的神经网络方法在情感分析中得到了成功应用.但该类方法只能捕捉属性相关的显式情感描述,而缺乏对隐含情感的有效分析和挖掘,且往往将属性词与句子上下文分别建模,使得属性词的表示缺乏上下文语义.针对以上两个问题,提出一种交叉融合属性局部和句子全局上下文信息的属性级情感分类方法,并根据隐式和显式情感表达句子不同的分类难度采用课程学习提高模型的分类性能.实验表明,所提方法不仅对显式情感表达句子的属性情感倾向识别准确率高,而且能够有效学习隐式情感表达句子的情感类别. 展开更多
关键词 属性级情感分析 隐式情感分析 注意力机制 课程学习
在线阅读 下载PDF
基于监督对比学习的文本情绪类别表示
4
作者 王祥宇 宗成庆 《软件学报》 EI CSCD 北大核心 2024年第10期4794-4805,共12页
揭示情绪之间的关系是认知心理学的一项重要基础研究.从自然语言处理的角度来说,探讨情绪之间的关系的关键在于得到合适的情绪类别的嵌入式表示.最近,在情感空间中获得一个可以表征情绪关系的类别表示已经引起了一些关注.然而,现有的情... 揭示情绪之间的关系是认知心理学的一项重要基础研究.从自然语言处理的角度来说,探讨情绪之间的关系的关键在于得到合适的情绪类别的嵌入式表示.最近,在情感空间中获得一个可以表征情绪关系的类别表示已经引起了一些关注.然而,现有的情绪类别嵌入方法存在以下几个缺点.比如固定维度,情绪类别表示的维度依赖于所选定的数据集.为了取得一个更好的情绪类别表示,引入监督对比学习的表示方法.在之前的监督对比学习方法中,样本之间的相似性取决于样本所标注的标签的相似性.为了更好地反映出不同情绪类别之间的复杂关系,进一步提出部分相似的监督对比学习表示方法,认为不同情绪类别(比如情绪anger和annoyance)的样本之间也可能是部分相似的.最后,组织一系列实验来验证所提方法以及其他5个基准方法在表述情绪类别之间关系的能力.实验结果表明,所提方法取得了理想的情绪类别表示结果. 展开更多
关键词 情感分析 情绪表示 情绪空间 情绪类别
在线阅读 下载PDF
基于最大相关熵准则的鲁棒半监督学习算法 被引量:8
5
作者 杨南海 黄明明 +1 位作者 赫然 王秀坤 《软件学报》 EI CSCD 北大核心 2012年第2期279-288,共10页
分析了噪声对半监督学习Gaussian-Laplacian正则化(Gaussian-Laplacian regularized,简称GLR)框架的影响,针对最小二乘准则对噪声敏感的特点,结合信息论的最大相关熵准则(maximum correntropy criterion,简称MCC),提出了一种基于最大相... 分析了噪声对半监督学习Gaussian-Laplacian正则化(Gaussian-Laplacian regularized,简称GLR)框架的影响,针对最小二乘准则对噪声敏感的特点,结合信息论的最大相关熵准则(maximum correntropy criterion,简称MCC),提出了一种基于最大相关熵准则的鲁棒半监督学习算法(简称GLR-MCC),并证明了算法的收敛性.半二次优化技术被用来求解相关熵目标函数.在每次迭代中,复杂的信息论优化问题被简化为标准的半监督学习问题.典型机器学习数据集上的仿真实验结果表明,在标签噪声和遮挡噪声的情况下,该算法能够有效地提高半监督学习算法性能. 展开更多
关键词 半监督学习 Gaussian-Laplacian正则化 相关熵 鲁棒 半二次优化
在线阅读 下载PDF
无菌条件非接触式多通道自然交互手术环境 被引量:5
6
作者 陶建华 杨明浩 +10 位作者 王志良 班晓娟 解仑 汪云海 曾琼 王飞 王红迁 刘斌 韩志帅 潘航 陈文拯 《软件学报》 EI CSCD 北大核心 2019年第10期2986-3004,共19页
无菌和非接触环境是医疗手术室的基本要求,这使得计算机操作室和手术室需要在物理上隔离.同时,因为手术进行中,主治医生如果需要查看病灶图像,通常授意护士或者手术助理到计算机操作室操作病灶图像,由于手术室和计算机操作室间的隔离,... 无菌和非接触环境是医疗手术室的基本要求,这使得计算机操作室和手术室需要在物理上隔离.同时,因为手术进行中,主治医生如果需要查看病灶图像,通常授意护士或者手术助理到计算机操作室操作病灶图像,由于手术室和计算机操作室间的隔离,以及主治医生和助理间可能存在的意图理解不准确,容易导致护士或者手术助理在手术室和计算机操作室往返多次,这增加了患者手术时间延长、失血增多、脏器暴露时间长等风险,尽量减少手术中定位到病灶图像的时间对于医生和病人都很重要.针对上述需求,借助遮挡环境下的深度图像人体骨架提取、手势跟踪与理解、手术室环境远场语音识别,多模态信息处理与融合技术,构建无菌条件下的非接触式多通道自然交互手术环境.该环境使得主治医生在手术中可通过语音命令、手势及上述交互方式相结合的方式快速定位到需要观察的病灶成像.在接近真实环境的实验环境中,建立的无菌条件的非接触式多通道自然交互手术环境在保证精度的情况下,可显著缩短病灶图像定位时间.无菌环境智能交互医疗手术室为未来下一代高效的手术提供了技术与方法验证. 展开更多
关键词 手术室 多模态信息融合 意图理解
在线阅读 下载PDF
基于多模态输入的对抗式视频生成方法 被引量:6
7
作者 于海涛 杨小汕 徐常胜 《计算机研究与发展》 EI CSCD 北大核心 2020年第7期1522-1530,共9页
视频生成是计算机视觉和多媒体领域一个重要而又具有挑战性的任务.现有的基于对抗生成网络的视频生成方法通常缺乏一种有效可控的连贯视频生成方式.提出一种新的多模态条件式视频生成模型.该模型使用图片和文本作为输入,通过文本特征编... 视频生成是计算机视觉和多媒体领域一个重要而又具有挑战性的任务.现有的基于对抗生成网络的视频生成方法通常缺乏一种有效可控的连贯视频生成方式.提出一种新的多模态条件式视频生成模型.该模型使用图片和文本作为输入,通过文本特征编码网络和运动特征解码网络得到视频的运动信息,并结合输入图片生成连贯的运动视频序列.此外,该方法通过对输入图片进行仿射变换来预测视频帧,使得生成模型更加可控、生成结果更加鲁棒.在SBMG(single-digit bouncing MNIST gifs),TBMG(two-digit bouncing MNIST gifs)和KTH(kungliga tekniska h?gskolan human actions)数据集上的实验结果表明:相较于现有的视频生成方法,生成结果在目标清晰度和视频连贯性方面都具有更好的效果.另外定性评估和定量评估(SSIM(structural similarity index)与PSNR(peak signal to noise ratio)指标)表明提出的多模态视频帧生成网络在视频生成中起到了关键作用. 展开更多
关键词 深度学习 视频生成 视频预测 卷积神经网络 生成对抗网络
在线阅读 下载PDF
低秩重检测的多特征时空上下文的视觉跟踪 被引量:4
8
作者 郭文 游思思 +1 位作者 张天柱 徐常胜 《软件学报》 EI CSCD 北大核心 2018年第4期1017-1028,共12页
时空上下文跟踪算法充分地利用空间上下文中包含的结构信息能够有效地对目标进行跟踪,实时性优良.但该算法仅利用单一的灰度信息,使得目标的表观表达缺乏判别性,而且该方法在由于遮挡等问题造成的跟踪漂移后无法进行初始化.针对时空上... 时空上下文跟踪算法充分地利用空间上下文中包含的结构信息能够有效地对目标进行跟踪,实时性优良.但该算法仅利用单一的灰度信息,使得目标的表观表达缺乏判别性,而且该方法在由于遮挡等问题造成的跟踪漂移后无法进行初始化.针对时空上下文算法存在的弱点,提出了一种基于低秩重检测的多特征时空上下文跟踪方法.首先,利用多特征对时空上下文进行多方面的提取,构建复合时空上下文信息,充分利用目标周围的特征信息,提高目标表观表达的有效性.其次,利用简单、有效的矩阵分解方式将跟踪到的历史跟踪信息进行低秩表达,将其引入有效的在线重检测器中来保持跟踪结构的一致稳定性,解决了跟踪方法在跟踪失败后的重定位问题,在一系列跟踪数据集上的实验结果表明,该算法与原始算法及当前的主流算法相比有更好的跟踪精度与鲁棒性,且满足实时性要求. 展开更多
关键词 低秩近似矩阵分解 时空上下文 多特征融合 目标跟踪
在线阅读 下载PDF
一种基于视觉的飞行器接近角估计方法 被引量:4
9
作者 祝海江 吴福朝 胡占义 《软件学报》 EI CSCD 北大核心 2006年第5期959-967,共9页
提出了一种基于图像序列的飞行器接近角的估计方法.飞行器的接近角对于飞行器的着陆来说是一个非常重要的参数,是指飞行器在着陆时的飞行轨迹与地平面之间的夹角.飞行器在着陆时近似作平移运动,在这种情况下,图像上的极点称作FOE(focus-... 提出了一种基于图像序列的飞行器接近角的估计方法.飞行器的接近角对于飞行器的着陆来说是一个非常重要的参数,是指飞行器在着陆时的飞行轨迹与地平面之间的夹角.飞行器在着陆时近似作平移运动,在这种情况下,图像上的极点称作FOE(focus-of-expansion),地平面的消失线被称作Horizon.首先给出了从已标定的图像序列中提取FOE和Horizon的方法,然后由这两个参数估计出飞行器的接近角.模拟实验和真实图像实验表明该方法是可行的. 展开更多
关键词 飞行器接近角 FOE(focus-of-expansion) HORIZON
在线阅读 下载PDF
基于对极点的抛物反射折射直线像的拟合方法 被引量:2
10
作者 段慧仙 《计算机研究与发展》 EI CSCD 北大核心 2013年第2期361-370,共10页
在中心反射折射摄像机下,直线的像是一条二次曲线.由于存在遮挡,仅仅有一小段弧在像平面上是可见的,因此通过可见部分正确地拟合直线的像是非常困难的,且文献中现有的方法还没有很好地解决这一问题.除了抛物反射折射直线像需要满足的充... 在中心反射折射摄像机下,直线的像是一条二次曲线.由于存在遮挡,仅仅有一小段弧在像平面上是可见的,因此通过可见部分正确地拟合直线的像是非常困难的,且文献中现有的方法还没有很好地解决这一问题.除了抛物反射折射直线像需要满足的充要条件外,如果可见弧上图像点的对极点已知,可以大大提高直线像的拟合精度.基于这种想法,提出了一种新的拟合抛物反射折射直线像的方法.首先,推导出了一种新的关于对极点与摄像机主点之间的关系;其次,利用这种关系来拟合抛物反射折射直线的像;最后通过拟合的直线像来估计摄像机的内参数.模拟实验和真实实验均验证了该方法的有效性. 展开更多
关键词 抛物反射折射摄像机 直线的像 摄像机主点 对极点 摄像机标定
在线阅读 下载PDF
基于多模态知识感知注意力机制的问答方法 被引量:21
11
作者 张莹莹 钱胜胜 +1 位作者 方全 徐常胜 《计算机研究与发展》 EI CSCD 北大核心 2020年第5期1037-1045,共9页
随着网络的普及,越来越多人遇到身体不适时,会选择在网站上搜索相关症状.随着在线医疗问答网站的出现,如春雨医生、寻医问药等,患者可以便捷地医生交流.现有的问答系统方法,聚焦于词级别的交互与语义信息,却很少考虑在回答问题时,回答... 随着网络的普及,越来越多人遇到身体不适时,会选择在网站上搜索相关症状.随着在线医疗问答网站的出现,如春雨医生、寻医问药等,患者可以便捷地医生交流.现有的问答系统方法,聚焦于词级别的交互与语义信息,却很少考虑在回答问题时,回答者还利用了与问答本身无直接联系的常识.在实际生活中,除了病人的表述,医生还需要额外知识来诊断病人.提出了一个基于多模态知识感知注意力机制的医疗问答方法,它可以有效地利用多模态医疗知识图谱来构建基于知识图谱的问答对之间的交互.该模型首先学习知识图谱中实体的多模态表示;然后从多模态知识图谱中与问答对相关联的实体的路径来推测出回答该问题时的逻辑,并刻画问答对之间的交互关系.此外,该模型还提出了一种注意力机制来判别连接问答对的不同路径之间的重要性.构建了一个大规模的多模态医疗知识图谱和一个医疗问答数据集,实验结果表明:该方法比当前最好的方法准确度提升了2%以上. 展开更多
关键词 多模态知识图谱 医疗问答系统 注意力机制 信息检索 深度学习
在线阅读 下载PDF
基于条件随机场的深度相关滤波目标跟踪算法 被引量:7
12
作者 黄树成 张瑜 +2 位作者 张天柱 徐常胜 王直 《软件学报》 EI CSCD 北大核心 2019年第4期927-940,共14页
目标跟踪是计算机视觉领域众多应用中的重要组成部分之一.在实际环境中目标经常会因为形变、快速运动、背景杂波和遮挡而引起明显的表观变化,使得该问题具有一定的挑战性,因此如何对跟踪问题进行建模变得至关重要.基于深度卷积神经网络(... 目标跟踪是计算机视觉领域众多应用中的重要组成部分之一.在实际环境中目标经常会因为形变、快速运动、背景杂波和遮挡而引起明显的表观变化,使得该问题具有一定的挑战性,因此如何对跟踪问题进行建模变得至关重要.基于深度卷积神经网络(convolutio nalneural network,简称CNN)的判别式相关滤波(discriminative correlation filter,简称DCF)跟踪方法自提出以来,就以兼顾准确率和速度的优势,吸引了大量研究者的关注,该方法通过相关滤波器获取目标候选区域的响应图,作为衡量目标位置的标准,理想响应图的最大值应该对应目标所在的位置.在此基础上,考虑到响应图中数值的连续性,对应的连续条件随机场(conditional random field,简称CRF)模型中极大似然对数存在闭式解,因此对响应值的求解可以定义为一个连续CRF的学习问题.基于以上研究,提出了一种基于条件随机场的鲁棒性深度相关滤波目标跟踪算法,将DCF与CRF结合,设计了一个端到端的深度卷积神经网络,嵌入了CRF中的一元状态函数与二元转移函数,用来获取图片的响应.通过结合一元状态函数中的初始响应和二元转移函数中的相似度矩阵,优化后的算法可以得到一个更平滑、更精确的响应图,从而提高跟踪的鲁棒性.最后,在OTB-2013和OTB-2015这两个数据集上进行了大量的测试,并且与近年来9种在国际上具有代表性的相关算法进行对比分析,结果显示,在OTB-2013中,所提出的算法比基准方法的跟踪成功率高3%,跟踪精度高6.1%;在OTB-2015中,所提出的算法比基准方法的跟踪成功率高3.5%,跟踪精度高4.8%. 展开更多
关键词 目标跟踪 卷积神经网络 相关滤波 条件随机场 鲁棒性
在线阅读 下载PDF
基于全局时频注意力网络的语音伪造检测 被引量:4
13
作者 王成龙 易江燕 +3 位作者 陶建华 马浩鑫 田正坤 傅睿博 《计算机研究与发展》 EI CSCD 北大核心 2021年第7期1466-1475,共10页
语音伪造检测是近年的一个研究热点,受到了广泛关注.目前,卷积神经网及其变种的提出,使其在语音伪造检测任务中取得了不错进展.然而,目前仍存在2方面问题:1)当前工作假设送入卷积神经网络的特征图的每一维对结果的影响是相同的,忽视了... 语音伪造检测是近年的一个研究热点,受到了广泛关注.目前,卷积神经网及其变种的提出,使其在语音伪造检测任务中取得了不错进展.然而,目前仍存在2方面问题:1)当前工作假设送入卷积神经网络的特征图的每一维对结果的影响是相同的,忽视了每一维上特征图的不同位置强调的信息是不一样的.2)此外,前人工作大多关注特征图的局部信息,没有利用全局视图中特征图之间的关系.为了解决以上挑战,引入全局时频注意力框架,分别对通道维度和时频维度做了注意力变换.具体而言,引入了2个并行的注意力模块:1)时频注意力模块;2)全局注意力模块.对于时频注意力模块,可以通过使用加权求和在所有时频特征图上聚合特征来进行更新.对于全局注意力模块,借鉴了SE-Net的思想,通过参数为每个特征通道生成权重.通过这种办法,可以得到特征通道上响应的全局分布.在ASVspoof2019 LA公开数据集上进行了一系列实验,结果显示所提的模型取得不错的效果,最佳模型的等错误率达到4.12%,刷新了单个模型的最好成绩. 展开更多
关键词 语音鉴伪 注意力机制 语音伪造检测 全局注意力 时频注意力
在线阅读 下载PDF
基于高阶词汇依存的短语结构树重排序模型 被引量:3
14
作者 王志国 宗成庆 《软件学报》 EI CSCD 北大核心 2012年第10期2628-2642,共15页
在句法分析中,已有研究工作表明,词汇依存信息对短语结构句法分析是有帮助的,但是已有的研究工作都仅局限于使用一阶的词汇依存信息.提出了一种使用高阶词汇依存信息对短语结构树进行重排序的模型,该模型首先为输入句子生成有约束的搜... 在句法分析中,已有研究工作表明,词汇依存信息对短语结构句法分析是有帮助的,但是已有的研究工作都仅局限于使用一阶的词汇依存信息.提出了一种使用高阶词汇依存信息对短语结构树进行重排序的模型,该模型首先为输入句子生成有约束的搜索空间(例如,N-best句法分析树列表或者句法分析森林),然后在约束空间内获取高阶词汇依存特征,并利用这些特征对短语结构候选树进行重排序,最终选择出最优短语结构分析树.在宾州中文树库上的实验结果表明,该模型的最高F1值达到了85.74%,超过了目前在宾州中文树库上的最好结果.另外,在短语结构分析树的基础上生成的依存结构树的准确率也有了大幅提升. 展开更多
关键词 短语结构 依存结构 句法重排序 高阶词汇依存关系 句法森林
在线阅读 下载PDF
基于篇章结构多任务学习的神经机器翻译 被引量:16
15
作者 亢晓勉 宗成庆 《软件学报》 EI CSCD 北大核心 2022年第10期3806-3818,共13页
篇章翻译方法借助跨句的上下文信息以提升篇章的翻译质量.篇章具有结构化的语义信息,可以形式化地表示为基本篇章单元之间的依存关系.但是目前的神经机器翻译方法很少利用篇章的结构信息.为此,提出了一种篇章翻译模型,能够在神经机器翻... 篇章翻译方法借助跨句的上下文信息以提升篇章的翻译质量.篇章具有结构化的语义信息,可以形式化地表示为基本篇章单元之间的依存关系.但是目前的神经机器翻译方法很少利用篇章的结构信息.为此,提出了一种篇章翻译模型,能够在神经机器翻译的编码器-解码器框架中显式地建模基本篇章单元切分、篇章依存结构预测和篇章关系分类任务,从而得到结构信息增强的篇章单元表示.该表示分别通过门控加权和层次注意力的方式,与编码和解码的状态向量进行融合.此外,为了缓解模型在测试阶段对篇章分析器的依赖,在训练时采用多任务学习的策略,引导模型对翻译任务和篇章分析任务进行联合优化.在公开数据集上的实验结果表明,所提出的方法能够有效地建模和利用篇章单元间的依存结构信息,从而达到提升译文质量的目的. 展开更多
关键词 神经机器翻译 篇章结构 多任务学习 篇章分析
在线阅读 下载PDF
跨模态信息融合的端到端语音翻译 被引量:11
16
作者 刘宇宸 宗成庆 《软件学报》 EI CSCD 北大核心 2023年第4期1837-1849,共13页
语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本.相比于级联式翻译系统,端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势,因此越来越多地受到研究者们的关注.但是,端到端的语音翻译方法不仅需要处理较... 语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本.相比于级联式翻译系统,端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势,因此越来越多地受到研究者们的关注.但是,端到端的语音翻译方法不仅需要处理较长的语音序列,提取其中的声学信息,而且需要学习源语言语音和目标语言文本之间的对齐关系,从而导致建模困难,且性能欠佳.提出一种跨模态信息融合的端到端的语音翻译方法,该方法将文本机器翻译与语音翻译模型深度结合,针对语音序列长度与文本序列长度不一致的问题,通过过滤声学表示中的冗余信息,使过滤后的声学状态序列长度与对应的文本序列尽可能一致;针对对齐关系难学习的问题,采用基于参数共享的方法将文本机器翻译模型嵌入到语音翻译模型中,并通过多任务训练方法学习源语言语音与目标语言文本之间的对齐关系.在公开的语音翻译数据集上进行的实验表明,所提方法可以显著提升语音翻译的性能. 展开更多
关键词 语音翻译 神经机器翻译 端到端模型 多模态学习
在线阅读 下载PDF
基于自监督图对比学习的视频问答方法 被引量:2
17
作者 姚暄 高君宇 徐常胜 《软件学报》 EI CSCD 北大核心 2023年第5期2083-2100,共18页
视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但... 视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但是,大多数现有的图网络方法由于自身固有的过拟合或过平滑、弱鲁棒性和弱泛化性的缺陷使得视频问答模型的性能未能进一步提升.鉴于预训练技术中自监督对比学习方法的有效性和鲁棒性,在视频问答任务中利用图数据增强的思路提出了一种图网络自监督对比学习框架GMC.该框架使用针对节点和边的两种数据增强操作来生成相异子样本,并通过提升原样本与生成子样本图数据预测分布之间的一致性来提高视频问答模型的准确率和鲁棒性.在视频问答公开数据集上通过与现有先进的视频问答模型和不同GMC变体模型的实验对比验证了所提框架的有效性. 展开更多
关键词 图对比学习 视频问答 图数据增强 预训练
在线阅读 下载PDF
部位级遮挡感知的人体姿态估计 被引量:9
18
作者 褚真 米庆 +2 位作者 马伟 徐士彪 张晓鹏 《计算机研究与发展》 EI CSCD 北大核心 2022年第12期2760-2769,共10页
随着深度学习的快速发展,人体姿态估计技术近年来取得显著进步,但是现有方法仍难以较好地处理普遍存在的遮挡问题.针对此问题,提出一种部位级遮挡感知的人体姿态估计方法.首先,采用基准人体姿态估计网络从含遮挡噪声的图像中获得各人体... 随着深度学习的快速发展,人体姿态估计技术近年来取得显著进步,但是现有方法仍难以较好地处理普遍存在的遮挡问题.针对此问题,提出一种部位级遮挡感知的人体姿态估计方法.首先,采用基准人体姿态估计网络从含遮挡噪声的图像中获得各人体部位的带噪声特征表达.然后,通过遮挡部位预测模块估计人体被遮挡部位,从而获得可见性向量.遮挡部位预测模块由遮挡部位分类网络和可见性编码器组成,前者预测关节点的遮挡状态,后者利用注意力机制将遮挡状态转换为一组权重.最后,通过通道重加权方式融合可见性向量和带噪声特征,获得部位级遮挡感知的人体部位相关特征,用于计算关节点热图.在MPII和LSP(leeds sports pose)数据集上的实验结果表明,相比基准姿态估计网络,该方法能够在较小的额外计算代价下更好地应对遮挡问题,并且取得了比目前先进方法更佳的结果. 展开更多
关键词 人体姿态估计 人体关节点检测 遮挡推理 通道注意力机制 多任务学习
在线阅读 下载PDF
虹膜分割算法评价基准 被引量:8
19
作者 王财勇 孙哲南 《计算机研究与发展》 EI CSCD 北大核心 2020年第2期395-412,共18页
虹膜识别是生物特征识别中最稳定和最可靠的身份识别方法之一.在虹膜识别的整个流程中,虹膜分割处于预处理阶段,因此虹膜分割结果的好坏将直接影响虹膜识别的精度.自从1993年Daugman第1次提出高性能的虹膜识别系统以来,各种各样的虹膜... 虹膜识别是生物特征识别中最稳定和最可靠的身份识别方法之一.在虹膜识别的整个流程中,虹膜分割处于预处理阶段,因此虹膜分割结果的好坏将直接影响虹膜识别的精度.自从1993年Daugman第1次提出高性能的虹膜识别系统以来,各种各样的虹膜分割算法陆续提出,尤其是近年来基于深度学习的虹膜分割算法极大地提升了虹膜分割的精度.然而,由于缺乏统一的数据库和评价指标,各种算法的性能比较杂乱而不公平,因此提出了一个公开的虹膜分割评价基准.首先,介绍了虹膜分割的定义和面临的挑战;其次全面梳理了3个有代表性的公开虹膜分割数据库,总结了其特点和挑战性;紧接着定义了虹膜分割的评价指标;然后对传统的和基于深度学习的虹膜分割算法进行了总结,并通过详细的实验对各类算法进行了比较和分析.实验结果表明:当前基于深度学习的虹膜分割算法在准确性上超越了传统的方法.最后,对基于深度学习的虹膜分割算法存在的问题进行了思考和讨论. 展开更多
关键词 生物特征识别 虹膜识别 虹膜分割 深度学习 语义分割
在线阅读 下载PDF
融入法律知识的问句匹配 被引量:1
20
作者 刘权 余正涛 +2 位作者 何世柱 刘康 高盛祥 《软件学报》 EI CSCD 北大核心 2023年第4期1824-1836,共13页
问句匹配是问答系统的重要任务,当前方法通常采用神经网络建模两个句子的语义匹配程度.但是,在法律领域中,问句常存在文本表征稀疏、法律词的专业性较强、句子蕴含法律知识不足等问题.因此,通用领域的深度学习文本匹配模型在法律问句匹... 问句匹配是问答系统的重要任务,当前方法通常采用神经网络建模两个句子的语义匹配程度.但是,在法律领域中,问句常存在文本表征稀疏、法律词的专业性较强、句子蕴含法律知识不足等问题.因此,通用领域的深度学习文本匹配模型在法律问句匹配任务上效果并不好.为了让模型更好的理解法律问句的含义、建模法律领域知识,首先构建一个法律领域知识库,在此基础上提出一种融合法律领域知识(如法律词汇和法律法条)的问句匹配模型.具体地,构建了合同纠纷、离婚、交通事故、劳动工伤、债务债权等5种法律纠纷类别下的法律词典,并且收集了相关法律法条,构建法律领域知识库.在问句匹配中,首先查询法律知识库检索问句对所对应的法律词汇和法律法条,进而通过交叉关注模型同时建模问句、法律词汇、法律法条三者之间的关联,最终实现更精准的问句匹配,在多个法律类别下的实验表明提出的方法能有效提升问句匹配性能. 展开更多
关键词 法律问句匹配 法律词典 法律法条 法律领域知识库
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部