期刊文献+
共找到56篇文章
< 1 2 3 >
每页显示 20 50 100
民族院校软件工程专业创新实践教学 被引量:5
1
作者 魏巍 焉德军 +1 位作者 宋海玉 王存睿 《实验室研究与探索》 CAS 北大核心 2017年第2期226-230,共5页
针对民族院校软件工程专业实践教学面临的困难及存在的问题,探索提高专业创新实践教学水平的方法。以大连民族大学软件工程专业创新实践教学为例,提出通过优化实践课程体系,完善师资培训机制,提高实践教学质量,挖掘民族学生优势,丰富校... 针对民族院校软件工程专业实践教学面临的困难及存在的问题,探索提高专业创新实践教学水平的方法。以大连民族大学软件工程专业创新实践教学为例,提出通过优化实践课程体系,完善师资培训机制,提高实践教学质量,挖掘民族学生优势,丰富校企合作内涵等方面,提高民族学生实践应用能力和工程规范能力。同时,开展以教师工作室制为载体,以各类学科竞赛为平台的实践教学活动,进一步提高民族学生的创新实践能力和团结协作能力。 展开更多
关键词 民族院校 软件工程 实践教学 创新
在线阅读 下载PDF
基于自监督学习和二阶表示的小样本图像分类 被引量:1
2
作者 李兆亮 贾令尧 +1 位作者 张冰冰 李培华 《计算机学报》 北大核心 2025年第3期586-601,共16页
小样本图像分类旨在利用少量的标注样本实现对未见类别的预测。最近的研究表明,预训练策略和图像表示方法在该任务中发挥着关键作用。然而,这些方法的应用仍面临两个主要挑战:第一,自监督学习在小样本分类的预训练阶段尚未得到充分的探... 小样本图像分类旨在利用少量的标注样本实现对未见类别的预测。最近的研究表明,预训练策略和图像表示方法在该任务中发挥着关键作用。然而,这些方法的应用仍面临两个主要挑战:第一,自监督学习在小样本分类的预训练阶段尚未得到充分的探索;第二,二阶表示在不同粒度的小样本任务中的作用尚不明确,制约了其在复杂任务中的应用。针对上述问题,本文首先提出了一个多任务协同优化的预训练方法,实现了对比式自监督、生成式自监督和有监督学习的联合训练。该方法旨在促进模型学习具有迁移性的特征,从而提升模型的泛化性能。其次,本文利用紧致的双线性池化对模型进行微调,以获取更具分辨力的二阶表示,从而进一步增强模型的非线性建模能力。最后,本文提出了一种基于类间相似关系的任务难度指标,用于量化小样本任务的分类粒度,并通过线性探测分析系统地研究了二阶表示在粗细粒度不同的小样本任务中的表现。实验表明,多任务协同的预训练有效提高了模型的泛化性能,并且不同的分支任务呈现相互促进的效果;在更加困难的细粒度任务中,二阶表示相对于一阶表示展现出更强的线性可分性,这为一阶和二阶表示在不同场景中的应用提供了有益参考。本文通过广泛的消融实验深入评估了每个关键设计的贡献。与当前最先进的方法相比,本文方法在miniImageNet和CUB数据集的1-shot/5-shot分类任务中分别取得0.66%/0.53%和3.12%/0.98%的提升,在tiered ImageNet数据集的5-shot分类任务中取得可比结果(87.19%vs.87.31%),在跨域数据集miniImageNet→CUB、miniImageNet→Aircraft和miniImageNet→Cars中分别取得1.25%、1.96%和4.34%的提升,验证了本文方法的有效性。 展开更多
关键词 小样本图像分类 自监督学习 有监督学习 二阶表示 任务难度指标
在线阅读 下载PDF
融合多特征与全局-局部Transformer的图像修复算法 被引量:1
3
作者 滕诗宇 何丽君 《电子测量技术》 北大核心 2025年第6期121-129,共9页
针对当前图像修复领域所面临的高计算复杂度以及在生成结构合理且细节丰富的图像方面的局限,提出了一种融合多尺度分层特征与全局-局部协同Transformer的图像修复模型。首先提出多尺度分层特征融合模块,以实现深层特征与浅层特征细节上... 针对当前图像修复领域所面临的高计算复杂度以及在生成结构合理且细节丰富的图像方面的局限,提出了一种融合多尺度分层特征与全局-局部协同Transformer的图像修复模型。首先提出多尺度分层特征融合模块,以实现深层特征与浅层特征细节上的有效融合,在扩大感受野的同时减少关键信息丢失情况。其次提出用于全局推理的全局-局部协同Transformer模块,它通过集成矩形窗口注意力机制和局部前馈神经网络,在降低计算复杂度的同时,提高模型对全局上下文信息的宏观理解和对局部细节特征的微观捕捉能力,增强图像的整体一致性。实验在CelebA-HQ和Places2数据集上进行了验证,在处理40%~50%掩码时,所提方法与常用的修复方法对比,PSNR平均提高了0.26~6.25 dB,SSIM平均提升了1.4%~19%,L1平均下降了0.2%~5.66%。实验证明,所提方法修复后的图像在视觉上具有更加真实和自然的效果,进一步验证了该方法的有效性。 展开更多
关键词 深度学习 图像修复 多尺度分层特征融合 全局-局部协同Transformer 矩形窗口注意力机制 局部前馈神经网络
在线阅读 下载PDF
基于图卷积的自适应特征融合MRI脑肿瘤分割方法
4
作者 张野 张睦卿 +1 位作者 袁学刚 牛大田 《河北科技大学学报》 北大核心 2025年第4期395-404,共10页
针对U-Net模型在MRI脑肿瘤分割上存在的全局信息捕获不足和深层语义信息融合不充分等问题,提出一种新的基于图卷积的自适应特征融合网络(adaptive spatial and graph-convolutional U-Net, ASGU-Net)。以三维U-Net为基础,通过构建图卷... 针对U-Net模型在MRI脑肿瘤分割上存在的全局信息捕获不足和深层语义信息融合不充分等问题,提出一种新的基于图卷积的自适应特征融合网络(adaptive spatial and graph-convolutional U-Net, ASGU-Net)。以三维U-Net为基础,通过构建图卷积推理模块,捕获额外的远程上下文特征;在编解码器中引入动态蛇形卷积(dynamic snake convolution, DSConv)能更精准地契合肿瘤形态各异的特点,提高边缘特征提取能力,从而有效提升分割精度;在解码器中引入自适应空间特征融合(adaptive spatial feature fusion, ASFF)模块,通过整合多个编码器块捕获的语义信息提升特征融合效果。在公开的BraTS 2019—2021数据集上的评估表明,整个肿瘤、肿瘤核心和增强肿瘤的Dice值分别为90.70%/90.70%/91.00%、84.90%/84.00%/88.80%和77.30%/77.40%/82.50%,证明了ASGU-Net在脑肿瘤分割任务中的有效性。ASGU-Net可有效解决全局信息捕获不足和特征融合不充分的问题,为脑肿瘤高精度自动化分割提供了参考。 展开更多
关键词 计算机神经网络 脑肿瘤分割 三维U-Net 图卷积推理瓶颈层 动态蛇形卷积 自适应空间特征融合
在线阅读 下载PDF
融合噪声过滤的超关系知识图谱补全方法
5
作者 刘爽 刘大庆 +1 位作者 孟佳娜 赵迪 《计算机应用》 北大核心 2025年第6期1817-1826,共10页
针对超关系知识图谱中限定符会为主三元组引入无关噪声的问题,提出一种融合噪声过滤的超关系知识图谱补全方法(HRNF)。首先,为了有效增强超关系事实,构建特征增强模块;同时,利用卷积神经网络(CNN)提取普通三元组特征,并通过异构图神经网... 针对超关系知识图谱中限定符会为主三元组引入无关噪声的问题,提出一种融合噪声过滤的超关系知识图谱补全方法(HRNF)。首先,为了有效增强超关系事实,构建特征增强模块;同时,利用卷积神经网络(CNN)提取普通三元组特征,并通过异构图神经网络(HGNN)捕获超关系事实中的复杂关系特征;其次,融合这2种特征,利用普通三元组的稳定性与可靠性增强超关系事实中主三元组的信息,减少限定符引入噪声的影响;再次,为了更准确地融合特征表示,构建相关性感知模块;同时,利用图注意力网络(GATv2),通过动态学习不同节点间的权重更新增强后的特征表示;继次,为了捕获复杂的语义信息,构建语义增强模块;最后利用Transformer模型,通过自注意力机制捕获序列中任意2个元素之间的依赖关系,从而生成最终的预测序列。为了验证HRNF的有效性,在2个常用的数据集Wikipeople和JF17K上进行广泛的实验。结果表明,相较于基线方法中较优的GRAN(GRAph-based N-ary relational learning),在预测主三元组实体时,HRNF在Wikipeople数据集上的平均倒数排名(MRR)、Hits@1和Hits@10分别提升了0.6、1.1和1.8个百分点,在JF17K数据集上的MRR、Hits@1和Hits@10分别提升了0.5、0.7和2.9个百分点。以上这些显著提升证明了HRNF在处理超关系知识图谱补全任务中可以有效地缓解限定符带来的噪声问题。 展开更多
关键词 噪声过滤 限定符 超关系事实 超关系知识图谱补全 普通三元组
在线阅读 下载PDF
基于连续帧信息融合建模的小样本视频行为识别方法
6
作者 张冰冰 李海波 +1 位作者 马源晨 张建新 《河南理工大学学报(自然科学版)》 北大核心 2025年第4期11-20,共10页
目的为克服现有基于小样本学习的视频行为识别方法在全局时空信息获取及复杂行为建模方面的局限,开发一种新型网络架构,以显著提升小样本学习在视频行为识别中的准确性和鲁棒性。方法提出一种结合连续帧信息融合模块和多维注意力建模模... 目的为克服现有基于小样本学习的视频行为识别方法在全局时空信息获取及复杂行为建模方面的局限,开发一种新型网络架构,以显著提升小样本学习在视频行为识别中的准确性和鲁棒性。方法提出一种结合连续帧信息融合模块和多维注意力建模模块的网络架构。连续帧信息融合模块位于网络的输入端,多维注意力建模模块则设置在网络的中间层,整个网络基于2D卷积模型设计,可有效降低计算复杂度。结果在Something-Something V2,Kinetics-100,UCF101和HMDB51共4个主流行为识别数据集上进行实验,结果表明,所提方法在Something-Something V2数据集上的1-shot和5-shot任务中准确率分别达到50.8%和68.5%;在Kinetics-100数据集上,所提方法的1-shot和5-shot任务准确率分别为68.5%和83.8%,比现有方法显著提升;在UCF101数据集上,本文方法的1-shot任务准确率为81.3%,5-shot任务准确率为93.8%,在不同配置下均显著优于基线方法的;在HMDB51数据集上,1-shot任务的准确率为56.0%,5-shot任务的准确率为74.4%,展现了良好的泛化性能。结论连续帧信息融合建模网络在提高模型对复杂时空信息处理能力方面表现出显著优势,本文解决方案为小样本视频行为识别领域带来了有效的新方法,且具有高效性和实用性。 展开更多
关键词 小样本学习 视频行为识别 时空建模 时空表征学习 连续帧信息
在线阅读 下载PDF
基于二阶时空自适应的小样本视频行为识别方法
7
作者 张冰冰 李海波 +1 位作者 马源晨 张建新 《河南理工大学学报(自然科学版)》 北大核心 2025年第5期43-51,共9页
目的在小样本视频行为识别的研究领域中,现有方法普遍面临全局时空信息处理不足的挑战。这些方法通常依赖大量的标注数据训练深度模型,但在只有少量训练样本可用的情况下,它们往往难以有效捕捉和利用视频数据中的时空动态。方法针对此问... 目的在小样本视频行为识别的研究领域中,现有方法普遍面临全局时空信息处理不足的挑战。这些方法通常依赖大量的标注数据训练深度模型,但在只有少量训练样本可用的情况下,它们往往难以有效捕捉和利用视频数据中的时空动态。方法针对此问题,提出一种新的包含时空自适应模块和协方差聚合模块的二阶时空自适应网络架构,以提升小样本学习在视频行为识别任务上的准确性和鲁棒性。时空自适应模块能根据视频内容的变化动态聚合局部和全局时空信息,从而优化全局信息的提取流程。协方差聚合模块利用二阶统计方法增强视频的全局时空特征表达,提供更加鲁棒的视频全局表征。结果在4个主流的视频行为识别基准数据集上进行广泛实验,结果表明,所提方法在Something-SomethingV2数据集上的1-shot和5-shot任务中,准确率分别达到52.2%和72.4%,显著超过基线模型。在Kinetics100,UCF101和HMDB51数据集上,同样表现出色,充分证明了其在小样本视频行为识别中的有效性和实用性。结论提出的二阶时空自适应网络有效提升了小样本视频行为识别的准确性和鲁棒性,特别是在处理复杂时空信息方面表现出显著优势,为该领域提供了一种创新且有效的解决方案。 展开更多
关键词 小样本学习 视频行为识别 时空表征学习 时序建模 协方差聚合
在线阅读 下载PDF
基于改进YOLOv5s的青稞病虫害检测方法
8
作者 陈佳豪 汪语哲 +1 位作者 段晓东 梁凯华 《中国农机化学报》 北大核心 2025年第5期162-168,共7页
青稞病虫害检测过程中,目标具有不同尺度、重叠遮挡、模型复杂度高以及实时性差,难以在边缘计算设备上部署等问题,基于此,提出一种多尺度轻量化YOLOv5s的改进方法。首先,使用EfficientViT替换YOLOv5s中的主干网络,通过在主干网络中引入... 青稞病虫害检测过程中,目标具有不同尺度、重叠遮挡、模型复杂度高以及实时性差,难以在边缘计算设备上部署等问题,基于此,提出一种多尺度轻量化YOLOv5s的改进方法。首先,使用EfficientViT替换YOLOv5s中的主干网络,通过在主干网络中引入级联的自注意力机制,减少模型复杂程度,同时增加特征提取能力。其次,该方法在模型中引入具有注意力机制的SCP模块,通过聚合空间上的上下文信息,帮助模型更好地提取不同尺度下的特征,在控制参数量提高10%以内的情况下,提高模型对不同尺度病虫害的识别精度。然后,使用C2f替换head部分全部的C3层,进一步提升模型对特征的提取能力。最后,引入具有动态聚焦机制的加权交并比非极大值抑制算法(WIoU)作为损失函数,以此来平衡正负样本。结果表明,相比原始YOLOv5s,改进后的模型参数量减少60%;计算量减少32%,平均精度达到88.7%,平均精度提高2.3%;与主流目标检测算法,如Fast R—CNN、SSD,YOLO系列等模型相比,改进后的融合多尺度的轻量化模型在提升检测精度的同时,降低模型的复杂程度。 展开更多
关键词 青稞病虫害 目标检测 EfficientViT 多尺度特征融合 轻量化
在线阅读 下载PDF
基于多任务学习的桃园环境检测方法研究
9
作者 汪语哲 李卓徽 段晓东 《中国农机化学报》 北大核心 2025年第10期146-152,160,共8页
桃园场景复杂,为辅助农业机器人更好地感知环境,快速精准识别桃园中的桃子和道路,针对当前现有的模型任务单一、检测精度低和推理速度慢等实际问题,改进YOLOv5n并提出一种高效的多任务学习网络MTL-YOLO,同时完成目标检测和语义分割两类... 桃园场景复杂,为辅助农业机器人更好地感知环境,快速精准识别桃园中的桃子和道路,针对当前现有的模型任务单一、检测精度低和推理速度慢等实际问题,改进YOLOv5n并提出一种高效的多任务学习网络MTL-YOLO,同时完成目标检测和语义分割两类任务。首先,在YOLOv5n的基础上添加可行驶区域分割检测头,实现对桃子和桃园道路的检测;其次,使用轻量级ShuffleNet V2作为MTL-YOLO的主干网络,在保证检测精度的同时大大降低模型计算量;然后,在模型的Neck部分嵌入RepNCSPELAN4模块,替换掉原有的C3模块,增强模型的特征提取能力,并进一步减少模型计算量;最后,提出一种适用于多任务模型的自适应损失权重调整方法,避免手动优化两类任务损失权重的复杂过程并加强两类任务训练的相关性。结果表明,改进后的MTL-YOLO目标检测精度由原算法的82.1%提高到84.7%;语义分割精度比主流的Mask R-CNN和YOLACT算法分别提高0.3%、2.5%;模型的实时推理速度达到110 f/s。 展开更多
关键词 目标检测 语义分割 多任务学习 轻量化 自适应损失函数
在线阅读 下载PDF
联合内容和风格表示的无监督字体生成网络
10
作者 刘宇 丁阳 +3 位作者 Fatimah binti Khalid 李昕 Mas Rina binti Mustaffa Azreen bin Azman 《计算机辅助设计与图形学学报》 北大核心 2025年第5期865-876,共12页
生成包含大量字体的中文字体是具有挑战性的任务,现有方法主要依赖于大量的配对数据进行监督学习,然而收集这些数据是劳动密集型的工作,且很难扩展到新风格字体.为辅助字体设计师提高计算机汉字字库开发效率,提出分离字体内容和风格表... 生成包含大量字体的中文字体是具有挑战性的任务,现有方法主要依赖于大量的配对数据进行监督学习,然而收集这些数据是劳动密集型的工作,且很难扩展到新风格字体.为辅助字体设计师提高计算机汉字字库开发效率,提出分离字体内容和风格表示的无监督字体生成网络.首先,将风格和内容表示在同一域中建立密集的语义对应,指导解码器产生高质量的输出;然后,在跳跃连接中引入可变形卷积,通过学习偏移量和通道之间的相互依赖性,使网络更加注字体的结构特征;最后,设计多尺度风格判别器,在不同尺度上评估生成图像的风格一致性.在公开的数据集上展示并分析FUNIT, MX-Font和DG-Font等5种字体生成方法的生成效果,实验结果表明在L1, RMSE等评估指标和用户研究实验中均优于对比的方法. 展开更多
关键词 汉字字体生成 可变形卷积 无监督学习 跨域语义对应
在线阅读 下载PDF
基于多特征融合的中文医疗关系抽取
11
作者 赵丹丹 张志浩 +3 位作者 孟佳娜 苏文 龙迎春 张俊朋 《中文信息学报》 北大核心 2025年第7期72-81,共10页
医疗关系抽取可以识别医疗文本中实体间的关系,在医疗领域中发挥了积极作用。然而现有的关系抽取模型没有充分利用文本的全部特征,如文本的层次结构信息。该文提出了一种多特征融合模型(Multi Feature Fusion model,MFF),在使用实体类... 医疗关系抽取可以识别医疗文本中实体间的关系,在医疗领域中发挥了积极作用。然而现有的关系抽取模型没有充分利用文本的全部特征,如文本的层次结构信息。该文提出了一种多特征融合模型(Multi Feature Fusion model,MFF),在使用实体类型标记方法处理文本中的主体和客体的基础上,使用BERT获取语义信息,并使用双向长短时记忆网络(Bidirectional Long Short Term Memory,BiLSTM)获取上下文信息,通过图卷积网络(Graph Convolutional Network,GCN)提取多种剪枝策略下的句法依存树中的层次结构信息,最后将获取的多种特征进行融合后完成关系抽取任务。在两个中文医疗实体关系抽取数据集CMeIE和TCM上进行实验,与其他先进模型相比,其F1值有所提高,证明了模型的有效性。该文的代码开源到https://github.com/zzhdbw/RE_MFF,供复现与参考。 展开更多
关键词 关系抽取 图卷积网络 句法依存树
在线阅读 下载PDF
基于数据增强和扩张卷积的ICD编码分类 被引量:3
12
作者 闫婧 赵迪 +1 位作者 孟佳娜 林鸿飞 《计算机应用研究》 CSCD 北大核心 2024年第11期3329-3336,共8页
针对ICD编码分类任务存在的标签分布不平衡、临床记录文本过长和标签空间庞大等问题,提出一种基于数据增强和扩张卷积的ICD编码分类方法。首先,引入预训练模型BioLinkBERT,在生物医学领域采用无监督学习方式进行训练,以缓解域不匹配问题... 针对ICD编码分类任务存在的标签分布不平衡、临床记录文本过长和标签空间庞大等问题,提出一种基于数据增强和扩张卷积的ICD编码分类方法。首先,引入预训练模型BioLinkBERT,在生物医学领域采用无监督学习方式进行训练,以缓解域不匹配问题;其次,运用Mixup数据增强技术扩充隐藏表示,从而增加数据多样性及提升模型分类的鲁棒性,解决标签分布不平衡问题;最后,利用多粒度扩张卷积有效捕获文本数据中的长距离依赖关系,避免因输入文本过长影响模型效果。实验结果表明,该模型在MIMIC-Ⅲ数据集的两个子集上与多种方法进行比较,相较于基准模型的F_1值和precision@k值分别提升0.4%~1.5%和1.2%~1.6%。因此,本研究为解决ICD编码分类中的挑战提供有效的解决方案。 展开更多
关键词 ICD编码分类 BioLinkBERT预训练模型 Mixup数据增强 扩张卷积
在线阅读 下载PDF
基于时空信息辅助监督的语言-视频对比学习模型 被引量:2
13
作者 张冰冰 张建新 李培华 《计算机学报》 EI CAS CSCD 北大核心 2024年第8期1769-1785,共17页
同时使用语言和图像两种模态信息的神经网络模型在计算机视觉领域取得了很大进展.一些将其用于视频识别任务的工作,存在未考虑视频中丰富的时间-空间信息、用于描述类别的文本过于简单等不足.对此,本文提出了基于时空辅助信息监督的语言... 同时使用语言和图像两种模态信息的神经网络模型在计算机视觉领域取得了很大进展.一些将其用于视频识别任务的工作,存在未考虑视频中丰富的时间-空间信息、用于描述类别的文本过于简单等不足.对此,本文提出了基于时空辅助信息监督的语言-视频对比学习模型.对于视频编码,提出了基于类别词元的时序加权位移模块进行时序建模,使得时序信息在网络从底层到高层的各个层次传播;而且还提出了时空信息辅助监督模块,深入挖掘视觉词元中蕴含的丰富时空信息.对于语言编码,提出了一种基于大语言模型的提示学习方法,对行为类别文本描述进行扩展,生成具有丰富上下文语义信息的文本描述.实验部分,本文提出的模型在4个视频行为识别数据集mini-Kinetics-200、Kinetics-400、UCF101和HMDB51上,达到了优于当前最先进方法或与当前最先进方法识别准确率相当的水平,比基线方法的识别准确率分别提升了2.5%、0.3%、0.6%和2.4%. 展开更多
关键词 行为识别 多模态模型 时序建模 时空信息辅助监督 提示学习
在线阅读 下载PDF
细粒度文本引导的跨模态风格迁移 被引量:1
14
作者 孙世昶 魏爽 +3 位作者 孟佳娜 林鸿飞 肖文浩 刘爽 《中文信息学报》 CSCD 北大核心 2024年第12期170-180,共11页
借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果。然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰... 借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果。然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰。该文提出细粒度文本引导的跨模态风格迁移模型,通过利用文本中包含的区域信息来实现局部可控的风格迁移。首先,通过基于BERT的文本语义分类网络对目标风格文本包含的语义区域进行定位,然后利用特征映射网络将目标文本的CLIP特征嵌入到SemanticStyleGAN的潜在空间。文本语义分类网络和特征映射网络的结合使得目标文本的CLIP特征细粒度地嵌入到可编辑的潜在空间。最后通过对生成的风格化图像进行随机透视增强来解决训练中的对抗生成问题。实验表明,该方法能够生成更贴近文本描述风格的图像,并提高了跨模态编辑的区域准确性。 展开更多
关键词 风格迁移 多模态预训练模型 文本语义分类
在线阅读 下载PDF
基于语言-视觉对比学习的多模态视频行为识别方法 被引量:3
15
作者 张颖 张冰冰 +3 位作者 董微 安峰民 张建新 张强 《自动化学报》 EI CAS CSCD 北大核心 2024年第2期417-430,共14页
以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模... 以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模态视频表达.具体地,在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM),首先,由视频采样帧的类别分词做线性变换得到虚拟帧分词;然后,对其进行基于时序卷积和虚拟帧分词移位的时序建模操作,有效建模视频中的时空变化信息;最后,在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module,VPM),通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达.在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果,验证了该多模态模型的有效性和泛化性. 展开更多
关键词 视频行为识别 语言-视觉对比学习 多模态模型 时序建模 提示学习
在线阅读 下载PDF
基于深度学习的3D目标检测算法综述 被引量:2
16
作者 张新宇 徐子贤 +2 位作者 闫冬梅 沙晓鹏 顾德英 《控制工程》 CSCD 北大核心 2024年第3期526-534,共9页
随着自动驾驶领域对目标检测的精度和速度需求的提高,目标检测的研究从传统检测算法转向深度学习方向。由于2D目标检测算法存在小目标丢失等问题,基于深度学习的3D目标检测算法以能提供物体的位置、尺寸和方向等一些空间结构信息的优势... 随着自动驾驶领域对目标检测的精度和速度需求的提高,目标检测的研究从传统检测算法转向深度学习方向。由于2D目标检测算法存在小目标丢失等问题,基于深度学习的3D目标检测算法以能提供物体的位置、尺寸和方向等一些空间结构信息的优势,迅速在自动驾驶领域发展起来。首先,简单陈述了2D目标检测算法,将3D目标检测算法分成5个类别,分析了各类目标检测算法的优缺点;然后,详述了最新被提出的基于图神经网络(graph neural network, GNN)的2种算法;最后,对3D目标检测所应用的领域和其研究意义进行总结,并对3D目标检测今后可能发展的方向做出猜想。 展开更多
关键词 自动驾驶 深度学习 3D目标检测 图神经网络
在线阅读 下载PDF
面向视频行为识别深度模型的数据预处理方法 被引量:1
17
作者 安峰民 张冰冰 +1 位作者 董微 张建新 《计算机工程》 CAS CSCD 北大核心 2024年第2期281-287,共7页
以视频帧采样和数据增强为代表的预处理操作是提升视频行为识别深度模型性能的重要手段。针对现有视频数据预处理存在的采样视频帧区分性不足、数据增强方式单一等问题,提出一种面向视频行为识别深度模型的数据预处理方法。在视频帧采... 以视频帧采样和数据增强为代表的预处理操作是提升视频行为识别深度模型性能的重要手段。针对现有视频数据预处理存在的采样视频帧区分性不足、数据增强方式单一等问题,提出一种面向视频行为识别深度模型的数据预处理方法。在视频帧采样上设计动作指导的片段化视频采样策略,综合考虑视频帧间差异特征与视频片段短期时序特征,通过显著行为动作获取关键视频帧并对其邻近视频帧进行采样,有效提高所选取视频帧的时空区分能力。借鉴图像分类中的随机数据增强方法,以随机数据增强方式对采样后视频短片段进行数据增强处理,使视频识别深度模型学习到更复杂的空间变化信息。根据2个公开的视频识别数据集和2个代表性的网络模型的评估实验结果表明,所提预处理方法可以使基准模型获得2.5个百分点以上的准确率提升,最高可提升6.8个百分点。上述实验结果验证了所提预处理方法在视频行为识别任务中的有效性。 展开更多
关键词 视频行为识别 预处理方法 动作指导的片段化视频采样 数据增强 深度学习
在线阅读 下载PDF
异构微差同步并行训练算法
18
作者 黄山 吴煜凡 +1 位作者 吕鹤轩 段晓东 《计算机工程与科学》 CSCD 北大核心 2024年第11期1949-1959,共11页
前馈神经网络BPNN因具有非线性能力强、自学习能力强、自适应能力强以及容错能力强等优点,被广泛应用于行为识别和预测等领域。随着模型的升级优化和数据量的快速增长,基于大数据分布式计算框架的并行训练架构成为主流。ApacheFlink作... 前馈神经网络BPNN因具有非线性能力强、自学习能力强、自适应能力强以及容错能力强等优点,被广泛应用于行为识别和预测等领域。随着模型的升级优化和数据量的快速增长,基于大数据分布式计算框架的并行训练架构成为主流。ApacheFlink作为新一代大数据计算框架,因其具有高吞吐量、低时延等特点而被广泛应用。硬件设备更新换代速度的加快以及购买批次不同导致现实生活中Flink集群大多数为异构集群,意味着集群中的计算资源不均衡。现有的BPNN并行训练模型无法解决因计算资源不均衡带来的训练过程中高性能节点空转的问题。此外,异构环境下BPNN的并行训练还存在节点数量增加,节点间的通信开销也随之增加的问题。传统的小批量梯度下降方法拥有较好的寻优效果,但随机的初始化模型和小批量的梯度下降特点导致了BPNN并行化训练出现收敛速度缓慢的问题。针对以上问题,为加快异构环境下BPNN并行化训练速度,提高BPNN并行训练效率,提出了异构微差同步并行训练算法。该算法能够针对异构环境下节点性能不同的情况,对节点性能进行评分,并实时地通过数据分区模块动态地按比例分配数据,使节点性能和节点分配数据量成正比,从而减少高性能节点空转时长。 展开更多
关键词 Flink BPNN 并行训练 异构环境
在线阅读 下载PDF
动态-静态混合的时序蛋白质网络构建方法 被引量:3
19
作者 代启国 郭茂祖 +1 位作者 刘晓燕 王春宇 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2016年第11期41-46,共6页
目前已公开的蛋白质网络多为静态网络,不能有效描述细胞中蛋白质的动态活动特点.通过融合基因表达数据,研究人员可以构建出描述蛋白质动态性的时序蛋白质网络.现有方法假设所有蛋白质都是动态变化的,而事实上除动态蛋白质外细胞中还包... 目前已公开的蛋白质网络多为静态网络,不能有效描述细胞中蛋白质的动态活动特点.通过融合基因表达数据,研究人员可以构建出描述蛋白质动态性的时序蛋白质网络.现有方法假设所有蛋白质都是动态变化的,而事实上除动态蛋白质外细胞中还包含相对稳定的静态蛋白质.为此,提出了一种基于动态-静态蛋白质混合的时序网络构建新方法.该方法根据基因表达变化情况将蛋白质分为动态和静态两类,并在构建各时刻网络时考虑动态与静态蛋白质之间的相互作用关系.实验结果表明,利用本文方法构建的时序蛋白质网络可以提高蛋白质复合体识别的准确性,从而验证了本文方法的可行性. 展开更多
关键词 时序蛋白质网络 蛋白质相互作用 基因表达 生物网络 蛋白质复合体识别
在线阅读 下载PDF
三维模型面片链码表示方法 被引量:3
20
作者 魏巍 刘勇奎 +1 位作者 段晓东 郭晨 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2017年第3期537-548,共12页
将三维模型的三角面片表示与基于体素的链码技术相结合,提出一种基于体素的三维模型面片链码表示方法.首先对三维模型进行基于体素空间的切分,将获得的面片顶点归一化在体素顶点上,构造基于体素三角面片的模型表示;然后依据构造的体素... 将三维模型的三角面片表示与基于体素的链码技术相结合,提出一种基于体素的三维模型面片链码表示方法.首先对三维模型进行基于体素空间的切分,将获得的面片顶点归一化在体素顶点上,构造基于体素三角面片的模型表示;然后依据构造的体素三角面片间连接边与第3顶点的位置关系定义面片链码的数据结构;再根据连接边的类型和方向计算层次三角面片法向量的大小和方向;最后通过逐层遍历体素内归一化的三角面片,获得三维模型的面片链码表示.相应地,给出了面片链码的解码方法.文中比较了面片链码与其他三维模型压缩算法的压缩效率和时间开销,计算了不同体素粒度切分的三维模型与被切分的原始模型之间以及与体素切分模型具有同级别面片数量的原始模型之间的误差,结果表明,该方法能够有效地表达三维模型. 展开更多
关键词 体素 面片链码 连接边 三维模型
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部