期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
视频问答技术研究进展 被引量:1
1
作者 包翠竹 丁凯 +3 位作者 董建峰 杨勋 谢满德 王勋 《计算机研究与发展》 EI CSCD 北大核心 2024年第3期639-673,共35页
视频问答(video question answering,VideoQA)根据视频内容自动回答自然语言问题,是视觉语言领域较为新兴的一个研究方向,近年来引起了广泛关注.VideoQA问题的解决对于人机交互、智慧教育、智能交通、场景分析以及视频检索等各个领域都... 视频问答(video question answering,VideoQA)根据视频内容自动回答自然语言问题,是视觉语言领域较为新兴的一个研究方向,近年来引起了广泛关注.VideoQA问题的解决对于人机交互、智慧教育、智能交通、场景分析以及视频检索等各个领域都有着重大意义.VideoQA是一项具有挑战性的任务,因为它需要模型同时理解视频与文本内容来生成问题的答案.首先,分析了VideoQA与图像问答(image question answering,ImageQA)的区别,总结了当下VideoQA相对于ImageQA所面临的4个挑战;然后,围绕着这些挑战对目前现有VideoQA模型进行了细致的分类,并重点介绍了模型的实现及不同模型之间的关联;接着详细介绍了在VideoQA中常用的基准数据集及目前主流算法在部分数据集上的性能,并进行了对比与分析;最后,讨论了该领域未来面临的挑战和研究趋势,为未来进一步研究提供一些思路. 展开更多
关键词 视频问答 注意力 记忆网络 循环神经网络 图网络模型 预训练模型
在线阅读 下载PDF
一种基于元学习的改进YOLO钢管表面缺陷小样本检测模型 被引量:3
2
作者 李凌波 田彦 +1 位作者 江旭东 董宝力 《机电工程》 北大核心 2025年第5期985-993,共9页
针对产品表面缺陷样本数稀缺时的深度学习缺陷检测效果不佳问题,提出了一种基于元学习策略的改进YOLO-SBN模型,用于小样本缺陷检测。首先,为了提高提取全局特征信息的能力,采用了Swin Transformer作为骨干网络模型,引入注意力机制提取... 针对产品表面缺陷样本数稀缺时的深度学习缺陷检测效果不佳问题,提出了一种基于元学习策略的改进YOLO-SBN模型,用于小样本缺陷检测。首先,为了提高提取全局特征信息的能力,采用了Swin Transformer作为骨干网络模型,引入注意力机制提取了特征图的判别能力;然后,为了提高特征融合能力并降低计算复杂度,通过加权双向特征金字塔网络(BiFPN)结构优化了特征提取器的颈部网络,平衡了YOLO-SBN模型的有效性和效率;最后,采用归一化注意力模块(NAM)优化权重调整了模块,增强了浅层缺陷特征的模型表达,并基于这些增强的特征进行了检测;使用金属表面热轧缺陷公开数据集NEU-DET验证了YOLO-SBN模型的算法性能。研究结果表明:对于小样本缺陷检测,YOLO-SBN模型在平均准确率(mAP)方面提高了4.1%;在新类缺陷样本规模数量为50的小样本情况下,改进后的检测模型对新类数据适应性最强。由此可见,该YOLO-SBN模型在提高检测精度和提升模型泛化能力方面具有一定优势。 展开更多
关键词 小样本目标检测 表面缺陷 元学习 特征网络 归一化注意力模块 平均准确率 双向特征金字塔网络(BiFPN)
在线阅读 下载PDF
深度上下文动态点云几何压缩
3
作者 江照意 郑晟豪 杨柏林 《计算机辅助设计与图形学学报》 北大核心 2025年第4期605-614,共10页
现有的动态点云压缩方法采用预测编码的框架,通过对当前帧点云进行预测计算预测帧与当前帧的残差并进行编码,但由于使用残差编码消除帧间冗余,在运动比较剧烈和内容细节丰富的区域压缩效果欠佳.针对此缺陷,使用条件编码替代传统的预测编... 现有的动态点云压缩方法采用预测编码的框架,通过对当前帧点云进行预测计算预测帧与当前帧的残差并进行编码,但由于使用残差编码消除帧间冗余,在运动比较剧烈和内容细节丰富的区域压缩效果欠佳.针对此缺陷,使用条件编码替代传统的预测编码,提出一个基于条件编码的深度上下文动态点云几何压缩方法.首先构建一个特征空间多尺度场景流网络,用于计算动态点云的运动向量,以提高运动估计的精度;然后通过上下文生成模块构造上下文信息,并且直接以此信息为条件对当前帧点云进行编码和解码;最后融合时间先验与超先验信息,设计一个基于上下文信息的熵模型,用于估计点云的条件概率分布,提高熵编码效率.以率失真曲线的BD-rate作为性能指标,与D-DPCC相比,在8iVFB数据集上,所提方法的平均比特率降低13.62%;在MVUB数据集上,该方法的平均比特率降低15.15%;压缩性能得到显著提升. 展开更多
关键词 上下文信息 条件编码 动态点云压缩 场景流估计
在线阅读 下载PDF
基于SfM与Instant-NGP的田间大豆植株三维重建方法 被引量:1
4
作者 曹鑫 秦绪佳 徐晓刚 《农业工程学报》 北大核心 2025年第1期171-180,共10页
针对以往田间环境下大豆植株三维重建过程中存在的数据采集设备成本较高、重建阶段耗时较长等问题,该研究提出一种基于运动检测自适应抽帧、运动恢复结构(structure from motion,SfM)与即时神经图形原语(instant neural graphics primit... 针对以往田间环境下大豆植株三维重建过程中存在的数据采集设备成本较高、重建阶段耗时较长等问题,该研究提出一种基于运动检测自适应抽帧、运动恢复结构(structure from motion,SfM)与即时神经图形原语(instant neural graphics primitives,Instant-NGP)的田间大豆植株三维重建方法SfM-INGP。该方法旨在提供一套低成本、高效率且高质量的田间大豆植株三维重建方案。首先,在田间环境下利用消费级智能手机环绕拍摄大豆植株全景视频,并基于运动检测的自适应速率抽帧方式获取大豆植株多视角图像序列,以减少冗余数据并提升计算效率;其次,利用SfM算法从多视角图像中恢复相机位姿,生成稀疏点云,为后续重建提供位姿信息;最后,通过Instant-NGP算法对含有位姿信息的大豆植株图像进行多分辨率哈希编码,将其输入小型多层感知机进行训练,以完成高效的三维重建。试验结果表明,在重建效率方面,与多视图立体视觉(motion-multi view stereo,MVS)和神经辐射场(neural radiance fields,NeRF)方法相比,SfM-INGP的平均重建时间为2.82 min,分别大幅缩短90.7%和99.4%;在重建质量方面,SfM-INGP的平均峰值信噪比为24.47 dB,较MVS和NeRF分别有效提高15.4%和9.3%;在重建精度方面,SfM-INGP的均方误差为0.15,显著低于MVS的0.46和NeRF的0.37;在计算资源消耗方面,SfM-INGP的平均显存消耗为6.57 GB,虽略高于MVS的5.73 GB,但远低于NeRF的14.81 GB,展现了SfM-INGP方法在重建效率、质量、精度与计算资源消耗之间的良好平衡。该研究提出的方法在实际农业田间环境下通过低成本的数据采集设备,实现了高效率且高质量的田间大豆植株三维重建,为大豆信息化育种平台建设提供了重要的技术支持和数据基础,在其他田间作物的三维重建中具有广泛应用潜力,为未来大规模农业信息化建设提供可行性方案。 展开更多
关键词 图像处理 三维重建 大豆 Instant-NGP SFM 神经辐射场
在线阅读 下载PDF
基于对比学习的数据高效视频检索
5
作者 凌非 余京涛 +4 位作者 朱哲燕 罗剑 朱继祥 陈先客 董建锋 《图学学报》 北大核心 2025年第3期491-501,共11页
视频检索系统的性能很大程度上依赖标注数据,而在提高性能的同时减少对高昂手工标注的依赖是一个关键问题。为此,提出了一种基于对比学习的数据高效视频检索方法,包括2个关键的优化策略。首先,为构建更加多样且有效的学习数据,提出了基... 视频检索系统的性能很大程度上依赖标注数据,而在提高性能的同时减少对高昂手工标注的依赖是一个关键问题。为此,提出了一种基于对比学习的数据高效视频检索方法,包括2个关键的优化策略。首先,为构建更加多样且有效的学习数据,提出了基于内容感知的特征级别数据增强,利用基于帧间相似度的K-近邻算法来捕获深层语义信息,减少标注数据依赖。其次,设计了长-短动态采样策略,通过从视频中提取长片段及其内部短片段,使其能够构造具有多尺度信息的正样本对以进行更加有效的对比学习,同时通过动态调整采样长度来提高数据利用率。在SVD和UCF101数据集上的实验结果表明,该方法显著优于现有检索模型。大量消融实验证明,基于内容感知的特征级数据增强能提升模型适应性;长-短动态采样不仅适用于自监督学习,还能提升半监督模型性能。 展开更多
关键词 对比学习 内容感知 特征增强 视频检索 视频表征学习
在线阅读 下载PDF
YGL-SLAM:动态场景下基于点和线的语义SLAM系统
6
作者 戴康佳 徐慧英 +4 位作者 朱信忠 李悉钰 黄晓 陈国强 张志雄 《计算机工程》 北大核心 2025年第3期95-104,共10页
传统的视觉同步定位与建图(SLAM)系统是基于静态环境这一假设的,然而在现实场景中往往存在动态物体,这可能导致SLAM位姿估计和地图构建的精度下降、鲁棒性变差,甚至出现跟踪丢失的情况。针对上述问题,基于ORB-SLAM2提出新的语义SLAM系统... 传统的视觉同步定位与建图(SLAM)系统是基于静态环境这一假设的,然而在现实场景中往往存在动态物体,这可能导致SLAM位姿估计和地图构建的精度下降、鲁棒性变差,甚至出现跟踪丢失的情况。针对上述问题,基于ORB-SLAM2提出新的语义SLAM系统(YGL-SLAM)。该系统首先使用轻量级目标检测算法YOLOv8n追踪动态对象,获得动态对象的语义信息。然后在跟踪线程的同时提取点特征和线特征,根据获取的语义信息利用Z-score和对极几何算法剔除动态特征,以改进SLAM在动态场景中的表现。此外,鉴于轻量级目标检测算法在追踪动态对象时存在连续帧的漏检测问题,设计了基于相邻帧的检测补偿方法。在公开数据集TUM和Bonn上的测试结果表明,相比ORB-SLAM2,YGL-SLAM系统准确率提升超过90%,对比其他动态SLAM,YGL-SLAM也具有较高的准确度和鲁棒性。 展开更多
关键词 动态场景 语义同步定位与建图 线特征 深度学习 YGL-SLAM系统
在线阅读 下载PDF
基于红外油墨标记的舞台演员跟踪算法
7
作者 李平 陈书界 +4 位作者 王登辉 刘钟淋 王勋 周迪 丁勇 《浙江大学学报(理学版)》 北大核心 2025年第1期50-58,共9页
随着深度学习技术的不断成熟,基于深度学习的多目标跟踪研究取得了巨大进展。在良好光照条件下,现有基于深度学习的多目标跟踪算法能实现实时、稳定跟踪。然而,在极限光照与遮挡严重的舞台演出环境中,对舞台演员的稳定跟踪仍然面临巨大... 随着深度学习技术的不断成熟,基于深度学习的多目标跟踪研究取得了巨大进展。在良好光照条件下,现有基于深度学习的多目标跟踪算法能实现实时、稳定跟踪。然而,在极限光照与遮挡严重的舞台演出环境中,对舞台演员的稳定跟踪仍然面临巨大挑战。舞台演出存在演员表观相似、光照变化剧烈、遮挡频繁等问题,直接使用现有跟踪算法因演员身份切换频繁,导致基于演员跟踪的下游工作,如演员动作识别、虚实投影等无法有效开展。为此,提出了一种基于近红外油墨的舞台演员跟踪算法。由于舞台光源能量谱集中在可见光波段,红外光环境较干净,因此,在红外波段设计了一种抗遮挡、隐形的(可见光下不可见)油墨标记,以增强演员表观辨识度,即将红外油墨以二值环形码方式添加在演员服饰上,将环形码对应的类别标签作为关联演员ID,实现对舞台演员的稳定跟踪。在仿真与真实的标记数据集上的实验结果表明,基于红外油墨的二值环形码在60%的遮挡率下仍能达到90%以上的识别准确率,具有很好的抗遮挡性能。演员跟踪实验结果表明,基于交集比指标的帧内数据关联算法能提升ID跟踪轨迹的稳定性,将其应用于现有跟踪模型,ID的召回率和准确率均得到了较大提升。在不影响舞台演出与观演体验的前提下,解决了舞台暗光、演员表观相似导致的跟踪不稳定问题,且算法成本低、可行性高,在舞台演艺行业具有广泛的应用前景。 展开更多
关键词 多目标跟踪 舞台演出 红外标记 抗遮挡 ID稳定
在线阅读 下载PDF
多无人机变时域分布式模型预测控制
8
作者 朱俊威 应良焕 +2 位作者 侯鑫 宣琦 李家鑫 《小型微型计算机系统》 北大核心 2025年第4期810-817,共8页
本文针对具有避碰和避障功能的四旋翼无人机系统的轨迹跟踪和编队问题,提出了一种基于收缩约束的变时域分布式模型预测控制(VDMPC)算法.首先,以实际四旋翼为控制对象,建立单机解耦线性时变模型及编队控制框架.在考虑多约束条件下,以编... 本文针对具有避碰和避障功能的四旋翼无人机系统的轨迹跟踪和编队问题,提出了一种基于收缩约束的变时域分布式模型预测控制(VDMPC)算法.首先,以实际四旋翼为控制对象,建立单机解耦线性时变模型及编队控制框架.在考虑多约束条件下,以编队轨迹跟踪与队形保持为控制目标,并对该两项目标权重自适应调整,以实现队形反馈控制.此外,将多步控制李雅普诺夫函数纳入DMPC方案中,其优化问题采用具有代价函数最小的可变长度的block优化策略,进而应用收缩约束保证了整个闭环系统的稳定性.该方法对优化问题求解计算量和控制性能方面作了最优权衡,提高了滚动优化效率,也避免了传统MPC稳定性中终端成分的设计.最后,通过多无人机仿真验证了所提算法的有效性. 展开更多
关键词 四旋翼无人机 编队控制 变时域分布式模型预测控制 收缩约束 block优化策略
在线阅读 下载PDF
轻量化的低成本海洋机器人深度估计方法EDepth
9
作者 陈东烁 柴春来 +1 位作者 叶航 张思赟 《计算机应用》 北大核心 2025年第S1期106-113,共8页
针对传统单目深度估计方法在海洋环境中存在的精度低、鲁棒性差、运行速度慢和难以部署等问题,提出一种轻量化的海洋机器人深度估计方法,命名为EDepth(EfficientDepth)。该方法旨在提升低成本海洋机器人的三维(3D)感知能力。首先,利用... 针对传统单目深度估计方法在海洋环境中存在的精度低、鲁棒性差、运行速度慢和难以部署等问题,提出一种轻量化的海洋机器人深度估计方法,命名为EDepth(EfficientDepth)。该方法旨在提升低成本海洋机器人的三维(3D)感知能力。首先,利用水下光衰减先验,通过空间转换将输入数据从原始RGB(Red-Green-Blue)图像空间映射到RBI(Red-BlueIntensity)输入域,从而提高深度估计的准确性;其次,采用高效的EfficientFormerV2作为特征提取模块,并结合视觉注意力机制MiniViT(Mini Vision Transformer)和光衰减模块实现深度信息的有效提取和处理;此外,通过自适应分区的设计,MiniViT模块能够动态调整深度区间,从而提高深度估计的精度;最后,优化网络结构,从而在不牺牲性能的前提下,实现高效的计算。实验结果表明,EDepth在RGB-D(Red-Green-Blue Depth)数据集USOD10K上的深度估计性能显著优于传统方法。具体来说,EDepth在平均绝对相对误差(Abs Rel)上达到了0.587,而DenseDepth为0.519,尽管DenseDepth在某些指标上表现更佳,但相较于DenseDepth的4 461万参数和171.44 MB的内存占用,EDepth仅有461万参数,减少了89.67%的参数量,而内存占用减少至23.56 MB,且在单个CPU上EDepth的每秒帧数(FPS)达到了14.11,明显优于DenseDepth的2.45。可见,EDepth在深度估计性能和计算效率之间取得了良好的平衡。 展开更多
关键词 三维感知 自适应分区 计算效率 EfficientFormerV2 海洋机器人 单目深度估计
在线阅读 下载PDF
基于BERT和Bi-LSTM的题目难度预测:知识点标签增强模型
10
作者 叶航 柴春来 +2 位作者 张思赟 陈东烁 吴霁航 《计算机应用》 北大核心 2025年第S1期37-42,共6页
目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bi... 目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bidirectional Encoder Representations from Transformers)和双向长短时记忆(Bi-LSTM)模型的C语言题目难度预测模型FTKB-BiLSTM(Fusion of Title and Knowledge based on BERT and Bi-LSTM)。首先,利用BERT的中文预训练模型获得题目文本和知识点的词向量;其次,融合模块将融合后的信息通过BERT处理得到文本的信息表示,并输入Bi-LSTM模型中学习其中的序列信息,提取更丰富的特征;最后,把经Bi-LSTM模型得到的特征表示通过全连接层并经过Softmax函数处理得到题目难度分类结果。在Leetcode中文数据集和ZjgsuOJ平台数据集上的实验结果表明,相较于XLNet等主流的深度学习模型,所提模型的准确率更优,具有较强的分类能力。 展开更多
关键词 自然语言处理 深度学习 题目难度预测 BERT 预训练模型
在线阅读 下载PDF
基于BERT和白化矩阵的相似编程题目推荐
11
作者 张思赟 柴春来 +2 位作者 叶航 于晓 陈东烁 《计算机应用》 北大核心 2025年第S1期43-48,共6页
目前大部分题目推荐系统基于人工筛选或利用大数据推荐,较少考虑题目本身的信息。为改善在线教育编程平台的用户体验,在有限的条件下为学生推荐合适的题目,提出一种结合动态词向量优化和文本、标签信息融合的深度学习模型——基于文本... 目前大部分题目推荐系统基于人工筛选或利用大数据推荐,较少考虑题目本身的信息。为改善在线教育编程平台的用户体验,在有限的条件下为学生推荐合适的题目,提出一种结合动态词向量优化和文本、标签信息融合的深度学习模型——基于文本和标签信息融合和BERT白化的长短期记忆网络(TLFBW-LSTM)。首先,利用白化技术优化BERT(Bidirectional Encoder Representations from Transformers)模型生成的词向量;其次,利用孪生网络结构和注意力机制分别融合不同题目的文本和标签数据;最后,设置全连接层计算相似程度。此外,通过动态词向量优化和标签嵌入的方式,增强模型对相似题目的识别能力。在力扣的编程题库数据集上的实验结果表明,动态词向量和异构数据的加入能够有效提高模型对相似题目判断的准确率,与Sentence-BERT和DenoSent方法相比,TLFBW-LSTM的准确率提升了13.41%和13.62%,验证了TLFBW-LSTM的有效性。 展开更多
关键词 推荐 异构数据 预训练模型 白化 文本相似度
在线阅读 下载PDF
基于骨架的人体动作识别技术研究进展 被引量:13
12
作者 刘宝龙 周森 +6 位作者 董建锋 谢满德 周胜利 郑天一 张三元 叶修梓 王勋 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2023年第9期1299-1322,共24页
近年来,随着深度学习技术的发展,已有很多新颖的基于骨架的人体动作识别算法被提出,极大地推动了该领域的发展.对基于骨架的人体动作识别领域的主要数据集和算法进行全面、细致的总结.首先对NTU,Kinet-ics-Skeleton和SYSU 3DHOI等骨架... 近年来,随着深度学习技术的发展,已有很多新颖的基于骨架的人体动作识别算法被提出,极大地推动了该领域的发展.对基于骨架的人体动作识别领域的主要数据集和算法进行全面、细致的总结.首先对NTU,Kinet-ics-Skeleton和SYSU 3DHOI等骨架相关的数据集进行回顾;然后将基于骨架的人体动作识别算法归纳为基于监督学习的、基于半监督学习的和基于无监督学习的3大类,并对分属不同类别的算法进行介绍和比较;最后分析和总结得出该领域当前面临过度依赖大数据、大算力和大模型等挑战,并针对性地提出缓解以上挑战的3点未来发展方向:高精度骨架数据集建设、细粒度骨架动作识别和数据有效学习的骨架动作识别. 展开更多
关键词 动作识别 骨架特征提取 深度学习 图卷积网络
在线阅读 下载PDF
软件跟踪链自动化技术研究综述 被引量:2
13
作者 汪烨 胡坤 +2 位作者 姜波 夏鑫 唐贤书 《计算机学报》 EI CAS CSCD 北大核心 2023年第9期1919-1946,共28页
软件可跟踪性作为软件的一项重要能力,其目的是通过在不同的软件制品之间建立跟踪链,捕获、链接、追踪每一个重要的软件制品.近年来,将信息检索、自然语言处理、机器学习以及深度学习等技术用于软件跟踪链的创建、维护和验证,大大减少... 软件可跟踪性作为软件的一项重要能力,其目的是通过在不同的软件制品之间建立跟踪链,捕获、链接、追踪每一个重要的软件制品.近年来,将信息检索、自然语言处理、机器学习以及深度学习等技术用于软件跟踪链的创建、维护和验证,大大减少了开发人员手动处理跟踪链的成本,因此受到学术界和工业界的广泛关注.在本文中,我们着重从软件跟踪链的自动化创建、维护和验证等方面着手,对近十年来研究进展进行梳理和总结.主要内容包括:(1)统计并分析软件跟踪链创建、维护和验证的自动化方法和技术;(2)对软件跟踪链的应用研究进行总结;(3)汇总了当前软件跟踪链相关技术评估研究和工具支持;(4)从技术难点中归纳得出目前跟踪链相关自动化技术所存在的关键问题,围绕跟踪软件的复杂性、跟踪链的粒度问题、精度问题、类型受限问题、验证效率问题、应用规模和时间问题以及工具评估不全面问题这七个部分,阐述了上述问题的可能解决思路和未来发展趋势. 展开更多
关键词 软件跟踪链 机器学习 人工智能 深度学习 自然语言处理
在线阅读 下载PDF
基于场景流的可变速率动态点云压缩 被引量:1
14
作者 江照意 邹文钦 +2 位作者 郑晟豪 宋超 杨柏林 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第2期279-287,333,共10页
针对现有的动态点云压缩神经网络需要训练多个网络模型的问题,提出基于场景流的可变速率动态点云压缩网络框架.网络以原始动态点云为输入,利用场景流网络进行运动向量估计,在压缩运动向量和残差的同时,引入通道增益模块对隐向量通道进... 针对现有的动态点云压缩神经网络需要训练多个网络模型的问题,提出基于场景流的可变速率动态点云压缩网络框架.网络以原始动态点云为输入,利用场景流网络进行运动向量估计,在压缩运动向量和残差的同时,引入通道增益模块对隐向量通道进行评估和缩放,实现可变速率控制.通过综合考虑运动向量损失和率失真损失,设计新的联合训练损失函数,用来端到端地训练整个网络框架.为了解决动态点云数据集缺少真实运动信息标签的问题,基于AMASS数据集制作带有运动向量标签的人体数据集,用于网络的训练.实验结果显示,与现有的基于深度学习动态点云压缩方法相比,该方法的压缩比特率下降了几个数量级,与静态压缩网络单独处理每帧的重构效果相比,该方法有5%~10%的提升. 展开更多
关键词 动态点云压缩 可变速率 联合损失函数 场景流网络
在线阅读 下载PDF
基于通道增益的可变比特率点云压缩
15
作者 江照意 邹文钦 +1 位作者 宋超 杨柏林 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第11期1816-1824,共9页
针对现有基于深度学习的点云压缩方法需要训练多个网络,耗费大量的时间和空间资源的缺陷,提出一种基于通道增益的可变比特率点云压缩方法.首先在网络的编码端利用层次化结构,通过每个层级提取点云特征和应用偏移注意力机制,有效地捕捉... 针对现有基于深度学习的点云压缩方法需要训练多个网络,耗费大量的时间和空间资源的缺陷,提出一种基于通道增益的可变比特率点云压缩方法.首先在网络的编码端利用层次化结构,通过每个层级提取点云特征和应用偏移注意力机制,有效地捕捉输入点云的关键特征信息;然后引入增益单元评估和缩放各个隐向量通道的重要度,消除向量通道间的信息冗余,仅需训练单个网络即可实现可变比特率压缩;为了预测特征向量的概率分布,对特征向量进行超先验编码,构造高斯熵模型,通过熵编码进一步降低编码量;最后在解码端采用子点卷积进行上采样重构原始点云,避免顶点的局部聚集,提高点云的重构质量.实验结果表明,在ShapeNet数据集上,以率失真曲线的BD-rate作为性能评价指标,与VRR和Draco方法相比,平均比特率分别降低48.66%和63.56%;压缩性能得到了显著的提升. 展开更多
关键词 可变比特率 点云压缩 注意力机制 子点卷积
在线阅读 下载PDF
支持快速范围搜索的公钥可搜索加密方案
16
作者 丁勇 文能翔 +1 位作者 王海燕 罗富财 《西安电子科技大学学报》 CSCD 北大核心 2024年第6期204-214,共11页
近年来,云存储服务逐渐成为数据存储的主流方式,但同时也带来了数据隐私保护的挑战。公钥可搜索加密技术允许用户在加密数据上执行关键词搜索,而无需解密数据,从而在保护隐私的同时提供了数据检索的便利,因此得到了广泛应用。但目前大... 近年来,云存储服务逐渐成为数据存储的主流方式,但同时也带来了数据隐私保护的挑战。公钥可搜索加密技术允许用户在加密数据上执行关键词搜索,而无需解密数据,从而在保护隐私的同时提供了数据检索的便利,因此得到了广泛应用。但目前大多数可搜索加密方案存在范围搜索效率低与难以抵御关键字猜测攻击的问题。为解决这一问题,利用0-1编码构造了一种支持高效范围搜索的公钥可搜索加密方案,并引入公钥认证使发送者与接收者两方协同加密,防止第三方构造有效密文与陷门,以保证方案的安全性。为提高搜索计算的效率,利用陷门搜索记录构建密文索引,对新旧陷门的搜索范围进行比较并结合密文索引,可减少需比对密文数量,从而实现快速搜索。安全分析表明,该方案可以抵御云服务器的关键字猜测攻击,实验结果表明,该方案的密文索引能有效提高密文搜索的效率。 展开更多
关键词 公钥可搜索加密 0-1编码 公钥认证 密文索引 范围搜索
在线阅读 下载PDF
基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型 被引量:6
17
作者 林俊安 包翠竹 +2 位作者 董建锋 杨勋 王勋 《计算机学报》 EI CAS CSCD 北大核心 2024年第9期2195-2210,共16页
本文针对具有挑战性的多语言文本-视频跨模态检索问题进行研究.传统文本-视频跨模态检索模型通常针对单一语言进行设计,比如英语,模型仅支持某一特定语言的文本查询.如果有不同语言检索需求,则需另收集目标语言的训练数据并重新训练构... 本文针对具有挑战性的多语言文本-视频跨模态检索问题进行研究.传统文本-视频跨模态检索模型通常针对单一语言进行设计,比如英语,模型仅支持某一特定语言的文本查询.如果有不同语言检索需求,则需另收集目标语言的训练数据并重新训练构建新的检索模型,这使得模型很难快速有效地适用于其他语言的检索任务.近年来,针对多语言问题的研究逐渐深入,这为多语言跨模态检索的实现打下了良好的基石.为了解决多语言跨模态检索问题,本文提出了一种简单有效的基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型,将不同语言与视觉信息映射到同一公共空间.该空间以视频向量为锚点,分别与不同的语言向量进行对齐,以此实现多语言跨模态的学习,由此建立了统一的多语言学习框架,使用一个模型满足了多语言的检索需求并探究了不平行语料库、平行语料库、伪平行语料库三种训练场景下的模型性能.同时,在多语言建模中有效地利用了不同语言之间的互通性和互补性,弥补了单语言文本特征表达的不足;并在文本端与视频端引入了基于对比学习的抗噪音鲁棒性学习方法,进一步提升了不同模态特征的表示能力.在VATEX、MSR-VTT多语言数据集上实验的数据证明,本文模型不仅能够简单快速地适用于多种语言检索任务,模型性能也较为突出,在较为常见的伪平行场景下和最先进的方法相比,中文VATEX和MSR-VTT在总召回率上分别提升了约5.97%和1.37%. 展开更多
关键词 多语言 跨模态检索 跨模态特征表示 对比学习
在线阅读 下载PDF
基于秘密共享的轻量级隐私保护ViT推理框架 被引量:2
18
作者 马敏 付钰 +1 位作者 黄凯 贾潇风 《通信学报》 EI CSCD 北大核心 2024年第4期27-38,共12页
针对广泛应用于图像处理的ViT推理框架存在泄露用户隐私数据的风险,而已有隐私保护推理框架存在计算效率较低、在线通信量较大等问题,提出了一种高效隐私保护推理框架SViT。该框架由2个边缘服务器协作执行基于秘密共享设计的安全计算协... 针对广泛应用于图像处理的ViT推理框架存在泄露用户隐私数据的风险,而已有隐私保护推理框架存在计算效率较低、在线通信量较大等问题,提出了一种高效隐私保护推理框架SViT。该框架由2个边缘服务器协作执行基于秘密共享设计的安全计算协议SSoftmax、SLayerNorm、SGeLU,在保持ViT-B/16原始框架结构的情况下,解决了隐私保护框架推理开销大的问题。理论分析与实验表明,相比CrypTen,SViT在计算效率和在线通信开销方面分别提升了2~6倍和4~14倍。 展开更多
关键词 隐私保护 秘密共享 图像分类 安全计算协议
在线阅读 下载PDF
基于网络度量元的Solidity智能合约缺陷预测 被引量:1
19
作者 李显伟 潘伟丰 +2 位作者 王家乐 潘云 袁成祥 《计算机应用研究》 CSCD 北大核心 2023年第12期3545-3550,共6页
针对现有智能合约缺陷预测方法未考虑合约代码内部结构对缺陷产生的影响的不足,提出了一种基于网络度量元的Solidity智能合约缺陷预测方法。首先,通过Solidity-Antlr4工具构建Solidity智能合约的抽象语法树(abstract syntax tree, AST)... 针对现有智能合约缺陷预测方法未考虑合约代码内部结构对缺陷产生的影响的不足,提出了一种基于网络度量元的Solidity智能合约缺陷预测方法。首先,通过Solidity-Antlr4工具构建Solidity智能合约的抽象语法树(abstract syntax tree, AST);其次,根据抽象语法树构建合约网络,网络中的节点代表函数和属性,边代表函数间的调用关系和函数对属性的操作关系;然后,引入复杂网络领域的知识,构建了一套针对Solidity智能合约的网络度量元;最后,基于多种回归模型和分类模型构建智能合约缺陷预测模型,进而比较不同类型的度量元在Solidity智能合约缺陷预测方面的性能。数据实验表明,结合了网络度量元的缺陷预测模型的预测性能比相应没有结合网络度量元的模型要好。 展开更多
关键词 智能合约 软件缺陷预测 网络度量元集 SOLIDITY 抽象语法树
在线阅读 下载PDF
基于分布感知优化的高鲁棒推荐方法
20
作者 檀彦超 周子皓 +4 位作者 马国芳 王石平 黄维 阳及 李天瑞 《计算机科学与探索》 2025年第10期2667-2682,共16页
随着个性化推荐系统在各类平台上的广泛应用,如何精确理解并建模复杂的用户行为和海量物品信息成为关键挑战。传统推荐系统经常忽视由好奇心或误操作产生的困难样本,这些未经处理的困难样本如果处理不当,则可能会导致模型偏差和性能降... 随着个性化推荐系统在各类平台上的广泛应用,如何精确理解并建模复杂的用户行为和海量物品信息成为关键挑战。传统推荐系统经常忽视由好奇心或误操作产生的困难样本,这些未经处理的困难样本如果处理不当,则可能会导致模型偏差和性能降低。此外,传统推荐系统往往仅考虑单一用户-物品交互,未能从分布的角度捕捉高阶关联。针对上述问题,提出了一种基于分布感知优化的高鲁棒推荐方法(DORRec),旨在无监督条件下匹配全局用户分布与物品分布,同时甄别困难样本并建模分布匹配,以实现高鲁棒性推荐。在基于分布的困难样本识别模块,通过利用放宽Sinkhorn距离下的正则化约束,计算复杂的用户-物品间匹配分数的闭式解,从而找到每个用户的困难样本;在基于自适应阈值的高鲁棒推荐模块,提出了一种个性化阈值机制,通过自适应调整交互权重以强化困难样本的训练,满足高鲁棒推荐需求。在四个公共数据集上的实验验证了该方法的有效性,显示出DORRec在准确性和鲁棒性上的提升,通过与多个最先进推荐算法和高鲁棒组件在多个评价指标上进行比较分析,验证了DORRec在推荐性能上的显著优越性。 展开更多
关键词 推荐系统 困难样本 分布感知 鲁棒推荐 最优传输
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部