期刊文献+
共找到522篇文章
< 1 2 27 >
每页显示 20 50 100
基于细粒度图像-方面的情感增强方面级情感分析 被引量:1
1
作者 余本功 陈明玥 《计算机应用研究》 北大核心 2025年第4期1073-1079,共7页
为了缩小模态间的异质性差异并缓解多个方面词带来的情感混淆,提出一种基于细粒度图像-方面的情感增强多模态方面级情感分析。具体地,该模型经过文本图像编码后,首先利用形容词-名词对将与方面词相关的图像信息加入到文本方面词中,并通... 为了缩小模态间的异质性差异并缓解多个方面词带来的情感混淆,提出一种基于细粒度图像-方面的情感增强多模态方面级情感分析。具体地,该模型经过文本图像编码后,首先利用形容词-名词对将与方面词相关的图像信息加入到文本方面词中,并通过细粒度图像-方面跨模态注意力机制优化图像表征,得到细粒度方面词-图像特征;接着,基于句法结构引入情感得分,得到基于方面词的文本情感特征;最后,进行模态融合得到最终情感预测结果。在Twitter-2015和Twitter-2017数据集上,与基线模型TMSC相比,提出模型值准确率分别提高了0.25百分点和0.16百分点,充分证明了细粒度的图文匹配和情感增强操作有助于提高分类效果。 展开更多
关键词 多模态方面级情感分析 形容词-名词对 跨模态注意力机制 情感分数 模态融合
在线阅读 下载PDF
引入单模态监督对比学习的多视图讽刺检测
2
作者 张政 刘金硕 +1 位作者 邓娟 王丽娜 《计算机工程与应用》 北大核心 2025年第19期118-126,共9页
社交媒体上图像和文本数据的快速增长导致人们对多模态讽刺检测问题的关注不断提高。然而,现有基于特征提取融合的检测方法存在一些缺陷:一是大多数方法缺乏多模态检测所需的底层模态对齐能力,二是模态融合过程忽视了模态间的动态关系,... 社交媒体上图像和文本数据的快速增长导致人们对多模态讽刺检测问题的关注不断提高。然而,现有基于特征提取融合的检测方法存在一些缺陷:一是大多数方法缺乏多模态检测所需的底层模态对齐能力,二是模态融合过程忽视了模态间的动态关系,三是未能充分利用模态互补性。为此,提出一种基于单模态监督对比学习、多模态融合和多视图聚合预测的检测模型。以CLIP(contrastive language image pre-training)模型作为编码器来增强图像和文本底层编码的对齐效果。结合单模态监督对比学习方法,通过单模态预测来指导模态间的动态关系。然后,设计了全局-局部跨模态融合方法,利用每种模态的语义级表示作为全局多模态上下文与局部单模态特征进行交互,通过多个跨模态融合层提高模态融合效果,并减少了以往局部-局部跨模态融合方法的时间和空间成本。采用多视图聚合预测方法充分利用图像、文本和图文视图的互补性。总之,该模型能有效捕捉多模态讽刺数据的跨模态语义不一致性,在公开数据集MSD上取得了比现有最好方法DMSD-Cl更好的结果。 展开更多
关键词 讽刺检测 多模态 对比学习 跨模态融合
在线阅读 下载PDF
基于双模态交叉注意力机制的智能合约漏洞检测方法 被引量:1
3
作者 陈锦富 胡心怡 +1 位作者 蔡赛华 闵玺润 《通信学报》 北大核心 2025年第6期218-232,共15页
针对智能合约漏洞检测中现有深度学习方法依赖单一模态进行特征提取、对上下文信息捕获不足导致检测准确率较低的问题,提出了一种基于双模态交叉注意力机制的智能合约漏洞检测方法,设计了特定的注意力机制,同时分析合约的源代码和字节码... 针对智能合约漏洞检测中现有深度学习方法依赖单一模态进行特征提取、对上下文信息捕获不足导致检测准确率较低的问题,提出了一种基于双模态交叉注意力机制的智能合约漏洞检测方法,设计了特定的注意力机制,同时分析合约的源代码和字节码,实现源代码中的高级语义特征与字节码中的底层执行流程双向映射和互补增强,丰富特征表示。引入的残差连接有效地保持和传递原始特征信息,缓解深层网络训练中的梯度消失问题。在公开数据集上进行广泛测试,实验结果表明,所提方法相较基线提高了检测准确率2%以上;消融实验结果显示,跨模态特征融合和注意力机制的设计相互协同,显著提升检测性能。 展开更多
关键词 智能合约 漏洞检测 深度学习 双模态 交叉注意力
在线阅读 下载PDF
基于双分支多尺度特征融合的跨模态语义分割算法
4
作者 陈广秋 任天蓉 +1 位作者 段锦 黄丹丹 《电子测量与仪器学报》 北大核心 2025年第5期144-154,共11页
针对单模态可见光RGB图像语义分割在夜晚或光线变化环境下存在分割效果差、目标边缘分割不清晰等问题,以及现有的跨模态语义分割在获取全局上下文信息和融合跨模态特征时还存在大量不足。为此提出了一种基于双分支多尺度特征融合的跨模... 针对单模态可见光RGB图像语义分割在夜晚或光线变化环境下存在分割效果差、目标边缘分割不清晰等问题,以及现有的跨模态语义分割在获取全局上下文信息和融合跨模态特征时还存在大量不足。为此提出了一种基于双分支多尺度特征融合的跨模态语义分割算法。采用Segformer作为主干网络提取特征,捕获长距离依赖关系,采用特征增强模块提升浅层特征图的对比度和边缘信息的判别性,利用有效注意力增强模块和跨模态特征融合模块,对不同模态特征图像素点间的关系进行建模,聚合互补信息,发挥跨模态特征优势。最后,采用轻量级的All-MLP解码器重建图像,预测分割结果。相比较于已有主流算法,该算法在MFNet城市街景数据集上的各项评估指标均为最优,平均准确率(mAcc)和平均交并比(mIoU)分别达到了76.9%和59.8%。实验结果表明,该算法在处理复杂场景时,能够有效改善目标边缘轮廓分割不清晰的问题,提高图像的分割精度。 展开更多
关键词 多模态深度学习 语义分割 特征融合 跨模态 Segformer
在线阅读 下载PDF
面向跨模态数据融合细粒度特征的个性化服装推荐
5
作者 田保军 康萌 房建东 《计算机应用与软件》 北大核心 2025年第11期63-68,80,共7页
服装已经成为网络购物的重要商品之一,实现精准的符合用户个性化审美的服装推荐系统,已经成为热门研究内容。针对提取用户的细粒度兴趣特征不全面,导致推荐系统的准确性低问题,提出融合长短期偏好的服装推荐算法;针对数据稀疏以及数据... 服装已经成为网络购物的重要商品之一,实现精准的符合用户个性化审美的服装推荐系统,已经成为热门研究内容。针对提取用户的细粒度兴趣特征不全面,导致推荐系统的准确性低问题,提出融合长短期偏好的服装推荐算法;针对数据稀疏以及数据单一性,导致推荐结果个性化、多样性低的问题,利用跨模态数据和注意力机制使模型学习出更为精准的差异性用户特征。在真实数据集Clothing Shoes and Jewelry上,将所设计的模型(PCR)与经典的循环神经网络RNN、基于矩阵分解MF-BPR模型以及改进的矩阵分解TARMF模型进行性能比对,PCR模型在关键性能评价指标NDCG、Precision@K和Recall@K均有提升。实验结果表明该模型在服装推荐系统中是可行与有效的。 展开更多
关键词 服装推荐 个性化 跨模态数据 细粒度兴趣 注意力机制
在线阅读 下载PDF
多模态特征融合的RGB-T目标跟踪网络
6
作者 金静 刘建琴 翟凤文 《光学精密工程》 北大核心 2025年第12期1940-1954,共15页
近年来,RGB-T跟踪方法因可见光与热红外图像的互补特性而在视觉跟踪领域得到广泛应用。然而,现有方法在模态互补信息利用方面仍存在局限,特别是基于Transformer的算法缺乏模态间的直接交互,难以充分挖掘RGB和TIR模态的语义信息。针对这... 近年来,RGB-T跟踪方法因可见光与热红外图像的互补特性而在视觉跟踪领域得到广泛应用。然而,现有方法在模态互补信息利用方面仍存在局限,特别是基于Transformer的算法缺乏模态间的直接交互,难以充分挖掘RGB和TIR模态的语义信息。针对这些问题,提出了一种多模态特征融合的RGB-T目标跟踪网络(Multi-Modal Feature Fusion Tracking Network for RGB-T,MMFFTN)。该网络首先在骨干网络提取初步特征后,引入通道特征融合模块(Channel Feature Fusion Module,CFFM),实现RGB和TIR通道特征的直接交互与融合。其次,针对RGB和TIR模态差异可能导致的融合效果不理想问题,设计了跨模态特征融合模块(Cross-Modal Feature Fusion Module,CMFM),通过自适应融合策略进一步融合RGB和TIR的全局特征,以提升跟踪的准确性。对本文提出的跟踪模型在GTOT,RGBT234和LasHeR三个数据集上进行了详细的实验评估。实验结果表明,与当前先进的基于Transformer的跟踪器ViPT相比,MMFFTN在成功率(Success Rate)和精确率(Precision Rate)上分别提升了3.0%和4.7%;与基于Transformer的跟踪器SDSTrack相比,成功率和精确率分别提升了2.4%和3.3%。 展开更多
关键词 RGB-T目标跟踪 TRANSFORMER 通道特征融合 跨模态特征融合
在线阅读 下载PDF
基于异构信息网络的多模态食谱表示学习方法
7
作者 张霄雁 江诗琪 孟祥福 《计算机科学与探索》 北大核心 2025年第10期2803-2814,共12页
当前食谱表示学习方法主要依赖于通过将食谱文本与图像进行对齐,或利用邻接矩阵捕捉食谱与其用料之间关系的方式,学习食谱的嵌入表示。然而,这些方法在信息融合处理上较为粗糙,未能深入挖掘不同模态之间的交叉信息,且难以有效地动态评... 当前食谱表示学习方法主要依赖于通过将食谱文本与图像进行对齐,或利用邻接矩阵捕捉食谱与其用料之间关系的方式,学习食谱的嵌入表示。然而,这些方法在信息融合处理上较为粗糙,未能深入挖掘不同模态之间的交叉信息,且难以有效地动态评估食谱组成要素之间的关联强度,导致模型的表示能力受限。针对上述问题,提出一种基于异构信息网络的多模态食谱表示学习模型(CookRec2vec)。将视觉、文本和关系信息集成到食谱嵌入中,通过自适应的邻接关系更加充分挖掘和量化食谱组成要素之间的关联信息及其强度,同时基于高阶共现矩阵的显式建模方法提供了互补信息且保留了原有特性,显著提高了食谱特征表达能力。实验结果表明,所提模型在食谱分类性能上优于现有主流方法,并在创新菜嵌入预测方面取得了显著进展。 展开更多
关键词 表示学习 图嵌入 异构信息网络 跨模态融合 对抗攻击 节点分类
在线阅读 下载PDF
基于层次化一致性语义学习的多模态意图识别
8
作者 彭俊杰 李铮一 +1 位作者 张换香 王兰 《电子学报》 北大核心 2025年第6期2007-2021,共15页
多模态意图识别(Multimodal Intent Recognition,MIR)是在现实世界中理解人类意图的重要研究方向,旨在通过融合语言、视觉和音频等多种模态信息来准确判断说话人的意图.然而,现有的MIR研究大多集中在如何为文本模态构建多模态语义环境,... 多模态意图识别(Multimodal Intent Recognition,MIR)是在现实世界中理解人类意图的重要研究方向,旨在通过融合语言、视觉和音频等多种模态信息来准确判断说话人的意图.然而,现有的MIR研究大多集中在如何为文本模态构建多模态语义环境,对视觉和音频模态中蕴含的大量语义信息(如动作和情感语义)的利用则不够深入.尽管视觉和音频模态富含与意图相关的信息,但其固有的冗余信息和噪声却制约了模型对这些模态特征的有效利用.为解决上述问题,本文提出了一种能够有效利用音频模态语义关系,同时有效抑制冗余信息的MIR模型.该模型通过构建抑制冗余信息的初级语义特征,引导学习不同尺度的模态内与模态间语义关联,以理解说话人的意图.在此基础之上,模型利用不同模态特征间潜在的意图一致性,将提取到的音视频语义特征与具有明确意图语义的文本特征进行配对,从而过滤掉那些单独通过意图识别任务无法消除的无关语义信息.此外,模型采用多模态融合门控机制,整合来自不同模态的意图语义.在多个意图理解任务的数据集上的实验表明:所提出的方法能够有效提取音视频模态语义并滤除意图识别无关语义,且在性能上优于现有的MIR方法.具体而言,在准确率(ACCuracy,ACC)值、精确度(Precision,P)值、召回率(Recall,R)值和F_(1)值(F1score,F_(1))上均取得了0.7~1.8个百分点的提升. 展开更多
关键词 意图识别 多模态融合 多模态语义学习 多任务学习 跨模态注意力
在线阅读 下载PDF
跨模态视角下产品形态设计方法
9
作者 赵芳华 吴雪镕 +2 位作者 张新新 马艺轩 刘馨茹 《计算机集成制造系统》 北大核心 2025年第11期3954-3968,共15页
为解决用户感性需求在设计流程中的信息损耗问题,提出一种跨模态数据交互的产品形态设计方法。首先根据用户对产品的形态风格认知信息和感性需求信息筛选相关设计要素,基于主题爬虫、质量功能配置(QFD),等方法,构建足够量级的“文本-图... 为解决用户感性需求在设计流程中的信息损耗问题,提出一种跨模态数据交互的产品形态设计方法。首先根据用户对产品的形态风格认知信息和感性需求信息筛选相关设计要素,基于主题爬虫、质量功能配置(QFD),等方法,构建足够量级的“文本-图像”产品形态数据集,然后利用StackGAN实现用户感性需求到产品形态设计方案的转换,最后根据YOLO得到的目标类别概率,筛选与用户感性意象匹配程度较高的若干设计方案。本文提出的产品形态设计方法利用以文本为主导载体的用户需求信息为主要输入获取产品形态设计方案,以端到端的形式,实现用户需求从文到图的跨模态模仿与再现,减少设计师对于用户需求信息的主观理解偏差,并以家用加湿器为例验证其可行性。 展开更多
关键词 产品形态 StackGAN 文本生成图像 跨模态 YOLO v4 生成式设计
在线阅读 下载PDF
基于多层注意力机制跨模态自适应融合的情感分析模型研究
10
作者 贺萍 祁铧颖 王诗怡 《计算机应用与软件》 北大核心 2025年第9期203-209,共7页
与面向文本、图像进行情感分析的研究相比,面向视频进行情感分析的研究较少,且不同模式之间跨模态关系抽取依然存在噪声与信息冗余的问题。因此,结合文本、视频两种数据模态提出一种基于多层注意力机制的跨模态自适应融合的情感分析模型... 与面向文本、图像进行情感分析的研究相比,面向视频进行情感分析的研究较少,且不同模式之间跨模态关系抽取依然存在噪声与信息冗余的问题。因此,结合文本、视频两种数据模态提出一种基于多层注意力机制的跨模态自适应融合的情感分析模型(MACSF)。该文将提取到的文本与视频特征在多头层次注意(MHA)下跨模态分层融合两次,得到具有交互语义的二次融合特征;将文本特征和二次融合的特征通过自适应跨模态集成得到最终融合特征;将融合特征输入多层感知机和Softmax函数得到情感分类结果。在公开数据集MOSI和MOSEI上实验验证,该文模型有效弥补了跨模态交互中存在的噪声问题,提高了情感分类的效果。 展开更多
关键词 跨模态 特征融合 情感分析 注意力机制
在线阅读 下载PDF
用于红外-可见光图像分类的跨模态双流交替交互网络
11
作者 郑宗生 杜嘉 +3 位作者 成雨荷 赵泽骋 张月维 王绪龙 《计算机应用》 北大核心 2025年第1期275-283,共9页
多特征模态融合时存在噪声的叠加,而为减小模态间的差异采用的级联方式的结构也未充分利用模态间的特征信息,因此设计一种跨模态双流交替交互网络(DAINet)方法。首先,构建双流交替增强(DAE)模块,以交互双分支形式融合模态特征,并通过学... 多特征模态融合时存在噪声的叠加,而为减小模态间的差异采用的级联方式的结构也未充分利用模态间的特征信息,因此设计一种跨模态双流交替交互网络(DAINet)方法。首先,构建双流交替增强(DAE)模块,以交互双分支形式融合模态特征,并通过学习模态数据的映射关系,以红外-可见光-红外(IR-VIS-IR)和可见光-红外-可见光(VIS-IR-VIS)的双向反馈调节实现模态间噪声的交叉抑制;然后,构建跨模态特征交互(CMFI)模块,并引入残差结构将红外-可见光模态内以及模态间的低层特征和高层特征进行有效融合,从而减小模态间的差异并充分利用模态间的特征信息;最后,在自建红外-可见光多模态台风数据集及RGB-NIR多模态公开场景数据集上进行实验,以验证DAE模块和CMFI模块的有效性。实验结果表明,与简单级联融合方法相比,所提的基于DAINet的特征融合方法在自建台风数据集上的红外模态和可见光模态上的总体分类精度分别提高了6.61和3.93个百分点,G-mean值分别提高了6.24和2.48个百分点,表明所提方法在类别不均衡分类任务上的通用性;所提方法在RGB-NIR数据集上的2种测试模态下的总体分类精度分别提高了13.47和13.90个百分点。同时,所提方法在2个数据集上分别与IFCNN(general Image Fusion framework based on Convolutional Neural Network)和DenseFuse方法进行对比的实验结果表明,所提方法在自建台风数据集上的2种测试模态下的总体分类精度分别提高了9.82、6.02和17.38、1.68个百分点。 展开更多
关键词 跨模态 深度学习 图像分类 特征学习 双流网络
在线阅读 下载PDF
基于通道干预渐进式差异减小网络的跨模态行人重识别
12
作者 刘志刚 常乐乐 +1 位作者 赵宜珺 刘苗苗 《计算机辅助设计与图形学学报》 北大核心 2025年第7期1249-1259,共11页
在跨模态行人重识别研究领域中,可见光与红外图像的模态差异是增大共享特征提取难度的关键问题.为了降低2种模态的差异,提高行人重识别性能,提出一种渐进式差异减小网络.在可见光目标到红外图像集的检索识别阶段,根据因果推理理论设计... 在跨模态行人重识别研究领域中,可见光与红外图像的模态差异是增大共享特征提取难度的关键问题.为了降低2种模态的差异,提高行人重识别性能,提出一种渐进式差异减小网络.在可见光目标到红外图像集的检索识别阶段,根据因果推理理论设计一个特定事实干预模块,通过通道变换生成的干预图像完成对可见光图像的干预,抑制可见光图像中的颜色信息干扰;其在红外目标到可见光图像集的检索识别阶段,设计一个通道协调模块,将多通道的特征提取转换为单通道方式,使网络专注于学习可见光与红外2种图像的通道相关性;最后,针对可见光和红外2种目标图像的相互检索识别提出模态平衡损失方法,通过干预图像、可见光图像和红外图像完成多个模态的平衡学习,进一步完成颜色特征抑制,补偿可见光图像在特定事实干预过程中的可鉴别丢失特征.仿真实验结果表明,与现有主流的跨模态行人重识别方法相比,所提网络在SYSU-MM01和RegDB这2个标准数据集上均取得了较好的性能表现,rank1和mAP分别提高超过2%.网络源代码:https://cstr.cn/31253.11.sciencedb.27692. 展开更多
关键词 行人重识别 特定事实干预 通道协调 模态平衡 跨模态
在线阅读 下载PDF
基于GAN的语义对齐网络半监督跨模态哈希方法
13
作者 刘华咏 朱婷 《计算机科学》 北大核心 2025年第6期159-166,共8页
监督方法在跨模态检索中已有不少成果,是比较热门的方法。然而,这类方法过于依赖标记的数据,没有充分利用无标签数据所包含的丰富信息。为了解决这一问题,人们开始研究无监督方法,但是仅依靠未标记数据的效果并不理想。对此,提出了基于... 监督方法在跨模态检索中已有不少成果,是比较热门的方法。然而,这类方法过于依赖标记的数据,没有充分利用无标签数据所包含的丰富信息。为了解决这一问题,人们开始研究无监督方法,但是仅依靠未标记数据的效果并不理想。对此,提出了基于GAN的语义对齐网络半监督跨模态哈希方法(GAN-SASCH)。该模型基于生成对抗网络,结合了语义对齐的概念。生成对抗网络分为两个模块,分别是生成器和判别器,生成器学习拟合未标记数据的相关性分布并生成虚假的数据样本,判别器则用于判断数据对样本是来自数据集还是生成器。通过这两个模块之间展开极大极小的对抗博弈游戏,不断提升生成对抗网络的性能。语义对齐能充分利用不同模态之间的相互作用和对称性,统一不同模态的相似性信息,有效地指导哈希代码的学习过程。除此之外,还引入了自适应学习优化参数以提升模型性能。在NUS-WIDE和MIRFLICKR25K数据集上,对比了所提方法与9种相关前沿方法,使用MAP与PR图两种评价指标验证了所提方法的有效性。 展开更多
关键词 跨模态哈希 生成对抗网络 语义对齐 半监督 自适应学习
在线阅读 下载PDF
基于自适应图学习权重的多模态情感分析
14
作者 曲海成 徐波 《智能系统学报》 北大核心 2025年第2期516-528,共13页
在多模态情感分析任务中,由于不同模态表现方式的不一致性,模态间的情感信息密度具有较大的差异。为了平衡情感信息在不同模态中分布的不均匀性并减少多模态特征表示的冗余性,提出了一种基于自适应图学习权重的多模态情感分析方法。首先... 在多模态情感分析任务中,由于不同模态表现方式的不一致性,模态间的情感信息密度具有较大的差异。为了平衡情感信息在不同模态中分布的不均匀性并减少多模态特征表示的冗余性,提出了一种基于自适应图学习权重的多模态情感分析方法。首先,采用不同的特征提取方法捕获单一模态内的特定信息;其次,将不同模态通过公共编码器映射到同一空间中,利用跨模态注意力机制来显式构建模态间的关联;然后,将每种模态对任务分类的预测值以及模态表示嵌入到自适应图中,通过模态标签学习不同模态对最终分类任务的贡献度来动态调整不同模态之间的权重,以适应主导模态的变化;最后,引入信息瓶颈机制进行去噪,旨在学习一种无冗余的多模态特征表示进行情感预测。在公开的多模态情感分析数据集上对所提出的模型进行了评估。实验结果表明,其有效提升了多模态情感分析的准确性。 展开更多
关键词 多模态 情感分析 模态差异性 信息冗余 自适应图学习 跨模态注意力 相似性约束 信息瓶颈
在线阅读 下载PDF
生成式AI与跨模态学习融合的中国古典园林认知教学探索——以园林绘画复原为例
15
作者 张恒 袁梓皓 +1 位作者 李俐 陈志宏 《园林》 2025年第10期64-74,共11页
随着信息技术的飞速发展,生成式人工智能与跨模态学习技术的出现,为风景园林专业教学创新提供了重要机遇。为提升中国古典园林认知教学效果,探索并构建了一种AI赋能下的园林认知教学新模式。以园林绘画复原为媒介,设计“五阶递进式”教... 随着信息技术的飞速发展,生成式人工智能与跨模态学习技术的出现,为风景园林专业教学创新提供了重要机遇。为提升中国古典园林认知教学效果,探索并构建了一种AI赋能下的园林认知教学新模式。以园林绘画复原为媒介,设计“五阶递进式”教学框架,引导学生完成从知识学习、视觉解读到AI实践与批判反思的完整学习闭环。通过分阶段AI技术流程,实现引导式园林场景复原。此技术路径旨在将抽象园林知识、园林绘画图像与前沿AI技术有机融合,构建从数据处理、模型构建到成果生成的完整技术支撑。教学实施层面,该框架与技术流程围绕代表性的园林绘画复原任务,通过理论授课与技术实操结合,引导学生分组协作,完成从文献研究到AI复原的全过程。教学成果表明,该模式初步实现对园林绘画的AI复原。学生不仅生成较高写实度和历史氛围的园林图像,更深化了对古典园林设计法则、空间意境与文化内涵的理解。相较传统方法,融合AI的教学模式在激发学生主动性与探究性、实现认知方式动态化与体验感、提升知识获取多模态性与高效率,以及系统培养数字技术应用、批判性思维等方面展现出明显优势,有效缩短了认知周期,为风景园林教育从“知识传授型”向“能力导向、探究学习型”的范式转型提供实践依据与方法论参考,对推动AI时代风景园林教育的创新与可持续发展具有积极意义。 展开更多
关键词 生成式AI 跨模态学习 园林绘画复原 认知教学 风景园林教育
在线阅读 下载PDF
基于跨模态信号的无线资源管理策略
16
作者 王丽娜 李科 +1 位作者 刘向南 张海君 《信号处理》 北大核心 2025年第6期1097-1108,共12页
随着超第五代(Beyond Fifth Generation,B5G)及第六代(Sixth Generation,6G)移动通信网络的快速发展,跨模态数据的共存问题已逐步成为重要挑战,其中视觉数据要求高吞吐量,而触觉数据需满足1 ms端到端时延与极低的丢包率,不同需求下的资... 随着超第五代(Beyond Fifth Generation,B5G)及第六代(Sixth Generation,6G)移动通信网络的快速发展,跨模态数据的共存问题已逐步成为重要挑战,其中视觉数据要求高吞吐量,而触觉数据需满足1 ms端到端时延与极低的丢包率,不同需求下的资源竞争导致资源分配的严重碎片化。针对这一问题,本文提出一种基于重叠架构与非正交多址接入的联合优化方案,结合移动边缘计算的低时延特性,设计高效资源分配策略。首先,构建移动边缘计算场景下的跨模态数据共存模型,将非凸优化问题分解为子信道匹配与功率分配两个子问题。随后,通过匈牙利算法实现低复杂度用户配对,并推导功率分配的闭式解以最小化触觉用户能耗。最后,提出动态迭代算法,适配信道时变性与业务突发性。仿真结果表明,所提算法在保障视觉数据速率约束与触觉数据时延约束的前提下,可降低触觉平均化能耗达20%,且在高用户密度场景中表现稳定。与穷举搜索相比,该算法在保证性能的同时显著降低计算复杂度,为B5G/6G网络中多业务共存提供了高效解决方案。 展开更多
关键词 跨模态通信 无线资源管理 非正交多址接入 移动边缘计算
在线阅读 下载PDF
融合场景特征的跨模态图像美学评价
17
作者 牛玉贞 陈珊珊 +1 位作者 李悦洲 刘文犀 《计算机辅助设计与图形学学报》 北大核心 2025年第7期1270-1282,共13页
现有的图像美学评价方法通常依赖图像本身而忽略了用户评论中的丰富语义信息,因此在性能方面呈现一定的局限性.一些研究尝试结合用户评论辅助进行图像美学评价,但未能充分地挖掘图像特征,且未能较好地对图像-文本特征的复杂关系进行建模... 现有的图像美学评价方法通常依赖图像本身而忽略了用户评论中的丰富语义信息,因此在性能方面呈现一定的局限性.一些研究尝试结合用户评论辅助进行图像美学评价,但未能充分地挖掘图像特征,且未能较好地对图像-文本特征的复杂关系进行建模,导致图像-文本信息利用不充分且交互不够紧密.为解决上述问题,提出一种融合场景特征的跨模态图像美学评价方法.由于图像场景通常会影响人们对图像的美学评价,因此首先提取图像的场景特征和美学特征,并使用多尺度特征融合模块将两者深度融合;考虑图像-文本特征之间的内在相关性,使用多头交叉注意力机制在图像特征和文本特征之间进行交叉注意力计算,将图像-文本模态信息进行交互融合;最后将融合后的跨模态特征用于美学评价.在通用的大型图像美学评价数据集AVA上的广泛实验结果表明,所提方法在ACC,SRCC和PLCC指标上分别达到了86.96%,0.8523和0.8648,超越了文中对比的跨模态图像美学评价方法. 展开更多
关键词 图像美学评价 跨模态学习 场景特征 多头交叉注意力机制 多尺度特征融合
在线阅读 下载PDF
二值化图像与双流网络在跨模态行人重识别的应用
18
作者 崔洪刚 曹钢钢 苏荻翔 《计算机应用与软件》 北大核心 2025年第2期216-226,共11页
在现有的跨模态行人重识别方法中,很少有方法会利用图像中人的姿态信息进行网络的学习。考虑到姿态信息在行人重识别网络学习中的重要性,提出一种融合局部阈值二值化图像特征的端到端的行人重识别方法。该方法使用ResNet50作为骨干网络... 在现有的跨模态行人重识别方法中,很少有方法会利用图像中人的姿态信息进行网络的学习。考虑到姿态信息在行人重识别网络学习中的重要性,提出一种融合局部阈值二值化图像特征的端到端的行人重识别方法。该方法使用ResNet50作为骨干网络对三种模态图像进行特征提取和特征融合,使用交叉熵损失和改进的难样本三元组损失进行网络训练。在使用简单网络结构的同时使用姿态信息。实验结果表明,在跨模态行人重识别网络中融合局部阈值二值化图像信息,能提高网络对行人重识别的准确率,显著提升最难样本的挖掘能力。 展开更多
关键词 跨模态行人重识别 卷积神经网络 局部阈值二值化
在线阅读 下载PDF
一种适用于政务区块链的跨模态人脸生成模型 被引量:1
19
作者 崔思颖 谭志杰 +4 位作者 袁想 李伟平 莫同 乔秀全 吴中海 《南京师大学报(自然科学版)》 北大核心 2025年第2期102-111,共10页
如今,区块链技术被应用到包含电子证照、人脸图像等政府数据共享领域,但当前的大型区块链系统普遍面临低带宽和高存储成本的问题.本文提出了一种适用于政务区块链的跨模态人脸生成模型,将人脸图像转换为文本模态存储在链上,用户可使用... 如今,区块链技术被应用到包含电子证照、人脸图像等政府数据共享领域,但当前的大型区块链系统普遍面临低带宽和高存储成本的问题.本文提出了一种适用于政务区块链的跨模态人脸生成模型,将人脸图像转换为文本模态存储在链上,用户可使用文本与掩膜生成指定人的人脸图像.首先利用多任务学习方法训练基于ResNet-18网络结构的人脸分类器,将人脸图像转换为身份代号文本存储在链上.然后设计了区域感知码本和基于Transformer结构的混合专家采样器,采样器采用扩散模型的方法从码本中采样索引,采样结果由一个可学习的解码器转换成细粒度的人脸图像.在进行数据增强后的Casia Face V5数据集上的实验表明,模型在人脸分类任务中准确率可达95%以上,压缩效果达到了传统图像压缩方法1/10000的持久化时间与1/200的文件大小,与其他先进人脸图像生成方法相比,此模型可以可控地生成高保真度的指定人的人脸图像,并以1/20的参数量达到与大型预训练模型相近的人脸生成效果. 展开更多
关键词 区块链 跨模态人脸生成 可控图像生成 扩散模型 人脸识别
在线阅读 下载PDF
多特征模板匹配的多源盾构隧道螺栓孔精准识别 被引量:1
20
作者 王少宁 杨元维 +5 位作者 许磊 顾世成 高贤君 尹正浩 钟康 刘振宇 《测绘通报》 北大核心 2025年第3期59-65,共7页
螺栓孔作为盾构隧道的关键力学结构,对隧道整体结构的稳定性至关重要。由螺栓失效引发的渗水和裂缝等病害现象,对隧道的安全运营构成潜在威胁。为消除检测人员的安全隐患并提高螺栓孔的检测效率,本文提出了一种基于多特征模板匹配的多... 螺栓孔作为盾构隧道的关键力学结构,对隧道整体结构的稳定性至关重要。由螺栓失效引发的渗水和裂缝等病害现象,对隧道的安全运营构成潜在威胁。为消除检测人员的安全隐患并提高螺栓孔的检测效率,本文提出了一种基于多特征模板匹配的多源盾构隧道螺栓孔精准识别方法。首先,将隧道断面点云的几何中心作为视点,将隧道点云进行圆柱投影展开成2.5维点云;其次,通过DBSCAN聚类方法提取螺栓孔点云并采用欧式聚类生成其中心坐标集;然后,以扫描测线为单元对2.5维点云及螺栓孔中心坐标集进行逐测线投影,将三维点云信息融入二维图像中以此锁定目标检测区域;最后,通过多特征模板匹配的方法对螺栓孔进行精准识别。本文设计的基于点云形状特征的DBSCAN聚类方法能够提取点云数据中所有的螺栓孔,同时识别率和平均相似度分别能够达到98.76%和98.79%,且在耗时相近的情况下,平均偏差更小,表现出更好的稳健性。本文充分考虑螺栓孔点云的形状特征,实现了螺栓孔点云的精准分类,并通过融合盾构隧道的三维与二维数据进一步提高了盾构隧道图像上目标识别的精度。 展开更多
关键词 盾构隧道 螺栓孔 跨模态 模板匹配 目标识别
在线阅读 下载PDF
上一页 1 2 27 下一页 到第
使用帮助 返回顶部