题名 复杂越野场景无人履带平台3D语义占据预测方法
被引量:1
1
作者
陈慧岩
司璐璐
王旭睿
王文硕
机构
北京理工大学机械与车辆学院
出处
《北京理工大学学报》
EI
CAS
北大核心
2025年第1期1-10,共10页
基金
国家部委基金资助项目(50911020602)。
文摘
为了理解和处理复杂越野场景中环境要素形状不规则、地形多变及路面属性复杂等问题,提出了一种基于多模态融合感知的3D语义占据预测方法.首先,基于图像和激光雷达融合网络获取初始3D语义标签;然后,对越野场景稀疏点云采用贝叶斯稠密化算法补全3D语义占据标签;最后,生成包含复杂环境要素大小、位置和语义信息的3D语义占据栅格地图.试验结果表明,该方法能够有效地提取和表示复杂越野环境中的3D信息,为复杂越野环境下无人履带平台的路径规划提供了更加准确和丰富的先验信息.
关键词
无人履带平台
多模态融合
3D语义占据预测
Keywords
unmanned tracked vehicle
multimodal fusion
3D semantic occupancy prediction
分类号
TP242.6
[自动化与计算机技术—检测技术与自动化装置]
题名 特征级语义感知引导的多模态图像融合算法
被引量:1
2
作者
张梅
金叶
朱金辉
贺霖
机构
华南理工大学自动化科学与工程学院
华南理工大学自主系统与网络控制教育部重点实验室
华南理工大学软件学院
华南理工大学大数据与智能机器人教育部重点实验室
出处
《电子与信息学报》
北大核心
2025年第8期2909-2918,共10页
基金
国家自然科学基金(62071184)。
文摘
在自动驾驶领域,红外和可见光的融合图像因其能够提供显著目标和丰富的纹理细节而备受关注。然而现有的大部分融合算法单方面关注融合图像的视觉质量和评价指标,而忽略了高级视觉任务的需求。另外,虽然一些融合方法尝试结合高级视觉任务,但是其效果受限于语义先验和融合任务之间的交互不足且没有考虑到不同特征差异性的影响。因此,该文提出了特征级语义感知引导的多模态图像融合算法,使语义先验知识与融合任务进行充分交互,提高融合结果在后续的分割任务中的性能。对于语义特征和融合图像特征两者的差异性,提出了双特征交互模块,以实现不同特征的充分交互和选择。对于红外和可见光两种不同模态特征的差异性,提出了多源空间注意力融合模块,以实现不同模态信息的有效集成和互补。该文在3个公共数据集上进行了实验,结果表明该方法的融合结果优于其他方法且泛化能力较好,而且在各种融合算法联合分割任务的性能比较实验中也表明了该方法在分割任务中的优越性。
关键词
图像融合
联合分割任务
语义感知
特征级引导
Keywords
Image fusion
Joint segmentation task
semantic awareness
Feature-level guidance
分类号
TN911.73
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
题名 跨模态多层特征融合的遥感影像语义分割
被引量:1
3
作者
李智杰
程鑫
李昌华
高元
薛靖裕
介军
机构
西安建筑科技大学信息与控制工程学院
西安建筑科技大学建筑学院
出处
《计算机科学与探索》
北大核心
2025年第4期989-1000,共12页
基金
国家自然科学基金(51878536)
陕西省住房城乡建设科技计划项目(2020-K09)
陕西省教育厅协同创新中心项目(23JY038)。
文摘
多模态语义分割网络能够利用不同模态中的互补信息来提高分割精度,在地物分类领域具有广泛的应用潜力。然而,现有的多模态遥感影像语义分割模型大多忽略了深度特征的几何形状信息,未将多层特征充分利用就进行融合,导致跨模态特征提取不充分,融合效果不理想。针对这些问题,提出了一种基于多模态特征提取和多层特征融合的遥感影像语义分割模型。通过构建双分支编码器,模型能够分别提取遥感影像的光谱信息和归一化数字表面模型(nDSM)的高程信息,并深入挖掘nDSM的几何形状信息。引入跨层丰富模块细化完善每层特征,从深层到浅层充分利用多层的特征信息。完善后的特征通过注意力特征融合模块,对特征进行差异性互补和交叉融合,以减轻分支结构之间的差异,充分发挥多模态特征的优势,从而提高遥感影像分割精度。在ISPRS Vaihingen和Potsdam数据集上进行实验,mF1分数分别达到了90.88%和93.41%,平均交互比(mIoU)分别达到了83.49%和87.85%,相较于当前主流算法,该算法实现了更准确的遥感影像语义分割。
关键词
遥感影像
归一化数字表面模型(nDSM)
语义分割
特征提取
特征融合
Keywords
remote sensing images
normalized digital surface model(nDSM)
semantic segmentation
feature extraction
feature fusion
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 结合注意力特征融合的路面裂缝检测
被引量:2
4
作者
谢永华
厉涛
柏勇
机构
南京信息工程大学计算机学院
出处
《计算机工程与设计》
北大核心
2025年第1期307-313,共7页
基金
国家自然科学基金项目(62076123)。
文摘
为解决路面裂缝检测中裂缝漏检和定位不准的问题,提出一个结合注意力特征融合的可端到端训练的路面裂缝检测网络。基于Resnet-50结构设计,在特征融合部分添加注意力特征融合模块,通过注意力掩码学习,动态调整浅层特征与深层特征融合权重,突出有用信息,解决裂缝漏检问题;在编码器部分,改进浅层特征与深层特征的选取方式,提升特征融合效果和检测精度。实验结果表明,该网络在各项指标上均优于其它对比网络,具有较高的检测精度。
关键词
裂缝检测
深度学习
语义分割
卷积网络
注意力机制
特征融合
特征提取
Keywords
crack detection
deep learning
semantic segmentation
convolutional network
attention mechanism
feature fusion
feature extraction
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 基于大语言模型的中文多义词义项融合技术研究
被引量:1
5
作者
尹宝生
宗辰
机构
沈阳航空航天大学人机智能研究中心
出处
《计算机科学》
北大核心
2025年第S1期53-59,共7页
基金
辽宁省教育厅项目(LJKMZ20220536)。
文摘
针对中文的一词多义特点,基于现有各类汉语词典资源构建一个义项全面、描述规范的中文多义词知识库,对于汉语语义分析、智能问答、机器翻译以及大语言模型消歧能力调优和评估等具有重要意义。文中针对《现代汉语词典》和《现代汉语规范词典》等资源整合过程中“词条义项含义相同但描述不同”等问题进行了深入分析,并创新性地提出了基于大语言模型和提示学习的多义词义项融合技术,即充分利用大语言模型对常识知识的分析理解和辅助决策能力,通过有效的问题分解策略和提示模版设计,以及义项关系交叉验证等手段完成了多义词义项的自动化融合工作。实验结果表明,在通过正态分布抽取50个多义词共754个义项对的评测数据上,基于上述算法的义项融合的正确率达96.26%,Dice系数为0.973 3。该项研究验证了利用大语言模型开展中文知识资源自动化加工的可行性和有效性,与传统依赖语言专家加工模式相比,在保证较高质量的前提下,显著提升了知识加工效率。
关键词
多义词
义项融合
大语言模型
提示学习
中文信息处理
Keywords
Polysemous word
semantic fusion
Large language model
Cue learning
Chinese information processing
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于融合语义信息的废旧机械产品信息建模方法
6
作者
王蕾
刘新兰
郭钰瑶
张泽琳
夏绪辉
机构
武汉科技大学冶金装备及其控制教育部重点实验室
武汉科技大学机械传动与制造工程湖北省重点实验室
出处
《现代制造工程》
北大核心
2025年第7期80-88,共9页
基金
国家自然科学基金资助项目(52275503,72471181)
湖北省杰青项目(2023AFA092)
武汉市自然科学基金特区计划项目(2024040701010054)。
文摘
废旧机械产品广义生长再制造,是实现从废旧机械产品到性能提升、功能拓展或恰当重用的多层级多粒度再制造过程。针对废旧机械产品广义生长再制造可行产品集合种类众多,导致其产品信息繁杂、信息联系较差,影响废旧机械产品及其零件再制造目标产品检索与选择效率及准确性的问题,提出一种基于融合语义信息的废旧机械产品信息建模方法。综合考虑废旧机械产品中零件的关联关系以及零件本身的材料、结构和失效等信息,融合语义信息和拓扑图论,将影响广义生长再制造选择的产品信息进行准确描述与整合,形成产品信息图。通过对零件的检索,对比所提产品信息模型与常见信息模型,验证了模型的有效性。
关键词
信息建模
机械产品
融合语义
匹配
Keywords
information modeling
mechanical products
fusion semantic s
pairing
分类号
TG122
[金属学及工艺—金属学]
题名 话题性话语标记的自动识别与分类
7
作者
杨进才
余漠洋
胡满
肖明
机构
华中师范大学计算机学院
华中师范大学语言与语言教育研究中心
出处
《计算机科学》
北大核心
2025年第4期255-261,共7页
基金
国家社会科学基金(19BYY092)
教育部人文社科规划基金(20YJA740047)。
文摘
话语标记(Discourse Markers)是一种语言标记,具有组织语篇、引导指意、显示情感的作用,因而受到语言学界的广泛关注。对话语标记及其类别的准确识别,对于篇章理解、说话人意图和情感的把握有重要作用。近十年来,国内外学者对话语标记的功能、特征、来源和系统分类展开研究并取得了丰富的成果。然而,因话语标记形式多变、来源多样、特征抽象、变体繁多,机器自动识别的难度较大。对此,以话题性话语标记为研究对象,提出一种融合外部语言学特征的NFLAT指针网络模型,实现对语篇中话语标记的自动识别和分类。经实验检验,训练后模型对话题性话语标记的识别及分类精确率(P值)达94.55%。
关键词
话语标记
语义增强
特征融合
自动识别与分类
Keywords
Discourse marker
semantic enhancement
Feature fusion
Automatic identification and classification
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于混合深度卷积的遥感影像语义分割
8
作者
田智慧
郎杰
魏海涛
机构
郑州大学地球科学与技术学院
郑州大学计算机与人工智能学院
出处
《计算机应用与软件》
北大核心
2025年第8期253-258,290,共7页
基金
河南省重大科技专项(201400210900)。
文摘
高分辨率遥感影像语义分割作为遥感解译的重要组成部分,其中包含了大量复杂的地物特征信息,且不同地物目标尺寸相差较大,这为遥感影像语义分割带来了一定困难。针对该问题,设计并实现一种基于混合深度卷积的遥感影像语义分割模型MDU-Net。该模型在编码器中采用分阶段的并行网络结构,通过对不同层级中子分支动态的分配权重来实现编码器的动态网络结构,同时引入一种通道和空间注意力模块来改进编码器到解码器的特征融合效果,提升语义分割效果。在ISPRS validation数据集上的测试集精度比DeepLabv3+提高3.44百分点。实验结果表明,该网络在高分辨率遥感影像分割问题中取得了良好的分割效果。
关键词
语义分割
遥感影像
深度学习
特征融合
Keywords
semantic segmentation
Remote sensing images
Deep learning
Features fusion
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于双分支多尺度特征融合的跨模态语义分割算法
9
作者
陈广秋
任天蓉
段锦
黄丹丹
机构
长春理工大学电子信息工程学院
出处
《电子测量与仪器学报》
北大核心
2025年第5期144-154,共11页
基金
国家自然科学基金重大仪器专项(62127813)
吉林省科技发展计划项目(20210203181SF)资助。
文摘
针对单模态可见光RGB图像语义分割在夜晚或光线变化环境下存在分割效果差、目标边缘分割不清晰等问题,以及现有的跨模态语义分割在获取全局上下文信息和融合跨模态特征时还存在大量不足。为此提出了一种基于双分支多尺度特征融合的跨模态语义分割算法。采用Segformer作为主干网络提取特征,捕获长距离依赖关系,采用特征增强模块提升浅层特征图的对比度和边缘信息的判别性,利用有效注意力增强模块和跨模态特征融合模块,对不同模态特征图像素点间的关系进行建模,聚合互补信息,发挥跨模态特征优势。最后,采用轻量级的All-MLP解码器重建图像,预测分割结果。相比较于已有主流算法,该算法在MFNet城市街景数据集上的各项评估指标均为最优,平均准确率(mAcc)和平均交并比(mIoU)分别达到了76.9%和59.8%。实验结果表明,该算法在处理复杂场景时,能够有效改善目标边缘轮廓分割不清晰的问题,提高图像的分割精度。
关键词
多模态深度学习
语义分割
特征融合
跨模态
Segformer
Keywords
multimodal deep learning
semantic segmentation
feature fusion
cross-modal
Segformer
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TN215
[电子电信—物理电子学]
题名 基于多语义关联与融合的视觉问答模型
10
作者
周浩
王超
崔国恒
罗廷金
机构
海军工程大学作战运筹与规划系
国防科技大学理学院
出处
《计算机应用》
北大核心
2025年第3期739-745,共7页
基金
国家自然科学基金资助项目(62302516,62376281)
湖北省自然科学基金资助项目(2022CFC049)
湖南省湖湘青年人才项目(2021RC3070)。
文摘
弥合视觉图像和文本问题之间的语义差异是提高视觉问答(VQA)模型推理准确性的重要方法之一。然而现有的相关模型大多数基于低层图像特征的提取并利用注意力机制推理问题的答案,忽略了高层图像语义特征如关系和属性特征等在视觉推理中的作用。为解决上述问题,提出一种基于多语义关联与融合的VQA模型以建立问题与图像之间的语义联系。首先,基于场景图生成框架提取图像中的多种语义并把它们进行特征精炼后作为VQA模型的特征输入,从而充分挖掘图像场景中的信息;其次,为提高图像特征的语义价值,设计一个信息过滤器过滤图像特征中的噪声和冗余信息;最后,设计多层注意力融合和推理模块将多种图像语义分别与问题特征进行语义融合,以强化视觉图像重点区域与文本问题之间的语义关联。与BAN(Bilinear Attention Network)和CFR(Coarse-to-Fine Reasoning)模型的对比实验结果表明,所提模型在VQA2.0测试集上的准确率分别提高了2.9和0.4个百分点,在GQA测试集上的准确率分别提高了17.2和0.3个百分点。这表明所提模型能够更好地理解图像场景中的语义并回答组合式视觉问题。
关键词
多语义特征融合
视觉问答
场景图
属性注意力
关系注意力
Keywords
fusion of multiple semantic features
Visual Question Answering(VQA)
scene graph
attribute attention
relationship attention
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 对比学习改进文本生成图像方法的研究
11
作者
赵宏
王贺
李文改
机构
兰州理工大学计算机与通信学院
出处
《计算机工程与应用》
北大核心
2025年第14期264-273,共10页
基金
国家自然科学基金(62166025)。
文摘
针对现有文本生成图像方法中仅依赖图像和文本之间的语义相似度损失为约束,模型难以有效学习到图像与对应多个文本之间的关系,导致生成图像和文本之间语义匹配度低的问题,提出一种引入对比学习对文本生成图像模型改进的方法。在训练阶段,采用对比学习的方法,计算同一图像的不同文本生成图像之间的对比损失,使模型能够学习同一图像的不同文本表示,以提高生成图像和文本语义的一致性。同时,计算生成图像与真实图像之间的对比损失,保证生成图像向真实图像靠拢。在生成器中,设计一种新的特征融合模块,通过注意力图作为条件,引导图像特征与文本特征对齐,从而提高生成图像的细节表达。实验结果表明,与基准模型相比,在CUB数据集上的Inception Score分数提高了7.32%,Fréchet Inception Distance分数下降了21.06%;在COCO数据集上的Fréchet In-ception Distance分数下降了36.43%。证明该方法生成的图像具有更好的文本语义一致性和真实性。
关键词
文本生成图像
生成对抗网络(GAN)
对比学习
特征融合
语义一致性
Keywords
text-to-image generation
generative adversarial network(GAN)
contrastive learning
feature fusion
semantic consistency
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于层次化一致性语义学习的多模态意图识别
12
作者
彭俊杰
李铮一
张换香
王兰
机构
上海大学计算机工程与科学学院
内蒙古科技大学创新创业教育学院
出处
《电子学报》
北大核心
2025年第6期2007-2021,共15页
基金
上海市服务业发展引导资金项目(No.06162021592)。
文摘
多模态意图识别(Multimodal Intent Recognition,MIR)是在现实世界中理解人类意图的重要研究方向,旨在通过融合语言、视觉和音频等多种模态信息来准确判断说话人的意图.然而,现有的MIR研究大多集中在如何为文本模态构建多模态语义环境,对视觉和音频模态中蕴含的大量语义信息(如动作和情感语义)的利用则不够深入.尽管视觉和音频模态富含与意图相关的信息,但其固有的冗余信息和噪声却制约了模型对这些模态特征的有效利用.为解决上述问题,本文提出了一种能够有效利用音频模态语义关系,同时有效抑制冗余信息的MIR模型.该模型通过构建抑制冗余信息的初级语义特征,引导学习不同尺度的模态内与模态间语义关联,以理解说话人的意图.在此基础之上,模型利用不同模态特征间潜在的意图一致性,将提取到的音视频语义特征与具有明确意图语义的文本特征进行配对,从而过滤掉那些单独通过意图识别任务无法消除的无关语义信息.此外,模型采用多模态融合门控机制,整合来自不同模态的意图语义.在多个意图理解任务的数据集上的实验表明:所提出的方法能够有效提取音视频模态语义并滤除意图识别无关语义,且在性能上优于现有的MIR方法.具体而言,在准确率(ACCuracy,ACC)值、精确度(Precision,P)值、召回率(Recall,R)值和F_(1)值(F1score,F_(1))上均取得了0.7~1.8个百分点的提升.
关键词
意图识别
多模态融合
多模态语义学习
多任务学习
跨模态注意力
Keywords
intent recognition
multimodal fusion
multimodal semantic learning
multi-task learning
cross-modal attention
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 基于双分支融合与多尺度语义增强的裂缝检测
13
作者
李婕
李焕文
涂静敏
刘钊
姚剑
李礼
机构
湖北工业大学电气与电子工程学院
武汉大学遥感信息工程学院
武汉大学深圳研究院
出处
《计算机工程与应用》
北大核心
2025年第22期329-338,共10页
基金
国家自然科学基金(U22A2009,42301515)
四川省高校智能光电系统传感与应用重点实验室项目(ZNGD2308)
深圳市科技项目(JCYJ20230807090206013)。
文摘
细粒度裂缝作为路面裂缝形成早期阶段,对其进行检测和修复可以及早消除安全隐患,降低维护成本。细粒度裂缝除拓扑结构复杂外,还具有宽度微小、尺度多变的几何特征,在复杂路面背景下,现有方法容易出现漏检且对裂缝宽度感知精度不高的问题。针对此,提出了一种基于双分支选择性融合与多尺度语义增强的路面细粒度裂缝检测方法。设计了增强自注意力机制和卷积神经网络(convolutional neural network,CNN)的双分支并行主干网络,从局部和全局同时进行特征提取,逐层丰富特征表示;提出了冗余减少和选择性特征融合(redundancy reduction and feature selective fusion,RSF)模块,实现双分支全局和局部信息的学习和交互,增强特征的表达能力;采用了多尺度语义增强融合策略,通过跨尺度的信息传递和融合,提升模型对细粒度裂缝特征的感知能力。为了验证该方法的有效性和可靠性,在CrackTree260公共数据集上进行了训练和测试,并在CRKWH100数据集上评估模型的泛化性能。实验表明,所提出的方法在两个数据集上分别达到了0.909和0.918的ODS值,优于其他先进的裂缝检测方法。
关键词
细粒度裂缝检测
自注意力机制
卷积神经网络(CNN)
多尺度特征融合
语义增强
Keywords
fine-grained crack detection
self-attention mechanism
convolutional neural network(CNN)
multi-scale feature fusion
semantic enhancement
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 隐式多尺度对齐与交互的文本-图像行人重识别方法
14
作者
孙锐
杜云
陈龙
张旭东
机构
合肥工业大学计算机与信息学院
出处
《软件学报》
北大核心
2025年第10期4846-4863,共18页
基金
国家自然科学基金(61876057)
安徽省自然科学基金(2208085MF158)
安徽省重点研究与开发计划(202004d07020012)。
文摘
文本-图像行人重识别旨在使用文本描述检索图像库中的目标行人,该技术的主要挑战在于将图像和文本特征嵌入到共同的潜在空间中以实现跨模态对齐.现有的许多工作尝试利用单独预训练的单峰模型来提取视觉和文本特征,再利用切分或者注意力机制来获得显式的跨模态对齐.然而,这些显式对齐方法通常缺乏有效匹配多模态特征所需的底层对齐能力,并且使用预设的跨模态对应关系来实现显式对齐可能会导致模态内信息失真.提出了一种隐式多尺度对齐与交互的文本-图像行人重识别方法.首先利用语义一致特征金字塔网络提取图像的多尺度特征,并使用注意力权重融合包含全局和局部信息的不同尺度特征.其次,利用多元交互注意机制学习图像和文本之间的关联.该机制可以有效地捕捉到不同视觉特征和文本信息之间的对应关系,缩小模态间差距,实现隐式多尺度语义对齐.此外,利用前景增强判别器来增强目标行人,提取更纯洁的行人特征,有助于缓解图像与文本之间的信息不平等.在3个主流的文本-图像行人重识别数据集CUHK-PEDES、ICFG-PEDES及RSTPReid上的实验结果表明,所提方法有效提升了跨模态检索性能,比SOTA算法的Rank-1高出2%–9%.
关键词
文本-图像行人重识别
隐式对齐
多尺度融合
多元交互注意力
语义对齐
Keywords
text-image person re-identification
implicit alignment
multi-scale fusion
multivariate interaction attention
semantic alignment
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 夜间红外与可见光多尺度信息注入式图像融合
15
作者
杨艳春
李佳龙
李毅
王泽煜
机构
兰州交通大学电子与信息工程学院
出处
《光学精密工程》
北大核心
2025年第2期282-297,共16页
基金
长江学者和创新团队发展计划资助(No.IRT_16R36)
国家自然科学基金(No.62067006)
+3 种基金
甘肃省科技计划项目(No.18JR3RA104)
甘肃省高等学校产业支撑计划项目(No.2020C-19)
甘肃省重点研发计划(No.25YFGA047)
甘肃省自然科学基金项目(No.23JRRA847,No.21JR7RA300)。
文摘
针对低光照条件下红外与可见光图像融合由于忽视光照而导致纹理细节不清晰、视觉感知较差等问题,本文提出了一种低光增强和语义注入式多尺度红外与可见光图像融合方法。首先,设计了一种适合低光增强的网络,通过残差模型反复迭代,实现夜间场景下可见光图像的增强。然后,采用一种基于Nest架构的特征提取器作为网络的编码与解码器,其中深层特征能捕获图像的复杂结构和语义信息,设计了一种语义先验学习模块,通过交叉注意力进一步提取深层红外与可见光图像的语义信息,采用语义注入单元,将增强特征逐级注入了各个尺度。其次,设计了梯度增强分支,主流特征先通过混合注意力,再由主流分出Sobel算子流和Laplacian算子流,以此增强融合图像梯度。最后,通过解码器中同层之间的密集连接和不同层之间的跳跃连接,对各尺度特征进行重构。实验结果表明,本文在视觉信息保真度、互信息、差异相关系数和空间频率,较九种对比方法分别平均提高了23.1%,16.3%,18%,39.8%,有效提升了低光环境下融合图像的质量,有助于提升高级视觉任务的性能。
关键词
红外与可见光图像融合
多尺度融合网络
低光增强
交叉注意力
语义注入
Keywords
infrared and visible image fusion
multiscale fusion networks
low-light enhancement
cross-attention
semantic injection
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于多模态上下文融合及语义增强的虚假新闻检测
16
作者
郝秀兰
徐稳静
魏少华
刘权
机构
湖州师范学院信息工程学院
湖州师范学院浙江省现代农业资源智慧管理与应用研究重点实验室
浙江全省智能教育技术与应用重点实验室
出处
《中文信息学报》
北大核心
2025年第5期140-149,共10页
基金
湖州师范学院研究生科研创新项目课题(2023KYCX42)
浙江省现代农业资源智慧管理与应用研究重点实验室基金(2020E10017)。
文摘
深度学习算法在虚假新闻检测关键特征提取方面具有优势,然而,现有的基于深度学习的多模态虚假新闻检测方法仍存在不足之处,例如,从输入的图像与文本中提取特征并进行特征融合时存在融合不充分的问题。针对这一问题,该文提出了一种基于多模态上下文融合及语义增强的虚假新闻检测模型MCEFSE(Multimodal Context based Early Fusion and Semantic Enhancement)。首先,该文利用预训练语言模型BERT对句子进行编码。同时,以Swin Transformer模型作为主要框架,在早期视觉特征编码时引入文本特征,增强语义交互。此外,我们还使用InceptionNetV3作为图像模式分析器。最后,对文本语义、视觉语义和图像模式特征进行细化和融合,得到最终的多模态特征表示。结果显示,MCEFSE模型在微博数据集和微博-21数据集上的准确率分别为0.921和0.932,验证了该方法的有效性。
关键词
虚假新闻检测
多模态上下文
特征融合
语义增强
Keywords
fake news detection
multimodal context
features fusion
semantic enhancement
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 全局感知与多尺度特征融合的城市道路语义分割
17
作者
邬开俊
张治瑞
汪滢
安立伟
机构
兰州交通大学电子与信息工程学院
内蒙古民族大学草业学院
出处
《光学精密工程》
北大核心
2025年第14期2262-2277,共16页
基金
甘肃省自然科学基金项目(No.23JRRA913)
内蒙古自治区重点研发与成果转化计划项目(No.2023YFDZ0043,No.2023YFDZ0054,No.2023YFSH0043)
兰州交通大学重点研发项目资助(No.ZDYF2304)。
文摘
语义分割在自动驾驶与智能交通工程应用中发挥着不可替代的作用。针对语义分割现存分割边界模糊、物体间相互遮挡及物体多尺度差异造成的分割精度不足问题,提出全局感知与多尺度特征融合的城市道路语义分割网络。为改善分割边界模糊的问题,设计全局感知模块,通过联合空间和通道信息增强特征之间的交互以感知全局信息;物体间相互遮挡情况下模型往往需要提升被遮挡区域的敏感度,为此提出多尺度特征融合模块以兼顾大小物体的分割精度;采用综合性的多约束特征平滑损失评估模型,进一步平滑特征,优化目标以求最优解。经实验验证,本文方法于Cityscapes数据集上在不同分辨率情况下mIoU值分别提升0.5%,0.9%,1.7%,在ADE20K数据集上mIoU值提升2.1%。相比于现有语义分割网络模型,本文方法分割效果有进一步提升。
关键词
深度学习
图像处理
语义分割
特征融合
损失函数
Keywords
deep learning
image processing
semantic segmentation
feature fusion
loss function
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 多尺度融合增强与注意力机制结合的图像语义分割
18
作者
刘书刚
杜昊东
王洪涛
机构
华北电力大学计算机系
出处
《计算机应用与软件》
北大核心
2025年第6期225-233,278,共10页
基金
国家自然科学基金项目(61802124)。
文摘
针对当前图像语义分割中分割效率不高与分割边界不连续问题,提出一种多尺度融合增强与注意力机制结合的语义分割算法。该算法对原有DeepLabv3+网络结构进行改进,在编码器部分提出一种特征提取增强网络结构,充分利用相邻层各个尺度的特征信息进行融合,在解码器末端使用改进的轻量化卷积注意力模块,使得对于物体边界分割更加充分。通过在Pascal VOC2007和Cityscapes数据集上进行实验验证,结果表明该方法较原有网络的精确度有显著的提高。
关键词
语义分割
特征融合增强
注意力模块
编码器
上采样
Keywords
semantic segmentation
Feature fusion enhancement
Attention module
Encoder
Up-sample
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
题名 基于实时语义链表构建系统的改善定位研究
19
作者
蒋林
杨文琦
雷斌
李云飞
汤勃
朱建阳
机构
武汉科技大学冶金装备及其控制教育部重点实验室
武汉科技大学机器人与智能系统研究院
武汉科技大学机械传动与制造工程湖北省重点实验室
出处
《电子学报》
北大核心
2025年第5期1533-1540,共8页
基金
国家重点研发计划(No.2019YFB1310000)
国家自然科学基金(No.51874217)。
文摘
针对移动机器人领域自适应蒙特卡洛定位算法(Adaptive Monte Carlo Localization,AMCL)在相似及变化场景下易失效的问题,本文提出基于改进YOLOv8构建语义链表为AMCL提供预定位位姿的方法,改变粒子权重更新方式,进而提升定位准确性和鲁棒性.以YOLOv8为基础,结合信息聚集-分发机制和注意力尺度序列融合模块增强其Neck部分特征融合能力,并对模型进行剪枝,提升精度和速度;利用激光SLAM(Simultaneous Localization And Map-ping)构建二维栅格地图,通过改进的YOLOv8提取物体语义并映射到地图上,得到二维语义地图,根据各连续语义物体之间的关系构建语义链表;在定位过程中,将机器人识别到的物体语义信息与语义链表进行匹配,为AMCL提供预定位位姿,改变其粒子更新方式进行精确定位,并基于词袋模型降低免疫障碍物遮挡导致的语义链断裂.在相似及变化场景下进行定位对比实验,实验结果验证了本文算法的有效性.
关键词
特征融合
模型剪枝
语义链表
免疫遮挡
改善定位
Keywords
feature fusion
model pruning
semantic chain list
immunity to occlusion
localization improvement
分类号
TP242.6
[自动化与计算机技术—检测技术与自动化装置]
题名 深层语义特征增强的ReLM中文拼写纠错模型
20
作者
张伟
牛家祥
马继超
沈琼霞
机构
湖北大学人工智能学院
湖北大学计算机学院
烽火通信科技股份有限公司
出处
《计算机应用》
北大核心
2025年第8期2484-2490,共7页
基金
国家自然科学基金资助项目(62273135)。
文摘
ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分离卷积(DSC)技术融合特征提取模型BGE(BAAI General Embeddings)生成的深层语义特征与ReLM生成的整体特征,从而有效提升模型对复杂上下文的解析力和拼写错误的识别纠正精度。首先,在Wang271K数据集上训练FeReLM,使模型持续学习句子中的深层语义和复杂表达;其次,迁移训练好的权重,从而将模型学习到的知识应用于新的数据集并进行微调。实验结果表明,在ECSpell和MCSC数据集上与ReLM、MCRSpell(Metric learning of Correct Representation for Chinese Spelling Correction)和RSpell(Retrieval-augmented Framework for Domain Adaptive Chinese Spelling Check)等模型相比,FeReLM的精确率、召回率、F1分数等关键指标的提升幅度可达0.6~28.7个百分点。此外,通过消融实验验证了所提方法的有效性。
关键词
自然语言处理
特征增强
中文拼写纠错
语义融合
文本纠错
预训练语言模型
Keywords
Natural Language Processing(NLP)
feature enhancement
Chinese Spelling Correction(CSC)
semantic fusion
text correction
Pre-trained Language Model(PLM)
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]