题名 基于分层矢量量化的低照度航拍图像增强
1
作者
刘梦可
吕学强
韩晶
滕尚志
机构
北京信息科技大学机电系统测控北京市重点实验室
北京信息科技大学网络文化与数字传播北京市重点实验室
出处
《北京信息科技大学学报(自然科学版)》
2025年第1期1-10,共10页
基金
国家自然科学基金项目(62171043,62202061)
北京市自然科学基金项目(4232025)
+1 种基金
青海省创新平台建设专项(2022-ZJ-T02)
北京市教委科研计划科技一般项目(KM202311232003)。
文摘
由于低照度航拍图像增强任务的复杂性和病态特性,传统基于直方图的方法和基于Retinex的方法难以实现对图像的精确处理。为此,提出了一种基于分层矢量量化生成对抗网络(hierarchical vector quantization generative adversarial network,HVQGAN)的低照度航拍图像增强方法。首先,通过分层矢量量化从正常光图像中推导出码本先验,并引入双照度感知模块解决图像递归性和照度不均问题。同时,嵌入金字塔归一化流模块,以确保低照度特征与正常光图像的潜在表示精确对齐。此外,设计自适应特征融合模块,在解码过程中保留先前码本提供的真实细节,进一步提高保真度。实验结果表明,所提方法在多个数据集上的视觉质量和量化指标实现了显著增强。
关键词
航拍图像增强
分层矢量量化
码本先验
双照度感知
金字塔归一化流
Keywords
aerial image enhancement
hierarchical vector quantization(HVQ)
codebook prior
dual-illumination perception
pyramid normalization flow
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于预训练模型的单帧航拍图像无监督语义分割
被引量:2
2
作者
任月冬
游新冬
滕尚志
吕学强
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
出处
《北京信息科技大学学报(自然科学版)》
2024年第2期21-28,共8页
基金
国家自然科学基金项目(62202061
62171043)
+1 种基金
北京市自然科学基金项目(4232025)
北京市教委科研计划科技一般项目(KM202311232002)。
文摘
针对航拍图像语义分割成本高、通用性差和精度低等问题,提出了一种两阶段无监督语义分割网络(two-stage unsupervised semantic segmentation net, TUSSNet),针对单帧航拍图像训练进而生成最终的语义分割结果。算法分为2个阶段。首先,使用对比语言-图像预训练(contrastive language-image pretraining, CLIP)模型生成航拍图像的粗粒度语义标签,然后进行网络的预热训练。其次,在第一阶段的基础上,采用分割一切模型(segment anything model, SAM)对航拍图像进行细粒度类别预测,生成精细化类别掩码伪标签;然后迭代优化网络,得到最终语义分割结果。实验结果显示,相较于现有无监督语义分割方法,算法显著提高了航拍图像的分割精度,同时提供了准确的语义信息。
关键词
预训练模型
航拍图像
语义分割
无监督算法
聚类效果估计
深度学习
Keywords
pretrained model
aerial image
semantic segmentation
unsupervised algorithm
clustering performance estimation
deep learning
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 融合双通道标签语义的多标签文本分类模型
3
作者
冯心昊
吕学强
马登豪
滕尚志
田晶晶
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
中国标准化研究院
出处
《北京信息科技大学学报(自然科学版)》
2024年第4期49-54,共6页
基金
国家自然科学基金项目(62171043)
国家语委项目(ZDI145-10)
中国标准化研究院院长基金项目(282022Y-9461)。
文摘
针对多标签文本分类任务中的标签语义表示,提出了一种双通道标签语义增强模型。该模型包含2个重要的组成模块:基于标签共现的图卷积网络模块和基于预训练的标签语义嵌入模块。前者利用图卷积网络捕获标签之间的语义关联,增强每个标签的语义信息;后者利用预训练模型中的先验知识,增强标签的语义表示。最后,利用注意力机制融合并深度编码来自双通道的标签语义信息。在2个公开数据集AAPD、RCV1-V2上的多标签文本分类实验结果表明:与主流基线方法相比,该方法的精确率、召回率和微F1(Micro-F1)均有显著提升。
关键词
多标签文本分类
标签语义嵌入
预训练语言模型
图卷积网络
Keywords
multi-label text classification
label semantic embedding
pre-trained language model
graph convolutional network
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于DeepLabv3+的图像边界修复语义分割
4
作者
任子玉
游新冬
滕尚志
吕学强
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
出处
《北京信息科技大学学报(自然科学版)》
2024年第6期17-24,共8页
基金
国家自然科学基金项目(62202061,62171043)
北京市自然科学基金项目(4232025)
北京市教委科研计划科技一般项目(KM202311232002)。
文摘
针对DeepLabv3+在高分辨率遥感图像语义分割中存在的分割目标边界残缺和细节模糊问题,提出了一种图像边界修复语义分割方法。引入多深度卷积头转置注意力(multi-Dconv head transposed attention,MDTA)边界修复模块,将通道注意力机制应用于多级低阶特征,获取不同抽象层次的边缘纹理结构;将经过通道权值分配的密集采样空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)级联模块的输出作为编码器的输出,解码器融合了低阶特征与编码器输出的增强特征,提高了目标边界的清晰度;利用空间上下文信息挖掘模块——上下文转换器(contextual transformer,CoT),增强对图像不同区域之间依赖关系的感知能力。实验证明,该方法在多个公开数据集上的性能取得了显著提升,在VOC2012的验证集上平均交并比(mean intersection over union,mIoU)达到了90.42%。
关键词
DeepLabv3+
语义分割
空洞空间金字塔池化
特征融合
Keywords
DeepLabv3+
semantic segmentation
atrous spatial pyramid pooling(ASPP)
feature fusion
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 多模态语言舆情数据集构建与识别方法
5
作者
吕学强
董良
滕尚志
张乐
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
出处
《北京信息科技大学学报(自然科学版)》
2023年第5期1-9,共9页
基金
国家自然科学基金资助项目(62202061,62171043)
北京市自然科学基金项目(4232025)
+1 种基金
国家语言文字工作委员会科研项目(ZDI145-10)
北京市教委科研计划科技一般项目(KM202311232002)。
文摘
针对现有语言舆情领域缺乏研究数据集的问题,通过构建语言舆情信息源库,确立了语言舆情的信息来源和范围,并对其中包含的微博数据进行采集,以构建多模态语言舆情数据集。进一步提出了一种基于多模态融合的语言舆情识别方法,通过注意力机制增强单模态特征,并学习不同模态特征之间的依赖关系,以生成细粒度的多模态表示。实验结果表明,本文方法在准确率上优于现有的多模态分类方法,可有效识别出语言舆情信息。
关键词
语言舆情
数据集构建
注意力机制
多模态融合
舆情识别
Keywords
language public opinion
dataset construction
attention mechanism
multimodal fusion
public opinion recognition
分类号
TP37
[自动化与计算机技术—计算机系统结构]