在只有图像和目标文本提示作为输入的情况下,对真实图像进行基于文本引导的编辑是一项极具挑战性的任务。以往基于微调大型预训练扩散模型的方法,往往对源文本特征和目标文本特征进行简单的插值组合,用于引导图像生成过程,这限制了其编...在只有图像和目标文本提示作为输入的情况下,对真实图像进行基于文本引导的编辑是一项极具挑战性的任务。以往基于微调大型预训练扩散模型的方法,往往对源文本特征和目标文本特征进行简单的插值组合,用于引导图像生成过程,这限制了其编辑能力,同时微调大型扩散模型极易出现过拟合且耗时长的问题。提出了一种基于映射融合嵌入扩散模型的文本引导图像编辑方法(Text-guided image editing method based on diffusion model with mapping-fusion embedding,MFE-Diffusion)。该方法由两部分组成:(1)大型预训练扩散模型与源文本特征向量联合学习框架,使模型可以快速学习以重建给定的原图像;(2)特征映射融合模块,深度融合目标文本与原图像的特征信息,生成条件嵌入,用于引导图像编辑过程。在具有挑战性的文本引导图像编辑基准TEdBench上进行实验验证,结果表明所提方法在图像编辑性能上具有优势。展开更多
脑电信号(Electroencephalogram,EEG)作为一种客观直接的信息源,被广泛应用于情绪识别任务。为了提取脑电信号的空间连通特征所隐含的信息,提出了一种基于空间连通特征和残差卷积神经网络(Spatial connectivity features and residual c...脑电信号(Electroencephalogram,EEG)作为一种客观直接的信息源,被广泛应用于情绪识别任务。为了提取脑电信号的空间连通特征所隐含的信息,提出了一种基于空间连通特征和残差卷积神经网络(Spatial connectivity features and residual convolutional neural network,SCF-RCNN)模型的情绪识别方法。该方法从经预处理的脑电信号中提取皮尔逊相关系数(Pearson correlation coefficient,PCC)、锁相值(Phase-locked value,PLV)和互信息(Mutual information,MI)作为空间连通特征,使用包含两个残差模块的卷积神经网络模型来提取情感信息。在SEED数据集上的实验结果显示,PLV构造的连接矩阵与脑电情绪关系更为密切,其平均准确率可达93.38%,标准差为3.35%。与传统算法相比,SCF-RCNN在情绪识别领域的分类任务中表现更为优越,表明该方法在情绪识别领域具有重要的应用潜力。展开更多
行人重识别虽已取得了显著进展,但在实际应用场景中,不同障碍物引起的遮挡问题仍然是一个亟待解决的挑战。为了从被遮挡行人中提取更有效的特征,提出了一种基于可学习掩模和位置编码(Learnable mask and position encoding, LMPE)的遮...行人重识别虽已取得了显著进展,但在实际应用场景中,不同障碍物引起的遮挡问题仍然是一个亟待解决的挑战。为了从被遮挡行人中提取更有效的特征,提出了一种基于可学习掩模和位置编码(Learnable mask and position encoding, LMPE)的遮挡行人重识别方法。首先,引入了一种可学习的双路注意力掩模生成器(Learnable dual attention mask generator, LDAMG),生成的掩模能够适应不同遮挡模式,显著提升了对被遮挡行人的识别准确性。该模块可以使网络更灵活,能更好地适应多样性的遮挡情况,有效克服了遮挡带来的困扰。同时,该网络通过掩模学习上下文信息,进一步增强了对行人所处场景的理解力。此外,为了解决Transformer位置信息损耗问题,引入了遮挡感知位置编码融合(Occlusion aware position encoding fusion, OAPEF)模块。该模块进行不同层次位置编码融合,使网络获得更强的表达能力。通过全方位整合图像位置编码,可以更准确地理解行人间的空间关系,提高模型对遮挡情况的适应能力。最后,仿真实验表明,本文提出的LMPE在Occluded-Duke和Occluded-ReID遮挡数据集以及Market-1501和DukeMTMC-ReID无遮挡数据集上都取得了较好的效果,验证了本文方法的有效性和优越性。展开更多
由于患者个体差异、采集协议多样性和数据损坏等因素,现有基于磁共振成像(Magnetic resonance imaging,MRI)的脑肿瘤分割方法存在模态数据丢失问题,导致分割精度不高。为此,本文提出了一种基于U-Net和Transformer结合的不完整多模态脑...由于患者个体差异、采集协议多样性和数据损坏等因素,现有基于磁共振成像(Magnetic resonance imaging,MRI)的脑肿瘤分割方法存在模态数据丢失问题,导致分割精度不高。为此,本文提出了一种基于U-Net和Transformer结合的不完整多模态脑肿瘤分割(Incomplete multimodal brain tumor segmentation based on the combination of U-Net and Transformer,IM TransNet)方法。首先,针对脑肿瘤MRI的4个不同模态设计了单模态特定编码器,提升模型对各模态数据的表征能力。其次,在U-Net中嵌入双重注意力的Transformer模块,克服模态缺失引起的信息不完整问题,减少U-Net的长距离上下文交互和空间依赖性局限。在U-Net的跳跃连接中加入跳跃交叉注意力机制,动态关注不同层级和模态的特征,即使在模态缺失时,也能有效融合特征并进行重建。此外,针对模态缺失引起的训练不平衡问题,设计了辅助解码模块,确保模型在各种不完整模态子集上均能稳定高效地分割脑肿瘤。最后,基于公开数据集BRATS验证模型的性能。实验结果表明,本文提出的模型在增强型肿瘤、肿瘤核心和全肿瘤上的平均Dice评分分别为63.19%、76.42%和86.16%,证明了其在处理不完整多模态数据时的优越性和稳定性,为临床实践中脑肿瘤的准确、高效和可靠分割提供了一种可行的技术手段。展开更多
文摘在只有图像和目标文本提示作为输入的情况下,对真实图像进行基于文本引导的编辑是一项极具挑战性的任务。以往基于微调大型预训练扩散模型的方法,往往对源文本特征和目标文本特征进行简单的插值组合,用于引导图像生成过程,这限制了其编辑能力,同时微调大型扩散模型极易出现过拟合且耗时长的问题。提出了一种基于映射融合嵌入扩散模型的文本引导图像编辑方法(Text-guided image editing method based on diffusion model with mapping-fusion embedding,MFE-Diffusion)。该方法由两部分组成:(1)大型预训练扩散模型与源文本特征向量联合学习框架,使模型可以快速学习以重建给定的原图像;(2)特征映射融合模块,深度融合目标文本与原图像的特征信息,生成条件嵌入,用于引导图像编辑过程。在具有挑战性的文本引导图像编辑基准TEdBench上进行实验验证,结果表明所提方法在图像编辑性能上具有优势。
文摘由于患者个体差异、采集协议多样性和数据损坏等因素,现有基于磁共振成像(Magnetic resonance imaging,MRI)的脑肿瘤分割方法存在模态数据丢失问题,导致分割精度不高。为此,本文提出了一种基于U-Net和Transformer结合的不完整多模态脑肿瘤分割(Incomplete multimodal brain tumor segmentation based on the combination of U-Net and Transformer,IM TransNet)方法。首先,针对脑肿瘤MRI的4个不同模态设计了单模态特定编码器,提升模型对各模态数据的表征能力。其次,在U-Net中嵌入双重注意力的Transformer模块,克服模态缺失引起的信息不完整问题,减少U-Net的长距离上下文交互和空间依赖性局限。在U-Net的跳跃连接中加入跳跃交叉注意力机制,动态关注不同层级和模态的特征,即使在模态缺失时,也能有效融合特征并进行重建。此外,针对模态缺失引起的训练不平衡问题,设计了辅助解码模块,确保模型在各种不完整模态子集上均能稳定高效地分割脑肿瘤。最后,基于公开数据集BRATS验证模型的性能。实验结果表明,本文提出的模型在增强型肿瘤、肿瘤核心和全肿瘤上的平均Dice评分分别为63.19%、76.42%和86.16%,证明了其在处理不完整多模态数据时的优越性和稳定性,为临床实践中脑肿瘤的准确、高效和可靠分割提供了一种可行的技术手段。