近年来,Transformer在众多监督式计算机视觉任务中取得了显著进展,然而由于高质量医学标注图像的缺乏,其在半监督图像分割领域的性能仍有待提高。为此,提出了一种基于多尺度和多视图Transformer的半监督医学图像分割框架:MSMVT(multi-sc...近年来,Transformer在众多监督式计算机视觉任务中取得了显著进展,然而由于高质量医学标注图像的缺乏,其在半监督图像分割领域的性能仍有待提高。为此,提出了一种基于多尺度和多视图Transformer的半监督医学图像分割框架:MSMVT(multi-scale and multi-view transformer)。鉴于对比学习在Transformer的预训练中取得的良好效果,设计了一个基于伪标签引导的多尺度原型对比学习模块。该模块利用图像金字塔数据增强技术,为无标签图像生成富有语义信息的多尺度原型表示;通过对比学习,强化了不同尺度原型之间的一致性,从而有效缓解了由标签稀缺性导致的Transformer训练不足的问题。此外,为了增强Transformer模型训练的稳定性,提出了多视图一致性学习策略。通过弱扰动视图,以校正多个强扰动视图。通过最小化不同视图之间的输出差异性,使得模型能够对不同扰动保持多层次的一致性。实验结果表明,当仅采用10%的标注比例时,提出的MSMVT框架在ACDC、LIDC和ISIC三个公共数据集上的DSC图像分割性能指标分别达到了88.93%、84.75%和85.38%,优于现有的半监督医学图像分割方法。展开更多
现有深度多视图立体(MVS)方法将Transformer引入级联网络,以实现高分辨率深度估计,从而实现高精确度和完整度的三维重建结果。然而,基于Transformer的方法受计算成本的限制,无法扩展到更精细的阶段。为此,提出一种新颖的跨尺度Transfor...现有深度多视图立体(MVS)方法将Transformer引入级联网络,以实现高分辨率深度估计,从而实现高精确度和完整度的三维重建结果。然而,基于Transformer的方法受计算成本的限制,无法扩展到更精细的阶段。为此,提出一种新颖的跨尺度Transformer的MVS网络,在不增加额外计算的情况下处理不同阶段的特征表示。引入一种自适应匹配感知Transformer(AMT),在多个尺度上使用不同的交互式注意力组合。这种组合策略使所提网络能够捕捉图像内部的上下文信息,并增强图像之间的特征关系。此外,设计双特征引导聚合(DFGA),将粗糙的全局语义信息嵌入到更精细的代价体构建中,以进一步增强全局和局部特征的感知。同时,通过设计一种特征度量损失,用于评估变换前后的特征偏差,以减少特征错误匹配对深度估计的影响。实验结果表明,在DTU数据集中,所提网络的完整度和整体度量达到0.264、0.302,在Tanks and temples 2个大场景的重建平均值分别达到64.28、38.03。展开更多
For the pre-acquired serial images from camera lengthways motion, a view synthesis algorithm based on epipolar geometry constraint is proposed in this paper. It uses the whole matching and maintaining order characters...For the pre-acquired serial images from camera lengthways motion, a view synthesis algorithm based on epipolar geometry constraint is proposed in this paper. It uses the whole matching and maintaining order characters of the epipolar line, Fourier transform and dynamic programming matching theories, thus truly synthesizing the destination image of current viewpoint. Through the combination of Fourier transform, epipolar geometry constraint and dynamic programming matching, the circumference distortion problem resulting from conventional view synthesis approaches is effectively avoided. The detailed implementation steps of this algorithm are given, and some running instances are presented to illustrate the results.展开更多
随着自动驾驶技术的快速发展,准确预测周围车辆的运动轨迹成为确保行车安全的关键。现有的方法大多未充分考虑车辆与环境以及车与车之间的互动和环境情景信息,面对复杂交通场景下的轨迹预测性能不佳。基于此,提出一种融合时空查询Transf...随着自动驾驶技术的快速发展,准确预测周围车辆的运动轨迹成为确保行车安全的关键。现有的方法大多未充分考虑车辆与环境以及车与车之间的互动和环境情景信息,面对复杂交通场景下的轨迹预测性能不佳。基于此,提出一种融合时空查询Transformer的情景感知多模态车辆轨迹预测模型(Contex-aware Multimodal Vehicle Trajectory Pediction Model Based on Spatio-Temporal Query Transformer,STQformer),高效地理解和预测复杂交通环境中的车辆行为。模型以Transformer框架为基础,引入可学习的时空查询并利用社交交互模块,实现对车辆意图的深度感知和更准确的轨迹预测。实验结果表明:与当前先进的轨迹预测算法相比,STQformer在长期预测方面的性能同比性能最佳对比模型提升了9%。该模型有助于提升自动驾驶系统的安全性和可靠性,推动自动驾驶技术的发展和应用,使其更好地适应复杂多变的交通环境,减少交通事故,提高交通效率。展开更多
文摘近年来,Transformer在众多监督式计算机视觉任务中取得了显著进展,然而由于高质量医学标注图像的缺乏,其在半监督图像分割领域的性能仍有待提高。为此,提出了一种基于多尺度和多视图Transformer的半监督医学图像分割框架:MSMVT(multi-scale and multi-view transformer)。鉴于对比学习在Transformer的预训练中取得的良好效果,设计了一个基于伪标签引导的多尺度原型对比学习模块。该模块利用图像金字塔数据增强技术,为无标签图像生成富有语义信息的多尺度原型表示;通过对比学习,强化了不同尺度原型之间的一致性,从而有效缓解了由标签稀缺性导致的Transformer训练不足的问题。此外,为了增强Transformer模型训练的稳定性,提出了多视图一致性学习策略。通过弱扰动视图,以校正多个强扰动视图。通过最小化不同视图之间的输出差异性,使得模型能够对不同扰动保持多层次的一致性。实验结果表明,当仅采用10%的标注比例时,提出的MSMVT框架在ACDC、LIDC和ISIC三个公共数据集上的DSC图像分割性能指标分别达到了88.93%、84.75%和85.38%,优于现有的半监督医学图像分割方法。
文摘现有深度多视图立体(MVS)方法将Transformer引入级联网络,以实现高分辨率深度估计,从而实现高精确度和完整度的三维重建结果。然而,基于Transformer的方法受计算成本的限制,无法扩展到更精细的阶段。为此,提出一种新颖的跨尺度Transformer的MVS网络,在不增加额外计算的情况下处理不同阶段的特征表示。引入一种自适应匹配感知Transformer(AMT),在多个尺度上使用不同的交互式注意力组合。这种组合策略使所提网络能够捕捉图像内部的上下文信息,并增强图像之间的特征关系。此外,设计双特征引导聚合(DFGA),将粗糙的全局语义信息嵌入到更精细的代价体构建中,以进一步增强全局和局部特征的感知。同时,通过设计一种特征度量损失,用于评估变换前后的特征偏差,以减少特征错误匹配对深度估计的影响。实验结果表明,在DTU数据集中,所提网络的完整度和整体度量达到0.264、0.302,在Tanks and temples 2个大场景的重建平均值分别达到64.28、38.03。
文摘For the pre-acquired serial images from camera lengthways motion, a view synthesis algorithm based on epipolar geometry constraint is proposed in this paper. It uses the whole matching and maintaining order characters of the epipolar line, Fourier transform and dynamic programming matching theories, thus truly synthesizing the destination image of current viewpoint. Through the combination of Fourier transform, epipolar geometry constraint and dynamic programming matching, the circumference distortion problem resulting from conventional view synthesis approaches is effectively avoided. The detailed implementation steps of this algorithm are given, and some running instances are presented to illustrate the results.
文摘随着自动驾驶技术的快速发展,准确预测周围车辆的运动轨迹成为确保行车安全的关键。现有的方法大多未充分考虑车辆与环境以及车与车之间的互动和环境情景信息,面对复杂交通场景下的轨迹预测性能不佳。基于此,提出一种融合时空查询Transformer的情景感知多模态车辆轨迹预测模型(Contex-aware Multimodal Vehicle Trajectory Pediction Model Based on Spatio-Temporal Query Transformer,STQformer),高效地理解和预测复杂交通环境中的车辆行为。模型以Transformer框架为基础,引入可学习的时空查询并利用社交交互模块,实现对车辆意图的深度感知和更准确的轨迹预测。实验结果表明:与当前先进的轨迹预测算法相比,STQformer在长期预测方面的性能同比性能最佳对比模型提升了9%。该模型有助于提升自动驾驶系统的安全性和可靠性,推动自动驾驶技术的发展和应用,使其更好地适应复杂多变的交通环境,减少交通事故,提高交通效率。