土壤是具有高度异质性的复合体。早期的数字土壤制图研究主要关注水平方向的土壤空间变异和制图,对垂直方向空间变异和土壤三维制图考虑较少。近年来,三维地理信息技术和对地观测与探测技术的快速发展,极大地促进了土壤三维空间数据获...土壤是具有高度异质性的复合体。早期的数字土壤制图研究主要关注水平方向的土壤空间变异和制图,对垂直方向空间变异和土壤三维制图考虑较少。近年来,三维地理信息技术和对地观测与探测技术的快速发展,极大地促进了土壤三维空间数据获取、三维空间推测、三维数据模型、三维模型构建和可视化方法等方面的研究。本文对三维空间土壤推测与土壤模型构建的已有方法进行梳理和评述,以期为三维数字土壤制图的应用和发展提供建议。以三维土壤制图、三维GIS、三维数据模型、三维地质建模、三维可视化、土壤空间变异、空间推测、克里格插值、土壤-景观分析、深度函数、机器学习、地统计学、随机模拟等为关键词检索Web of Science数据库,基于相关度、引用率和文献来源等因素进一步筛选出重点文献进行分析。归纳整理了土壤空间变异性、三维空间土壤推测、三维空间数据模型和三维模型构建等关键技术的现有研究体系,对各种三维推测和建模方法的优缺点和适用场景作出评价。针对目前研究中存在的垂直方向土壤数据稀少、土壤三维推测精度低、三维模型质量待提高等问题,提出一些可行的研究思路。展开更多
视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等...视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等方式提高生成字幕的质量,但在时空联合建模方面仍存在不足,可能导致视觉信息提取不充分,影响字幕生成结果。为了解决这个问题,本文提出一种新颖的时空增强的状态空间模型和Transformer(SpatioTemporal-enhanced State space model and Transformer,ST2)模型,通过引入最近流行的具有全局感受野和线性的计算复杂度的Mamba(一种状态空间模型),增强时空联合建模能力。首先,通过将Mamba与Transformer并行结合,提出空间增强的状态空间模型(State Space Model,SSM)和Transformer(Spatial enHanced State space model and Transformer module,SH-ST),克服了卷积的感受野问题并降低计算复杂度,同时增强模型提取空间信息的能力。然后为了增强时间建模,我们利用Mamba的时间扫描特性,并结合Transformer的全局建模能力,提出时间增强的SSM和Transformer(Temporal enHanced State space model and Transformer module,TH-ST)。具体地,我们对SH-ST产生的特征进行重排序,从而使Mamba以交叉扫描的方式增强重排序后特征的时间关系,最后用Transformer进一步增强时间建模能力。实验结果表明,我们ST2模型中SH-ST和TH-ST结构设计的有效性,且在广泛使用的视频字幕生成数据集MSVD和MSR-VTT上取得了具有竞争力的结果。具体的,我们的方法分别在MSVD和MSR-VTT数据集上的绝对CIDEr分数超过最先进的结果6.9%和2.6%,在MSVD上的绝对CIDEr分数超过了基线结果4.9%。展开更多
文摘土壤是具有高度异质性的复合体。早期的数字土壤制图研究主要关注水平方向的土壤空间变异和制图,对垂直方向空间变异和土壤三维制图考虑较少。近年来,三维地理信息技术和对地观测与探测技术的快速发展,极大地促进了土壤三维空间数据获取、三维空间推测、三维数据模型、三维模型构建和可视化方法等方面的研究。本文对三维空间土壤推测与土壤模型构建的已有方法进行梳理和评述,以期为三维数字土壤制图的应用和发展提供建议。以三维土壤制图、三维GIS、三维数据模型、三维地质建模、三维可视化、土壤空间变异、空间推测、克里格插值、土壤-景观分析、深度函数、机器学习、地统计学、随机模拟等为关键词检索Web of Science数据库,基于相关度、引用率和文献来源等因素进一步筛选出重点文献进行分析。归纳整理了土壤空间变异性、三维空间土壤推测、三维空间数据模型和三维模型构建等关键技术的现有研究体系,对各种三维推测和建模方法的优缺点和适用场景作出评价。针对目前研究中存在的垂直方向土壤数据稀少、土壤三维推测精度低、三维模型质量待提高等问题,提出一些可行的研究思路。
文摘视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等方式提高生成字幕的质量,但在时空联合建模方面仍存在不足,可能导致视觉信息提取不充分,影响字幕生成结果。为了解决这个问题,本文提出一种新颖的时空增强的状态空间模型和Transformer(SpatioTemporal-enhanced State space model and Transformer,ST2)模型,通过引入最近流行的具有全局感受野和线性的计算复杂度的Mamba(一种状态空间模型),增强时空联合建模能力。首先,通过将Mamba与Transformer并行结合,提出空间增强的状态空间模型(State Space Model,SSM)和Transformer(Spatial enHanced State space model and Transformer module,SH-ST),克服了卷积的感受野问题并降低计算复杂度,同时增强模型提取空间信息的能力。然后为了增强时间建模,我们利用Mamba的时间扫描特性,并结合Transformer的全局建模能力,提出时间增强的SSM和Transformer(Temporal enHanced State space model and Transformer module,TH-ST)。具体地,我们对SH-ST产生的特征进行重排序,从而使Mamba以交叉扫描的方式增强重排序后特征的时间关系,最后用Transformer进一步增强时间建模能力。实验结果表明,我们ST2模型中SH-ST和TH-ST结构设计的有效性,且在广泛使用的视频字幕生成数据集MSVD和MSR-VTT上取得了具有竞争力的结果。具体的,我们的方法分别在MSVD和MSR-VTT数据集上的绝对CIDEr分数超过最先进的结果6.9%和2.6%,在MSVD上的绝对CIDEr分数超过了基线结果4.9%。