视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等...视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等方式提高生成字幕的质量,但在时空联合建模方面仍存在不足,可能导致视觉信息提取不充分,影响字幕生成结果。为了解决这个问题,本文提出一种新颖的时空增强的状态空间模型和Transformer(SpatioTemporal-enhanced State space model and Transformer,ST2)模型,通过引入最近流行的具有全局感受野和线性的计算复杂度的Mamba(一种状态空间模型),增强时空联合建模能力。首先,通过将Mamba与Transformer并行结合,提出空间增强的状态空间模型(State Space Model,SSM)和Transformer(Spatial enHanced State space model and Transformer module,SH-ST),克服了卷积的感受野问题并降低计算复杂度,同时增强模型提取空间信息的能力。然后为了增强时间建模,我们利用Mamba的时间扫描特性,并结合Transformer的全局建模能力,提出时间增强的SSM和Transformer(Temporal enHanced State space model and Transformer module,TH-ST)。具体地,我们对SH-ST产生的特征进行重排序,从而使Mamba以交叉扫描的方式增强重排序后特征的时间关系,最后用Transformer进一步增强时间建模能力。实验结果表明,我们ST2模型中SH-ST和TH-ST结构设计的有效性,且在广泛使用的视频字幕生成数据集MSVD和MSR-VTT上取得了具有竞争力的结果。具体的,我们的方法分别在MSVD和MSR-VTT数据集上的绝对CIDEr分数超过最先进的结果6.9%和2.6%,在MSVD上的绝对CIDEr分数超过了基线结果4.9%。展开更多
针对当前换流站一次设备温度监测中非接触式红外测温存在成本高、准确率低、时效性差等问题,提出一种面向高压场景的温度监控方案。该方案结合5G无源物联网(Passive Internet of Things,P-IoT)技术与Transformer模型。通过在高压设备关...针对当前换流站一次设备温度监测中非接触式红外测温存在成本高、准确率低、时效性差等问题,提出一种面向高压场景的温度监控方案。该方案结合5G无源物联网(Passive Internet of Things,P-IoT)技术与Transformer模型。通过在高压设备关键部位部署无源温度传感器,利用反向散射通信技术实现低功耗数据传输,并借助5G网络将数据传输至边缘服务器处理。随后,采用基于Transformer的异常检测模型,通过多头注意力机制有效捕捉温度数据中的时序特征,结合最大池化操作实现对异常温度的准确识别与预警。实验结果表明,该方案在高电磁干扰环境下的传输成功率达到99.0%,在温度异常检测任务中的精度、召回率和F1值分别为98.7%、97.5%和96.9%,显著优于LSTM和GRU等传统时序模型。研究成果验证了所提方法在复杂高压场景下的适用性和稳定性,可为后续在更高电压等级的特高压设备中推广应用奠定技术基础。展开更多
文摘视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等方式提高生成字幕的质量,但在时空联合建模方面仍存在不足,可能导致视觉信息提取不充分,影响字幕生成结果。为了解决这个问题,本文提出一种新颖的时空增强的状态空间模型和Transformer(SpatioTemporal-enhanced State space model and Transformer,ST2)模型,通过引入最近流行的具有全局感受野和线性的计算复杂度的Mamba(一种状态空间模型),增强时空联合建模能力。首先,通过将Mamba与Transformer并行结合,提出空间增强的状态空间模型(State Space Model,SSM)和Transformer(Spatial enHanced State space model and Transformer module,SH-ST),克服了卷积的感受野问题并降低计算复杂度,同时增强模型提取空间信息的能力。然后为了增强时间建模,我们利用Mamba的时间扫描特性,并结合Transformer的全局建模能力,提出时间增强的SSM和Transformer(Temporal enHanced State space model and Transformer module,TH-ST)。具体地,我们对SH-ST产生的特征进行重排序,从而使Mamba以交叉扫描的方式增强重排序后特征的时间关系,最后用Transformer进一步增强时间建模能力。实验结果表明,我们ST2模型中SH-ST和TH-ST结构设计的有效性,且在广泛使用的视频字幕生成数据集MSVD和MSR-VTT上取得了具有竞争力的结果。具体的,我们的方法分别在MSVD和MSR-VTT数据集上的绝对CIDEr分数超过最先进的结果6.9%和2.6%,在MSVD上的绝对CIDEr分数超过了基线结果4.9%。
文摘针对当前换流站一次设备温度监测中非接触式红外测温存在成本高、准确率低、时效性差等问题,提出一种面向高压场景的温度监控方案。该方案结合5G无源物联网(Passive Internet of Things,P-IoT)技术与Transformer模型。通过在高压设备关键部位部署无源温度传感器,利用反向散射通信技术实现低功耗数据传输,并借助5G网络将数据传输至边缘服务器处理。随后,采用基于Transformer的异常检测模型,通过多头注意力机制有效捕捉温度数据中的时序特征,结合最大池化操作实现对异常温度的准确识别与预警。实验结果表明,该方案在高电磁干扰环境下的传输成功率达到99.0%,在温度异常检测任务中的精度、召回率和F1值分别为98.7%、97.5%和96.9%,显著优于LSTM和GRU等传统时序模型。研究成果验证了所提方法在复杂高压场景下的适用性和稳定性,可为后续在更高电压等级的特高压设备中推广应用奠定技术基础。