针对当前道岔区轨道状态检查方法存在的人工依赖程度高、检测效率低下以及二维视觉检测具有缺失深度信息的局限性等问题,提出基于多尺度融合策略的道岔点云分割方法(Point-Bidirectional Encoder Representations from Transformers-Tur...针对当前道岔区轨道状态检查方法存在的人工依赖程度高、检测效率低下以及二维视觉检测具有缺失深度信息的局限性等问题,提出基于多尺度融合策略的道岔点云分割方法(Point-Bidirectional Encoder Representations from Transformers-Turnout,Point-BERT-T).首先,在道岔局部点云编码过程中采用不同大小的球半径进行分组,并融合不同半径球体空间内点的特征,形成具有空间层次性的混合特征表达,融合后的特征包含道岔的不同尺度信息,能够优化对铁路基础设施的高效识别和分割,提升铁路道岔的三维点云数据识别能力和下游病害及形变检测能力;其次,在数据预处理阶段采用随机旋转平移和非均匀切分策略,有效模拟实际扫描采集过程中存在的随机性数据,增强模型在不同数据采集条件下的鲁棒性;最后,为验证本文方法的有效性,将改进方法与已有方法进行对比实验.研究结果表明:较现有方法Point-BERT,提出的Point-BERT-T方法在道岔点云分割性能上提高了1.9%,在分割难度较高的心轨和翼轨上的分割交并比(Intersection over Union,IoU)分别提升了4.7%和5.6%,在三维铁路道岔点云数据的语义分割任务中,有效实现了准确且鲁棒的分割.展开更多
通过研究,提出了一种基于不确定性建模的中文场景文本编辑(Chinese scene text editing,CSTE)方法,并发现了1种有效的技术解决方案.该方法通过不确定性引导的调整机制优化预测噪声,提升噪声估计准确性,从而增强生成文本的清晰度和结构...通过研究,提出了一种基于不确定性建模的中文场景文本编辑(Chinese scene text editing,CSTE)方法,并发现了1种有效的技术解决方案.该方法通过不确定性引导的调整机制优化预测噪声,提升噪声估计准确性,从而增强生成文本的清晰度和结构完整性.同时,通过过滤文本和图像特征中的无关信息,提高了跨模态对齐能力,实现了文本与背景纹理的融合.展开更多
细粒度表情识别任务因其包含更丰富真实的人类情感而备受关注.现有面部表情识别算法通过提取局部关键区域等方式学习更优的图像表征.然而,这些方法忽略了图像数据集内在的结构关系,且没有充分利用标签间的语义关联度以及图像和标签间的...细粒度表情识别任务因其包含更丰富真实的人类情感而备受关注.现有面部表情识别算法通过提取局部关键区域等方式学习更优的图像表征.然而,这些方法忽略了图像数据集内在的结构关系,且没有充分利用标签间的语义关联度以及图像和标签间的相关性,导致所学特征带来的性能提升有限.其次,现有细粒度表情识别方法并未有效利用和挖掘粗细粒度的层级关系,因而限制了模型的识别性能.此外,现有细粒度表情识别算法忽略了由于标注主观性和情感复杂性导致的标签歧义性问题,极大影响了模型的识别性能.针对上述问题,本文提出一种基于关系感知和标签消歧的细粒度面部表情识别算法(fine-grained facial expression recognition algorithm based on Relationship-Awareness and Label Disambiguation,RALD).该算法通过构建层级感知的图像特征增强网络,充分挖掘图像之间、层级标签之间以及图像和标签之间的依赖关系,以获得更具辨别性的图像特征.针对标签歧义性问题,算法设计了基于近邻样本的标签分布学习模块,通过整合邻域信息进行标签消歧,进一步提升模型识别性能.在细粒度表情识别数据集FG-Emotions上算法的准确度达到97.34%,在粗粒度表情识别数据集RAF-DB上比现有主流表情分类方法提高了0.80%~4.55%.展开更多
文摘针对当前道岔区轨道状态检查方法存在的人工依赖程度高、检测效率低下以及二维视觉检测具有缺失深度信息的局限性等问题,提出基于多尺度融合策略的道岔点云分割方法(Point-Bidirectional Encoder Representations from Transformers-Turnout,Point-BERT-T).首先,在道岔局部点云编码过程中采用不同大小的球半径进行分组,并融合不同半径球体空间内点的特征,形成具有空间层次性的混合特征表达,融合后的特征包含道岔的不同尺度信息,能够优化对铁路基础设施的高效识别和分割,提升铁路道岔的三维点云数据识别能力和下游病害及形变检测能力;其次,在数据预处理阶段采用随机旋转平移和非均匀切分策略,有效模拟实际扫描采集过程中存在的随机性数据,增强模型在不同数据采集条件下的鲁棒性;最后,为验证本文方法的有效性,将改进方法与已有方法进行对比实验.研究结果表明:较现有方法Point-BERT,提出的Point-BERT-T方法在道岔点云分割性能上提高了1.9%,在分割难度较高的心轨和翼轨上的分割交并比(Intersection over Union,IoU)分别提升了4.7%和5.6%,在三维铁路道岔点云数据的语义分割任务中,有效实现了准确且鲁棒的分割.
文摘通过研究,提出了一种基于不确定性建模的中文场景文本编辑(Chinese scene text editing,CSTE)方法,并发现了1种有效的技术解决方案.该方法通过不确定性引导的调整机制优化预测噪声,提升噪声估计准确性,从而增强生成文本的清晰度和结构完整性.同时,通过过滤文本和图像特征中的无关信息,提高了跨模态对齐能力,实现了文本与背景纹理的融合.
文摘细粒度表情识别任务因其包含更丰富真实的人类情感而备受关注.现有面部表情识别算法通过提取局部关键区域等方式学习更优的图像表征.然而,这些方法忽略了图像数据集内在的结构关系,且没有充分利用标签间的语义关联度以及图像和标签间的相关性,导致所学特征带来的性能提升有限.其次,现有细粒度表情识别方法并未有效利用和挖掘粗细粒度的层级关系,因而限制了模型的识别性能.此外,现有细粒度表情识别算法忽略了由于标注主观性和情感复杂性导致的标签歧义性问题,极大影响了模型的识别性能.针对上述问题,本文提出一种基于关系感知和标签消歧的细粒度面部表情识别算法(fine-grained facial expression recognition algorithm based on Relationship-Awareness and Label Disambiguation,RALD).该算法通过构建层级感知的图像特征增强网络,充分挖掘图像之间、层级标签之间以及图像和标签之间的依赖关系,以获得更具辨别性的图像特征.针对标签歧义性问题,算法设计了基于近邻样本的标签分布学习模块,通过整合邻域信息进行标签消歧,进一步提升模型识别性能.在细粒度表情识别数据集FG-Emotions上算法的准确度达到97.34%,在粗粒度表情识别数据集RAF-DB上比现有主流表情分类方法提高了0.80%~4.55%.