在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party...在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party Synergetic explicit Information with Dual-domain Awareness text spotting,MSIDA),通过强化文本区域特征和边缘纹理,利用文本检测和识别特征之间的协同作用提高端到端文本识别性能.首先,设计融合文本空间和方向信息的双域感知模块(Dual-Domain Awareness,DDA),增强文本实例的视觉特征信息;其次,提出多方显式信息协同模块(Multi-party Explicit Information Synergy,MEIS)提取编码特征中的显式信息,通过匹配对齐用于检测和识别的位置、分类和字符多方信息生成候选文本实例;最后,协同特征通过解码器引导可学习的查询序列获得文本检测和识别的结果 .相比最新的DeepSolo(Decoder with explicit points Solo)方法,在Total-Text、ICDAR 2015和CTW1500数据集上,MSIDA模型的准确率分别提升0.8%、0.8%和0.4%.代码和数据集在https://github.com/msida2024/MSIDA.git可以获取.展开更多
针对当前主流增强现实显示设备中的光学组合器存在的光效低,或系统复杂,或不便携带等问题,提出了直投式视网膜投影增强现实近眼显示光学系统的设计方案。光学系统自像面至物面之间依次包括视网膜投影透镜、平行光像源和补偿透镜组三个...针对当前主流增强现实显示设备中的光学组合器存在的光效低,或系统复杂,或不便携带等问题,提出了直投式视网膜投影增强现实近眼显示光学系统的设计方案。光学系统自像面至物面之间依次包括视网膜投影透镜、平行光像源和补偿透镜组三个部分。在仿真过程中,使用玻璃平板替代平行光像源,视网膜投影透镜选择双胶合透镜作为初始结构进行仿真和优化,在设计和仿真补偿透镜组时引入偶次非球面进行设计,同时仿真过程中使用人眼模型进行辅助优化,以模拟实际应用情况。最后,光学系统中的平行光像源使用激光光源及相关光学器件,并使用几何透镜搭建了该光学系统的实物样机以验证系统的显示效果。经过仿真和优化,所设计的光学系统工作在486~656 nm波段,对平行的像源光线进行成像时,点列图均方根(Root Mean Square,RMS)半径为9.59μm,在截止频率处的调制传递函数(Modulation Transfer Function,MTF)大于0.8;加入补偿透镜组后,整个系统对环境光成像时,在0°、3.75°和7.5°的三个半视场的点列图RMS半径分别为3.28μm、4.44μm和5.36μm,且全视场在截止频率处的MTF大于0.6,所设计的光学系统对显示像源和环境光的功率衰减分别在10%以下及30%以下。该系统可实现视网膜投影成像同时对环境光进行补偿,所搭建的样机可实现增强现实显示效果,系统有好的成像质量、高光效和结构简单等优点。展开更多
文摘在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party Synergetic explicit Information with Dual-domain Awareness text spotting,MSIDA),通过强化文本区域特征和边缘纹理,利用文本检测和识别特征之间的协同作用提高端到端文本识别性能.首先,设计融合文本空间和方向信息的双域感知模块(Dual-Domain Awareness,DDA),增强文本实例的视觉特征信息;其次,提出多方显式信息协同模块(Multi-party Explicit Information Synergy,MEIS)提取编码特征中的显式信息,通过匹配对齐用于检测和识别的位置、分类和字符多方信息生成候选文本实例;最后,协同特征通过解码器引导可学习的查询序列获得文本检测和识别的结果 .相比最新的DeepSolo(Decoder with explicit points Solo)方法,在Total-Text、ICDAR 2015和CTW1500数据集上,MSIDA模型的准确率分别提升0.8%、0.8%和0.4%.代码和数据集在https://github.com/msida2024/MSIDA.git可以获取.
文摘针对当前主流增强现实显示设备中的光学组合器存在的光效低,或系统复杂,或不便携带等问题,提出了直投式视网膜投影增强现实近眼显示光学系统的设计方案。光学系统自像面至物面之间依次包括视网膜投影透镜、平行光像源和补偿透镜组三个部分。在仿真过程中,使用玻璃平板替代平行光像源,视网膜投影透镜选择双胶合透镜作为初始结构进行仿真和优化,在设计和仿真补偿透镜组时引入偶次非球面进行设计,同时仿真过程中使用人眼模型进行辅助优化,以模拟实际应用情况。最后,光学系统中的平行光像源使用激光光源及相关光学器件,并使用几何透镜搭建了该光学系统的实物样机以验证系统的显示效果。经过仿真和优化,所设计的光学系统工作在486~656 nm波段,对平行的像源光线进行成像时,点列图均方根(Root Mean Square,RMS)半径为9.59μm,在截止频率处的调制传递函数(Modulation Transfer Function,MTF)大于0.8;加入补偿透镜组后,整个系统对环境光成像时,在0°、3.75°和7.5°的三个半视场的点列图RMS半径分别为3.28μm、4.44μm和5.36μm,且全视场在截止频率处的MTF大于0.6,所设计的光学系统对显示像源和环境光的功率衰减分别在10%以下及30%以下。该系统可实现视网膜投影成像同时对环境光进行补偿,所搭建的样机可实现增强现实显示效果,系统有好的成像质量、高光效和结构简单等优点。