-
题名语义增强的零样本甲骨文字符识别
- 1
-
-
作者
刘宗昊
彭文杰
代港
黄双萍
刘永革
-
机构
华南理工大学电子与信息学院
安阳师范学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2024年第10期3347-3358,共12页
-
基金
国家重点研发计划(No.2023YFC3502900)
国家自然科学基金(No.62176093,No.61673182)
+1 种基金
广州市重点领域研发计划(No.202206030001)
粤港澳联合创新领域项目(No.2023A0505030016)。
-
文摘
甲骨文识别对于了解中国历史和传承中华文化都有重要的价值.目前,人工识别甲骨文需要具备丰富的专家经验并耗费大量的时间,而自动识别甲骨文的方法绝大部分受制于闭集假设,在甲骨文这种陆续发现新字符的现实场景下适用范围受限.为此,有研究者提出零样本甲骨文字符识别,其从视觉匹配的角度出发,将字模图像作为字符类别参考,通过拓片图像与字模图像的相似度匹配实现拓片图像的字符识别,然而其忽略了甲骨文拓片图像样本类内方差大的难点,仍存在因字形多变而容易匹配错误的不足.本文提出了一种两阶段的语义增强零样本甲骨文字符识别方法.第一阶段为域无关的字符语义学习阶段,通过提示学习从甲骨文拓片和字模图像中提取字符语义,解决甲骨文字符缺乏语义的问题.为应对拓片与字模之间的域差异,我们分别设置可学习的域提示信息和字符类别提示信息,通过解耦两者的语义实现更准确的特征提取.第二阶段为语义增强的字符图像视觉匹配阶段,模型通过两个分支分别提取类内共享特征和类间差异特征.第一个分支使用对比学习,将同一字符类别的不同字形视觉特征对齐到字符语义,引导模型关注类内共享特征;第二个分支使用损失函数N-Pair,增强模型对不同字符类别间差异特征的学习.在测试阶段,模型无须语义特征,通过训练中学到的类内相似性和类间差异性特征,实现更准确的拓片与字模匹配,提升零样本识别性能.我们在拓片数据集OBC306和字模数据集SOC5519上进行实验验证,实验结果表明,本文提出的方法在零样本甲骨文识别准确率比基准方法性能提升超过25%.
-
关键词
甲骨文字识别
零样本识别
视觉匹配
语义增强
视觉-语言模型
对比学习
-
Keywords
oracle character recognition
zero-shot recognition
visual matching
semantic-enhanced
vision language model
contrastive learning
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于图像内容理解的判别性类别提示学习
- 2
-
-
作者
王楠井
刘阿建
梁凤梅
张小梅
万军
谢珺
雷震
-
机构
太原理工大学电子信息工程学院
-
出处
《电子学报》
2025年第2期493-502,共10页
-
基金
虚拟现实技术与系统全国重点实验室开放课题(No.VRLAB2023A06)
山西省科技合作交流专项(No.202104041101030)。
-
文摘
近年来,通过图像与文本的联合表示,基于对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)的方法将文本信息作为分类器的权值,在通用图像识别任务中展现出卓越性能.但是现有方法仅单独构建类别文本提示,比如上下文优化(Context Optimization,CoOp)和条件上下文优化(Conditional Context Optimization,CoCoOp)等,没有考虑图像的内容语义信息与类别的重要性,限制了模型对图像类别的理解与判别.为了解决上述问题,本文在CLIP的基础上提出了一种新方法:基于图像内容理解的判别性类别提示学习(Discriminative Category Prompt Learning based on image content understanding,DCPL),借助图像中丰富的内容特征来学习文本提示,提高文本提示对类别的判别性.具体来说,DCPL包含提示生成(Prompt Generation,PG)模块和文本监督(Text Supervision,TS)模块.PG模块将图像特征和初始化的查询向量作为输入,通过自注意力机制和交叉注意力机制使输出的文本提示中包含充分的图像语义信息;TS模块将固定的类别提示模板作为监督,为可学习文本提示在类别层面和logits层面注入类别信息,增强了类别的重要性.最后,DCPL在ImageNet、Caltech101和Oxford-Pets等11个公开分类数据集上的16-shots平均准确率达到了81.84%,较以往最优方法Cross-Modal的平均准确率提升了0.98个百分点.
-
关键词
视觉-语言模型
图像识别
提示调优
注意力机制
文本监督(TS)
适配器微调
transformer
-
Keywords
visual-language model
image recognition
prompt tuning
attention mechanism
text supervision
adapter tuning
transformer
-
分类号
TP391.4
[自动化与计算机技术]
-