期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
视觉语言模型在数字图像档案智能检索中的应用研究
1
作者 马良 《兰台内外》 2025年第5期1-3,共3页
随着数字图像档案数量的急剧增长,如何高效、准确地检索这些档案成为研究热点。人工智能技术迅猛发展,其在档案领域的模型应用日益受到关注。文章聚焦于视觉语言模型Florence-2,探讨其在数字图像档案智能检索中的应用。详细阐述了模型... 随着数字图像档案数量的急剧增长,如何高效、准确地检索这些档案成为研究热点。人工智能技术迅猛发展,其在档案领域的模型应用日益受到关注。文章聚焦于视觉语言模型Florence-2,探讨其在数字图像档案智能检索中的应用。详细阐述了模型架构、特点及优势,分析了其在数字图像档案智能检索中的关键应用方式,为档案信息的深层加工和利用提供了新的技术路径。本研究旨在为数字图像档案智能检索提供新的思路和方法,深化和集成应用业务环节,探索人工智能与档案信息管理的深度融合。 展开更多
关键词 数字图像档案 视觉语言模型 Florence-2 智能检索
在线阅读 下载PDF
N步长距离视觉语言模型的图像分类方法
2
作者 王挺进 赵永威 李弼程 《信息工程大学学报》 2014年第4期453-458,465,共7页
传统的视觉语言模型(visual language model,VLM)只考虑了相邻视觉单词之间的空间位置关系,不考虑不相邻视觉单词之间的贡献。针对传统视觉语言模型的不足,提出了一种N步长距离视觉语言模型,并将其用于图像分类。该方法首先给出了相隔N... 传统的视觉语言模型(visual language model,VLM)只考虑了相邻视觉单词之间的空间位置关系,不考虑不相邻视觉单词之间的贡献。针对传统视觉语言模型的不足,提出了一种N步长距离视觉语言模型,并将其用于图像分类。该方法首先给出了相隔N个视觉单词的二元依赖关系,然后训练长距离视觉语言模型,最后通过不同的权重分配方式进行融合,得到3种不同的图像分类方法。实验比较了不同参数和分类方法对图像分类的影响,结果表明,文章方法能在一定程度上改善视觉语言模型对图像表达的准确度,进而提高图像分类的准确率。 展开更多
关键词 视觉语言模型 图像分类 空间位置信息 长距离
在线阅读 下载PDF
基于视觉语言大模型的可进化GUI自动导航方法研究
3
作者 庄凤云 《江苏通信》 2024年第5期93-97,共5页
近年来,视觉语言大模型在GUI自动导航任务上的研究越来越多,体现出其较为先进的屏幕解释、行动推理和定位能力。然而这些方法受限于图像尺寸问题和案例参考能力,动作识别准确率偏低,且无法直接迁移到相同场景不同流程的GUI导航任务上。... 近年来,视觉语言大模型在GUI自动导航任务上的研究越来越多,体现出其较为先进的屏幕解释、行动推理和定位能力。然而这些方法受限于图像尺寸问题和案例参考能力,动作识别准确率偏低,且无法直接迁移到相同场景不同流程的GUI导航任务上。本文提出了一种基于视觉语言大模型的可进化GUI自动导航方法Qwen-VL-i VP,该方法使用Qwen-VL,创新性地设计了视觉提示模块和多任务Prompt模版以提升大模型动作定位准确性,同时增强模型自主学习和进化的能力。实验结果表明,与基线方法 Qwen-VL相比,该方法在GUI自动导航任务上有了显著的改进。 展开更多
关键词 GUI自动导航 视觉语言模型 视觉提示
在线阅读 下载PDF
基于视觉语言的文字识别方法综述
4
作者 陈曦 陆利坤 +1 位作者 王彤 曾庆涛 《北京印刷学院学报》 2024年第6期35-43,共9页
从光学字符识别(OCR)的基础到自然语言处理在文字识别中的应用,再到视觉语言模型在文字识别领域的最新进展,详细介绍了文字识别的各个步骤,包括图像预处理、特征提取、字符分割和识别,并讨论了多种先进技术和模型如对比学习、多模态融合... 从光学字符识别(OCR)的基础到自然语言处理在文字识别中的应用,再到视觉语言模型在文字识别领域的最新进展,详细介绍了文字识别的各个步骤,包括图像预处理、特征提取、字符分割和识别,并讨论了多种先进技术和模型如对比学习、多模态融合,以及其他视觉语言模型结合的文字识别方法。此外,还比较了不同方法在多个数据集上的性能,并讨论了文字识别领域面临的挑战和限制。 展开更多
关键词 光学字符识别 自然语言处理 对比学习 多模态融合 视觉语言模型
在线阅读 下载PDF
开源多模态大语言模型初探
5
作者 刘一闻 李彤 +2 位作者 王宇琦 李泽魁 郜婕 《中国传媒科技》 2024年第8期82-85,共4页
【目的】本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践。【方法】首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解... 【目的】本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践。【方法】首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解析了模型架构,包括其组成部分和工作原理,接着探讨了训练策略以及所需要的数据,最后展望了应用场景和研究方向。【结果/结论】通过本文的分析,可以了解到开源MLLM在赶超闭源商业模型上的潜力和发展方向,以及在新闻领域广阔的应用前景,同时为采编业务全流程提供强大的语言理解和生成能力,未来可以结合实际场景开展相关技术的落地实践。 展开更多
关键词 多模态大语言模型 预训练 视觉语言模型 语言模型
在线阅读 下载PDF
基于空间语义分析的轨迹预测技术综述
6
作者 杨博渊 张力航 +5 位作者 李成 乔少杰 李任杰 李庆 黄明文 罗娜 《无线电工程》 2025年第3期611-620,共10页
随着自动驾驶、智能导航等领域的快速发展,对时空轨迹预测的准确性和鲁棒性的要求不断提高。传统轨迹预测方法主要依赖运动历史数据,忽略了环境中的语义信息,在复杂场景下往往难以取得理想的预测效果。对轨迹预测领域相关研究进行综述,... 随着自动驾驶、智能导航等领域的快速发展,对时空轨迹预测的准确性和鲁棒性的要求不断提高。传统轨迹预测方法主要依赖运动历史数据,忽略了环境中的语义信息,在复杂场景下往往难以取得理想的预测效果。对轨迹预测领域相关研究进行综述,特别是基于空间语义分析的轨迹预测研究进展。重点探讨了视觉语言模型(Vision Language Model,VLM)和大语言模型(Large Language Model,LLM)在轨迹预测方面的应用,介绍了多种基于空间语义分析的轨迹预测模型。通过实验结果分析发现,VLM和LLM能够显著提升轨迹预测的准确率。基于空间语义分析的轨迹预测方法未来将考虑多模态融合、提升模型架构、提高推理速度等方向,以进一步提升大规模轨迹预测的性能。 展开更多
关键词 自动驾驶 轨迹预测 空间语义 视觉语言模型 语言模型 多模态
在线阅读 下载PDF
语义增强的零样本甲骨文字符识别
7
作者 刘宗昊 彭文杰 +2 位作者 代港 黄双萍 刘永革 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3347-3358,共12页
甲骨文识别对于了解中国历史和传承中华文化都有重要的价值.目前,人工识别甲骨文需要具备丰富的专家经验并耗费大量的时间,而自动识别甲骨文的方法绝大部分受制于闭集假设,在甲骨文这种陆续发现新字符的现实场景下适用范围受限.为此,有... 甲骨文识别对于了解中国历史和传承中华文化都有重要的价值.目前,人工识别甲骨文需要具备丰富的专家经验并耗费大量的时间,而自动识别甲骨文的方法绝大部分受制于闭集假设,在甲骨文这种陆续发现新字符的现实场景下适用范围受限.为此,有研究者提出零样本甲骨文字符识别,其从视觉匹配的角度出发,将字模图像作为字符类别参考,通过拓片图像与字模图像的相似度匹配实现拓片图像的字符识别,然而其忽略了甲骨文拓片图像样本类内方差大的难点,仍存在因字形多变而容易匹配错误的不足.本文提出了一种两阶段的语义增强零样本甲骨文字符识别方法.第一阶段为域无关的字符语义学习阶段,通过提示学习从甲骨文拓片和字模图像中提取字符语义,解决甲骨文字符缺乏语义的问题.为应对拓片与字模之间的域差异,我们分别设置可学习的域提示信息和字符类别提示信息,通过解耦两者的语义实现更准确的特征提取.第二阶段为语义增强的字符图像视觉匹配阶段,模型通过两个分支分别提取类内共享特征和类间差异特征.第一个分支使用对比学习,将同一字符类别的不同字形视觉特征对齐到字符语义,引导模型关注类内共享特征;第二个分支使用损失函数N-Pair,增强模型对不同字符类别间差异特征的学习.在测试阶段,模型无须语义特征,通过训练中学到的类内相似性和类间差异性特征,实现更准确的拓片与字模匹配,提升零样本识别性能.我们在拓片数据集OBC306和字模数据集SOC5519上进行实验验证,实验结果表明,本文提出的方法在零样本甲骨文识别准确率比基准方法性能提升超过25%. 展开更多
关键词 甲骨文字识别 零样本识别 视觉匹配 语义增强 视觉-语言模型 对比学习
在线阅读 下载PDF
LDA单词图像表示的蒙古文古籍图像关键词检索方法 被引量:7
8
作者 白淑霞 鲍玉来 《现代情报》 CSSCI 北大核心 2017年第7期51-54,88,共5页
[目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于... [目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于LDA的表示方法可以高效、准确地解决蒙古文古籍的关键词检索问题。[结论 ]同时,该方法的性能比Bo VW方法有显著提高。 展开更多
关键词 隐含狄利克雷分配(LDA) 主题模型 视觉语言模型 蒙古文古籍 关键词检索 查询似然模型
在线阅读 下载PDF
基于弱监督E2LSH和显著图加权的目标分类方法 被引量:3
9
作者 赵永威 李弼程 柯圣财 《电子与信息学报》 EI CSCD 北大核心 2016年第1期38-46,共9页
在目标分类领域,当前主流的目标分类方法是基于视觉词典模型,而时间效率低、视觉单词同义性和歧义性及单词空间信息的缺失等问题严重制约了其分类性能。针对这些问题,该文提出一种基于弱监督的精确位置敏感哈希(E2LSH)和显著图加权的目... 在目标分类领域,当前主流的目标分类方法是基于视觉词典模型,而时间效率低、视觉单词同义性和歧义性及单词空间信息的缺失等问题严重制约了其分类性能。针对这些问题,该文提出一种基于弱监督的精确位置敏感哈希(E2LSH)和显著图加权的目标分类方法。首先,引入E2LSH算法对训练图像集的特征点聚类生成一组视觉词典,并提出一种弱监督策略对E2LSH中哈希函数的选取进行监督,以降低其随机性,提高视觉词典的区分性。然后,利用GBVS(Graph-Based Visual Saliency)显著度检测算法对图像进行显著度检测,并依据单词所处区域的显著度值为其分配权重;最后,利用显著图加权的视觉语言模型完成目标分类。在数据集Caltech-256和Pascal VOC2007上的实验结果表明,所提方法能够较好地提高词典生成效率,提高目标表达的分辨能力,其目标分类性能优于当前主流方法。 展开更多
关键词 目标分类 视觉词典模型 精确位置敏感哈希 视觉显著图 视觉语言模型
在线阅读 下载PDF
基于图像内容理解的判别性类别提示学习
10
作者 王楠井 刘阿建 +4 位作者 梁凤梅 张小梅 万军 谢珺 雷震 《电子学报》 2025年第2期493-502,共10页
近年来,通过图像与文本的联合表示,基于对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)的方法将文本信息作为分类器的权值,在通用图像识别任务中展现出卓越性能.但是现有方法仅单独构建类别文本提示,比如上下文优... 近年来,通过图像与文本的联合表示,基于对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)的方法将文本信息作为分类器的权值,在通用图像识别任务中展现出卓越性能.但是现有方法仅单独构建类别文本提示,比如上下文优化(Context Optimization,CoOp)和条件上下文优化(Conditional Context Optimization,CoCoOp)等,没有考虑图像的内容语义信息与类别的重要性,限制了模型对图像类别的理解与判别.为了解决上述问题,本文在CLIP的基础上提出了一种新方法:基于图像内容理解的判别性类别提示学习(Discriminative Category Prompt Learning based on image content understanding,DCPL),借助图像中丰富的内容特征来学习文本提示,提高文本提示对类别的判别性.具体来说,DCPL包含提示生成(Prompt Generation,PG)模块和文本监督(Text Supervision,TS)模块.PG模块将图像特征和初始化的查询向量作为输入,通过自注意力机制和交叉注意力机制使输出的文本提示中包含充分的图像语义信息;TS模块将固定的类别提示模板作为监督,为可学习文本提示在类别层面和logits层面注入类别信息,增强了类别的重要性.最后,DCPL在ImageNet、Caltech101和Oxford-Pets等11个公开分类数据集上的16-shots平均准确率达到了81.84%,较以往最优方法Cross-Modal的平均准确率提升了0.98个百分点. 展开更多
关键词 视觉-语言模型 图像识别 提示调优 注意力机制 文本监督(TS) 适配器微调 transformer
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部