期刊文献+
共找到137篇文章
< 1 2 7 >
每页显示 20 50 100
建筑内基于虚拟仿真的跨视域行人监测研究
1
作者 陶振翔 李滢 +3 位作者 黄绪勃 王一森 张平 杨锐 《中国安全科学学报》 北大核心 2025年第5期161-168,共8页
为解决高层建筑楼宇或复杂开放建筑环境中多路视频数据采集成本高、长时间高质量标注难等问题,实现跨视域多路视频数据的生成与行人图像的自动标注,首先,设计虚拟现实场景,模拟行人运动并自动获取标记数据;其次,研究无监督领域自适应方... 为解决高层建筑楼宇或复杂开放建筑环境中多路视频数据采集成本高、长时间高质量标注难等问题,实现跨视域多路视频数据的生成与行人图像的自动标注,首先,设计虚拟现实场景,模拟行人运动并自动获取标记数据;其次,研究无监督领域自适应方法,降低源域数据与目标域数据的特征分布差异,使模型泛化至目标建筑场景;最后,验证模型泛化能力。研究结果表明:构建的虚拟现实场景能有效克服跨视域视频数据采集与高质量标注的困难;无监督领域自适应方法将平均首位命中率从22.02%提升至45.48%;结合源域风格转换、数据增广和目标域伪标签生成,首位命中率提升20%,降低了分布偏差,有助于实现模型在不同建筑场景中的泛化。 展开更多
关键词 建筑场景 虚拟仿真 跨视域 行人运动 自动标注
在线阅读 下载PDF
基于对比学习的跨模态实体链接模型 被引量:1
2
作者 王苑铮 孙文祥 +2 位作者 范意兴 廖华明 郭嘉丰 《计算机研究与发展》 北大核心 2025年第3期662-671,共10页
图文跨模态实体链接是对传统实体链接任务的扩展,其输入为包含实体的图像,目标是将其链接到文本模态的知识库实体上.现有模型通常采用双编码器架构,将图像、文本模态的实体分别编码为向量,利用点乘计算两者的相似度,从而链接到与图像实... 图文跨模态实体链接是对传统实体链接任务的扩展,其输入为包含实体的图像,目标是将其链接到文本模态的知识库实体上.现有模型通常采用双编码器架构,将图像、文本模态的实体分别编码为向量,利用点乘计算两者的相似度,从而链接到与图像实体相似度最高的文本实体.其训练过程通常采用基于Info NCE损失的对比学习任务,即提高一个实体某模态与自身另一模态的向量相似度,降低与其他实体另一模态的向量相似度.然而此模型忽视了图文2个模态内部表示难度的差异:图像模态中的相似实体,通常比文本模态中的相似实体更难以区分,导致外观相似的图像实体很容易链接错误.因此,提出2个新的对比学习任务来提升向量的判别能力.一个是自对比学习,用于提升图像向量之间的区分度;另一个是难负例对比学习,让文本向量更容易区分几个相似的图像向量.在开源数据集Wiki Person上进行实验,在12万规模的实体库上,相比于采用Info NCE损失的最佳基线模型,模型正确率提升了4.5个百分点. 展开更多
关键词 实体链接模型 多模态 跨模态 对比学习 视觉信息
在线阅读 下载PDF
基于对比学习的声源定位引导视听分割模型
3
作者 黄文湖 赵邢 +2 位作者 谢亮 梁浩然 梁荣华 《浙江大学学报(工学版)》 北大核心 2025年第9期1803-1813,共11页
针对视听分割任务中背景噪声阻碍有效信息交互和物体辨别的问题,提出基于对比学习的声源定位引导视听分割模型(SSL2AVS).采用从定位到分割的两阶段策略,通过声源定位引导视觉特征优化,从而减少背景噪声干扰,使模型适用于复杂场景中的视... 针对视听分割任务中背景噪声阻碍有效信息交互和物体辨别的问题,提出基于对比学习的声源定位引导视听分割模型(SSL2AVS).采用从定位到分割的两阶段策略,通过声源定位引导视觉特征优化,从而减少背景噪声干扰,使模型适用于复杂场景中的视听分割.在分割前引入目标定位模块,利用对比学习方法对齐视听模态并生成声源热力图,实现发声物体粗定位;引入特征增强模块,构建多尺度特征金字塔网络,利用定位结果动态地加权融合浅层空间细节特征与深层语义特征,在引导增强目标物体视觉特征的同时抑制背景噪声.2个模块协同作用,增强物体的视觉表示,使模型专注于物体辨识.为了优化定位结果,提出辅助定位损失函数,促使模型关注与音频特征匹配的图像区域.实验结果表明,模型在MS3数据集上的mIoU为62.15,高于基线AVSegFormer模型. 展开更多
关键词 视听分割 跨模态交互 声源定位 对比学习 特征增强
在线阅读 下载PDF
跨模态双向注意力的视听双主导语音增强方法 被引量:1
4
作者 郭飞扬 张天骐 +1 位作者 沈夕文 高逸飞 《信号处理》 北大核心 2025年第9期1513-1524,共12页
针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频... 针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频特征缺失,利用视频特征指导缺失音频特征的预测与重构。中间层采用跨模态双向交叉注意力机制建模视听模态的动态互补关系。解码层通过可学习的动态权重因子整合双支路特征,实现跨模态信息的高效融合。实验验证在GRID数据集上展开,结果表明所提方法有效提升低信噪比场景的语音增强性能。在语音感知质量评估(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(Short-Time Objective Intelligibility,STOI)两项核心指标上分别实现0.123~0.156和1.78%~2.21%的提升,较现有主流模型在客观评估中均展现出优势。消融实验进一步证实双向注意力结构与视频引导掩码机制的有效性,证明该方法能够突破传统单模态主导的交互范式,实现跨模态特征的协同增强与鲁棒表征。 展开更多
关键词 视听语音增强 特征融合 掩码预测 交叉注意力
在线阅读 下载PDF
基于交叉模态注意力特征增强的医学视觉问答
5
作者 刘凯 任洪逸 +2 位作者 李蓥 季怡 刘纯平 《计算机工程》 北大核心 2025年第6期49-56,共8页
医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像... 医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像的局部特征所包含的医学信息与跨模态间的交互作用,从而限制了图像内容理解。针对以上问题,提出一种交叉模态注意力特征增强的Med-VQA模型(CMAG-MVQA)。基于U-Net编码有效增强图像局部特征,从交叉模态协同角度提出选择引导注意力方法,为单模态表征引入其他模态的交互信息,同时利用自注意力机制进一步增强选择引导注意力的图像表征。在VQA-RAD医学问答数据集上的消融与对比实验表明,所提方法在Med-VQA任务上有良好的表现,相比于现有同类方法,其在特征表征上性能得到较好改善。 展开更多
关键词 跨模态交互 注意力机制 医学视觉问答 特征融合 特征增强
在线阅读 下载PDF
基于深度跨域中介模块的英文翻译
6
作者 黄笑菡 程时伟 张纪林 《计算机工程与设计》 北大核心 2025年第9期2502-2508,共7页
为促进文本域与视觉域之间的语义关联,提高英文翻译的准确性,提出一种基于深度跨域中介模块(deep crossdomain intermediary module,DCIM)的英文翻译方法,区别于传统的联合空间学习方法,DCIM作为中介模块指导图像中感兴趣区域与源词之... 为促进文本域与视觉域之间的语义关联,提高英文翻译的准确性,提出一种基于深度跨域中介模块(deep crossdomain intermediary module,DCIM)的英文翻译方法,区别于传统的联合空间学习方法,DCIM作为中介模块指导图像中感兴趣区域与源词之间的交互。通过强化文本编码器和视觉编码器提取的表征之间的语义关联,使视觉表征在语义上得到增强并演化为跨域表征。通过双重注意力解码器,利用两种独立的注意力机制分别处理文本和跨域表征的上下文,预测目标词汇。实验结果表明,集成DCIM的模型在两种英文翻译任务中基于Meteor和Ribes指标取得了最佳翻译准确性和鲁棒性。 展开更多
关键词 深度跨域中介模块 英文翻译 双重注意力解码器 文本域 视觉域 神经网络 自然语言处理
在线阅读 下载PDF
融合多模态知识与有监督检索的视觉问答模型
7
作者 葛依琳 孙海春 袁得嵛 《计算机科学与探索》 北大核心 2025年第8期2203-2218,共16页
视觉问答任务旨在通过理解图像内容回答问题,具有广泛的应用前景。然而,传统模型仍存在以下问题:依赖基础视觉特征,难以充分捕捉图像中的复杂信息,在图像语义理解和外部知识融合上存在不足;引入的外部知识常伴随噪声,影响检索和答案生... 视觉问答任务旨在通过理解图像内容回答问题,具有广泛的应用前景。然而,传统模型仍存在以下问题:依赖基础视觉特征,难以充分捕捉图像中的复杂信息,在图像语义理解和外部知识融合上存在不足;引入的外部知识常伴随噪声,影响检索和答案生成的准确性;缺乏有效的监督机制,有益知识难以得到充分利用,从而降低整体问答性能。针对以上问题,提出了一种融合多模态知识与有监督检索的视觉问答模型。该模型由多模态特征提取、基于多模态语义推理的知识检索和基于BLIP的阅读推理模块构成。其中,多模态特征提取模块通过融合图像语义特征、图像基础视觉特征、问题语义特征及知识特征,实现对“问题-图像”的全面理解。基于多模态语义推理的知识检索模块采用多层注意力机制,实现对“问题-图像”相关知识的精准检索。BLIP阅读推理模块则利用预训练的BLIP模型进行答案推理,提升答案生成的准确性。此外,结合有监督训练优化检索过程,减少噪声干扰。实验在OKVQA、FVQA和VQA2.0等多个基准数据集上均表现优异,通过消融实验进一步验证了模型中各组件的有效性。为融合知识的视觉问答领域提供了新的解决方案,展示了多模态知识融合与有监督检索在提升视觉问答模型性能方面的潜力。 展开更多
关键词 视觉问答 知识检索 跨模态 外部知识
在线阅读 下载PDF
艾伦·金斯堡照片书的跨媒介叙事:范式、过程与意义
8
作者 盛钰 欧阳骞 《出版科学》 北大核心 2025年第4期106-113,共8页
分析艾伦·金斯堡照片书“语图互文”修辞策略的运作机制,发现其通过在手写文字与照片的符号裂隙中植入诗意想象,创造出“快照诗学”跨媒介叙事范式。其实现过程既体现在历史还原维度将孤立影像转化为历时性档案,又在身体书写维度... 分析艾伦·金斯堡照片书“语图互文”修辞策略的运作机制,发现其通过在手写文字与照片的符号裂隙中植入诗意想象,创造出“快照诗学”跨媒介叙事范式。其实现过程既体现在历史还原维度将孤立影像转化为历时性档案,又在身体书写维度重构“垮掉的一代”艺术家的身体在场性与群体互动网络。基于此,探析金斯堡照片书建构“垮掉的一代”诗人群体文化形象的跨媒介叙事意义,突破单一媒介的叙事局限,通过建立神圣瞬间的感知框架,实现文化书写的层级跃迁,最终在个体层面激活读者对艺术家生存状态的认知,在群体层面解析反传统艺术家的文化身份,在宏观层面重构“垮掉的一代”文学运动的社会文化坐标。 展开更多
关键词 艾伦·金斯堡 照片书 跨媒介叙事 视觉书写 “垮掉的一代”
在线阅读 下载PDF
文本属性激活视觉的广义零样本图像识别
9
作者 闫文尚 张桂梅 《计算机工程与应用》 北大核心 2025年第21期265-275,共11页
现有的零样本学习方法存在语义信息与视觉特征无法有效对齐,且视觉特征中存在较多冗余信息,导致零样本和广义零样本图像识别精度不佳。针对该问题,提出文本属性激活视觉的广义零样本图像识别方法。借助大语言模型生成判别性语义信息-文... 现有的零样本学习方法存在语义信息与视觉特征无法有效对齐,且视觉特征中存在较多冗余信息,导致零样本和广义零样本图像识别精度不佳。针对该问题,提出文本属性激活视觉的广义零样本图像识别方法。借助大语言模型生成判别性语义信息-文本属性。并引入类先验估计模块,计算每个文本属性的先验权重,以增强文本属性的可解释性,优化模型的性能。利用判别性文本属性激活与其对应的视觉特征,有效去除视觉特征中的冗余信息。在先验权重的引导下,将激活的视觉特征与文本属性进行跨模态对齐,以实现更精准高效的视觉语义交互,提高模型的图像识别精度。在三个基准数据集(AWA2、CUB、SUN)上进行自监督广义零样本图像识别实验,在AWA2和SUN数据集上调和平均值均达到最优,分别比次优值提高了1.1和0.8个百分点,在CUB数据集中取得次优,实验结果证明了提出方法的有效性。 展开更多
关键词 文本属性 先验权重 视觉激活 跨模态对齐
在线阅读 下载PDF
啤酒包装设计中色彩与味觉跨模态感知研究
10
作者 王佳丽 姚乙辰 韦超现 《包装工程》 北大核心 2025年第12期296-303,348,共9页
目的包装设计的视觉形象,向消费者传递产品信息和品质,是与消费者沟通的非语言性符号。消费者在购买饮品时,会通过视觉器官获得的信息进行味觉判断。包装设计中的色彩元素会带来味觉联想,通过分析罐装啤酒的色彩元素,探索是否影响味觉... 目的包装设计的视觉形象,向消费者传递产品信息和品质,是与消费者沟通的非语言性符号。消费者在购买饮品时,会通过视觉器官获得的信息进行味觉判断。包装设计中的色彩元素会带来味觉联想,通过分析罐装啤酒的色彩元素,探索是否影响味觉期待和感知判断,以及与品尝后的购买意向是否一致。方法通过Image Color Summarizer(颜色分析计算器)分析啤酒包装的色值整体占比,用SD分析法对品尝前后的味觉感知(啤酒的清凉感、刺激度、苦味程度、酒精浓度)进行评分比较,并对品尝后的购买意向收集反馈。结果视觉对味觉认知有一定影响,色彩元素的不同,使消费者对罐装啤酒的期待感有显著影响。基于包装外观色彩判断的预期味觉和实际品尝后感知结果一致时,消费者的购买意向更高,因此消费者更容易接受感官判断和味觉认知相匹配的产品。结论包装色彩感官情感心理活动是极其丰富微妙的认知过程,寻找出与人们感官情感相吻合的色彩语言,拓展包装色彩设计的空间,并设计出符合商品口味的色彩视觉形象,真正实现商品信息与消费者的沟通和交流。 展开更多
关键词 啤酒包装 色彩与味觉 视觉认知 跨模态感知 SD分析法
在线阅读 下载PDF
招聘广告视域下视觉传达设计师跨界设计能力的复合结构研究
11
作者 甘为 张晓红 黄忍 《家具与室内装饰》 北大核心 2025年第10期105-110,共6页
数实融合推动视觉传达设计行业对“跨界复合型”设计师的需求激增,但相关能力结构的量化研究尤为缺乏。以中国三大招聘平台1,283份招聘广告为样本,从能力、岗位、学历与经验分析发现:团队协作、二维软件与创意构思为当前市场核心能力需... 数实融合推动视觉传达设计行业对“跨界复合型”设计师的需求激增,但相关能力结构的量化研究尤为缺乏。以中国三大招聘平台1,283份招聘广告为样本,从能力、岗位、学历与经验分析发现:团队协作、二维软件与创意构思为当前市场核心能力需求;传统岗位须具备多场景双轨能力,数字岗位强调数字原生素养;招聘呈现经验导向,1至5年经验与本科学历构成主体,并存在“本科及以上”的弹性学历需求;技术应用处于转型期,二维软件仍居主导,AIGC(人工智能生成内容)技能需求初显。中国视觉设计行业已形成以基础能力为支撑、专业能力分化的跨界复合型人才范式。建议设计师以“项目—过程—实践—专业”为路径,加强早期职业身份塑造,建立与技术共生的终身学习机制,以实现持续的专业发展。 展开更多
关键词 招聘广告 视觉传达设计师 跨界设计 能力结构 专业发展
在线阅读 下载PDF
基于探针引导的视觉语言多模态解释方法
12
作者 索伟 吕家齐 +2 位作者 孙梦阳 刘乐 王鹏 《计算机学报》 北大核心 2025年第6期1478-1494,共17页
现有的视觉语言模型大部分通过具有“黑盒”结构的深度神经网络实现跨模态推理,然而网络内部的执行过程难以被人类直观理解。因此,本文侧重于研究面向视觉问答(Visual Question Answering,VQA)任务的自然语言解释(Natural Language Expl... 现有的视觉语言模型大部分通过具有“黑盒”结构的深度神经网络实现跨模态推理,然而网络内部的执行过程难以被人类直观理解。因此,本文侧重于研究面向视觉问答(Visual Question Answering,VQA)任务的自然语言解释(Natural Language Explanation,NLE)方法,旨在通过生成的自然语言语句来解释模型的推理过程。虽然现有方法已经取得了一定的进展,但仍面临以下挑战:(1)答案的预测过程和解释的生成过程相互干扰,弱化了解释的忠实性。(2)现有的方法仅能生成单模态的解释,存在由于指代模糊导致的语义歧义问题。为此,我们新提出了一种面向视觉问答推理过程的多模态解释方法(Probe-based Multi-modal Explanation method,PME),该方法能从推理过程的每个隐藏层状态提取信息且不影响原推理路径,确保了解释过程对原有推理过程的忠实性。另外,我们使用伪标签方法融合了VQA-X数据集与GQA数据集,在保证忠实性的前提下实现了多模态解释,缓解了单一模态文本解释中对目标的指代语义模糊问题。本文在视觉问答数据集VQA-X和A-OKVQA上将PME和其他最新最优的模型进行了性能比较,实验结果表明PME方法在相应测试集上获得了更高的解释评估分数。我们期待我们工作能够为网络模型的内部理解提供一个新的研究基础。代码位于:https://github.com/LouisJacky/LAVIS_PME。 展开更多
关键词 视觉问答 自然语言解释 跨模态推理 伪标签 预训练模型
在线阅读 下载PDF
内外特征交互与融合的双流注意力图像修复方法
13
作者 黄光远 黄荣 +1 位作者 周树波 蒋学芹 《电子学报》 北大核心 2025年第4期1293-1307,共15页
注意力机制及其变体已广泛应用于基于深度学习的图像修复领域,它们将破损图像内部分为完好区域和缺失区域,捕获完好区域的远距离上下文信息以填充缺失区域.随着缺失区域增大,完好区域特征减少,限制了注意力机制的性能,从而导致修复效果... 注意力机制及其变体已广泛应用于基于深度学习的图像修复领域,它们将破损图像内部分为完好区域和缺失区域,捕获完好区域的远距离上下文信息以填充缺失区域.随着缺失区域增大,完好区域特征减少,限制了注意力机制的性能,从而导致修复效果不佳.为拓展注意力机制捕获上下文的范围,本文通过矢量量化码本学习视觉原子.这些视觉原子刻画了图像块的结构、纹理等特征,组成用于图像修复的外部特征,以弥补图像内部完好区域特征的不足.在此基础上,本文提出一种内外特征交互与融合的双流注意力图像修复方法.该方法结合内部和外部两个信息源,设计了内部掩码注意力和内外交叉注意力,组成双流注意力以实现内部特征之间以及内部和外部特征之间的交互,生成内外源修复特征.内部掩码注意力通过掩码屏蔽缺失区域特征的干扰,仅在完好区域捕获上下文信息,生成内源修复特征.内外交叉注意力通过计算内部特征与由视觉原子组成的外部特征之间的相似度关系,实现内外特征之间的交互,生成外源修复特征.此外,本文设计了可控特征融合模块,利用内外源修复特征之间的相关性生成空间权重图,为每个空间位置精确地筛选内外源修复特征,从而实现内部与外部特征的融合.在Places2、FFHQ和Paris StreetView三个公开的数据集上的实验结果表明本文方法在PSNR、SSIM、L1、LPIPS和FID指标上比其他先进方法平均提高了3.45%、1.34%、13.91%、13.64%和16.92%.消融实验结果和可视化实验结果表明图像内部特征与由视觉原子组成的外部特征均有益于修复破损图像. 展开更多
关键词 图像修复 矢量量化码本 视觉原子 掩码注意力 交叉注意力 特征融合
在线阅读 下载PDF
基于语码转换的低资源语言视觉问答方法研究
14
作者 刘征 董俊 +3 位作者 嘉乐东珠 超木日力格 刘轩 翁彧 《北京师范大学学报(自然科学版)》 北大核心 2025年第3期277-284,共8页
为解决视觉语言模型面对低资源场景缺乏大规模标注数据和有效迁移方法的困境,提出了基于语码转换的中国民族语言预训练模型视觉问答(CCMPLM-VQA)方法.通过语码转换跨语言掩码建模方法,降低了模型对标注训练数据的依赖,同时引入全新结构... 为解决视觉语言模型面对低资源场景缺乏大规模标注数据和有效迁移方法的困境,提出了基于语码转换的中国民族语言预训练模型视觉问答(CCMPLM-VQA)方法.通过语码转换跨语言掩码建模方法,降低了模型对标注训练数据的依赖,同时引入全新结构的语言适配器(language adapter,LA),有效提升了CCMPLM-VQA多模态对齐效果;验证了所提方法的有效性.结果表明:相较最佳基准模型,CCMPLM-VQA在现实世界通用视觉推理数据集上的零样本性能提升了约12%;在跨语言现实世界通用视觉推理数据集上的零样本性能优于现有类似方法约1%. 展开更多
关键词 低资源语言 视觉问答 语码转换 知识蒸馏 跨模态语义对齐
在线阅读 下载PDF
基于SAM2的腹腔镜手术多目标自动分割方法
15
作者 刘成 张家意 +2 位作者 袁烽 张睿 高欣 《图学学报》 北大核心 2025年第5期969-979,共11页
腹腔镜术中场景的自动分割是手术机器人实现自主操作的关键基础,当前仍面临三重挑战:手术目标间纹理高度相似且边界模糊,导致相似目标难以精确分割;从亚毫米级缝合线到厘米级脏器组织存在显著尺度差异,制约了多目标同步分割精度提升;运... 腹腔镜术中场景的自动分割是手术机器人实现自主操作的关键基础,当前仍面临三重挑战:手术目标间纹理高度相似且边界模糊,导致相似目标难以精确分割;从亚毫米级缝合线到厘米级脏器组织存在显著尺度差异,制约了多目标同步分割精度提升;运动伪影和烟雾遮挡等干扰进一步影响术中多目标完整分割的鲁棒性。为此,提出基于视觉大模型SAM2的腹腔镜手术多目标自动分割方法(SAM2-MSNet)。采用LoRA+微调策略优化SAM2图像编码器,高效适配腹腔镜图像的纹理特征表达;设计跨尺度特征同步提取模块,实现多尺度目标的精确分割;构建特征关系全局感知模块,增强网络对运动伪影及烟雾遮挡等干扰的鲁棒性;并引入方向梯度直方图驱动的伪标签辅助监督机制,显著提升目标边缘分割精度。实验结果表明,SAM2-MSNet在Endovis2018和AutoLaparo数据集上分别取得了70.2%和69.6%的平均交并比(mIoU),和78.5%和75.0%的平均Dice系数(mDice)。在推理速度与SAM2-UNet相当(23帧/秒VS.25帧/秒)的前提下,其分割精度显著提升了3.0%和6.7%(mIoU)和2.8%和6.8%(mDice)。SAM2-MSNet实现了对腹腔镜手术场景高精度全自动分割,为手术机器人自主化进程提供了关键技术支撑。 展开更多
关键词 腹腔镜手术场景分割 视觉大模型 跨尺度特征同步提取 特征关系全局感知 伪标签辅助监督
在线阅读 下载PDF
视觉引导的卫星传感器自动准直快速搜索方法
16
作者 袁红磊 李广云 +3 位作者 范百兴 王力 李玉杰 隆昌宇 《测绘通报》 北大核心 2025年第1期66-71,共6页
随着航天卫星产业的迅速发展,卫星制造和发射进入了快速增长的阶段。随着批量卫星的生产制造,卫星传感器的位姿测量逐渐向自动化、智能化方向发展。为满足大批量卫星自动化准直测量技术的需求,相应的技术方法也应运而生。本文在现有的... 随着航天卫星产业的迅速发展,卫星制造和发射进入了快速增长的阶段。随着批量卫星的生产制造,卫星传感器的位姿测量逐渐向自动化、智能化方向发展。为满足大批量卫星自动化准直测量技术的需求,相应的技术方法也应运而生。本文在现有的卫星自动精测技术的基础上,对自动精测模型中光十字丝提取模型和自动化搜索算法进行了深入分析;针对自动精测模型存在的缺陷,提出了一种基于图卷积的光十字丝提取算法和自动搜索算法,极大地增大了自动搜索范围,以及提升了卫星自动化准直测量的效率。 展开更多
关键词 卫星自动化测量 十字丝图像识别 准直立方镜自动搜索 视觉引导 图卷积
在线阅读 下载PDF
基于跨受试者邻近刺激学习的稳态视觉诱发电位信号识别
17
作者 杜凡 王勇 +1 位作者 严军 郭红想 《浙江大学学报(工学版)》 北大核心 2025年第12期2472-2482,共11页
为了解决稳态视觉诱发电位(SSVEP)脑-机接口(BCI)系统在校准试验不足时的性能限制,提出跨受试者邻近刺激学习的SSVEP信号识别方法.该方法结合目标受试者校准试验与正余弦参考信号,通过SAME数据增强方法,将正余弦参考信号邻近刺激基波和... 为了解决稳态视觉诱发电位(SSVEP)脑-机接口(BCI)系统在校准试验不足时的性能限制,提出跨受试者邻近刺激学习的SSVEP信号识别方法.该方法结合目标受试者校准试验与正余弦参考信号,通过SAME数据增强方法,将正余弦参考信号邻近刺激基波和谐波信息有效融入目标受试者任务相关信息中.在此基础上,通过分析目标受试者内、目标受试者与源受试者之间以及目标受试者与参考信号之间的相关性,利用典型相关分析(CCA)提取信号的基波和谐波特性,并结合任务相关成分分析(TRCA)提取信号的任务相关信息,从而优化空间滤波器.从目标受试者和源受试者中提取邻近刺激公共频率信息,最终通过模板匹配实现目标识别.实验结果表明,在仅使用一次校准试验的情况下,所提出的方法在Benchmark和BETA数据集上的识别准确率分别达到了80.17%和70.83%,且识别时间仅为0.6s,相较于当前最先进的跨受试者学习方法eTransRCA,分别提高了16.75、15.85个百分点.结果证明了该方法在提高识别准确率和缩短校准试验时间方面的优势,验证了其有效性. 展开更多
关键词 脑-机接口 稳态视觉诱发电位(SSVEP) 邻近刺激学习 迁移学习 跨受试者
在线阅读 下载PDF
基于钻孔数据的三维地层模型的构建 被引量:161
18
作者 朱良峰 吴信才 +1 位作者 刘修国 尚建嘎 《地理与地理信息科学》 CSSCI CSCD 北大核心 2004年第3期26-30,共5页
三维地质建模是三维GIS在地学中的一个重要应用,三维地层模型对实际的地质分析极为有用。在综合前人研究成果的基础上,提出了一种由工程钻孔数据构建三维地层模型的方法。该方法以钻孔资料作为地层建模的源数据,具有简单实用、快速稳健... 三维地质建模是三维GIS在地学中的一个重要应用,三维地层模型对实际的地质分析极为有用。在综合前人研究成果的基础上,提出了一种由工程钻孔数据构建三维地层模型的方法。该方法以钻孔资料作为地层建模的源数据,具有简单实用、快速稳健的特点,并且能够将用户手工编辑修改的钻孔剖面图融入实际建模流程,解决了以往单纯依靠钻孔数据进行建模而导致的建模结果不精确且难以修正的问题。该文介绍了该方法的基本思想与实现流程,探讨了断层数据的加入对模型的影响及解决方案,并通过一个建模实例展示了该方法的实际建模效果。 展开更多
关键词 三维地层模型 GIS 钻孔 剖面 断层 可视化
在线阅读 下载PDF
盲人的跨感觉通道重组 被引量:25
19
作者 吴健辉 罗跃嘉 《心理科学进展》 CSSCI CSCD 北大核心 2005年第4期406-412,共7页
失去视觉的盲人往往伴随着行为代偿,如听觉和触觉能力的提高。脑成像等认知神经科学研究发现,盲人行为代偿的神经机制之一是大脑皮层的跨感觉通道重组,即盲人的视皮层并没有因为视觉剥夺而失去作用,而是广泛地参与了其他感知觉任务。原... 失去视觉的盲人往往伴随着行为代偿,如听觉和触觉能力的提高。脑成像等认知神经科学研究发现,盲人行为代偿的神经机制之一是大脑皮层的跨感觉通道重组,即盲人的视皮层并没有因为视觉剥夺而失去作用,而是广泛地参与了其他感知觉任务。原本暂时的神经联结由于受到新的感觉信息传入方式的持续激活而固化,从而形成新的神经回路,可能是此类跨通道重组的神经基础。 展开更多
关键词 盲人 跨通道 视皮层 可塑性
在线阅读 下载PDF
Parallel Sets的改进及其在全球恐怖袭击数据分析中的应用 被引量:5
20
作者 肖卫东 周城 +2 位作者 孙扬 葛斌 汤大权 《国防科技大学学报》 EI CAS CSCD 北大核心 2011年第1期115-119,共5页
随着恐怖主义愈演愈烈,"反恐"成为当今世界各国军事安全部门的中心任务。使用分类型可视化工具Parallel Sets分析国际恐怖主义数据库中多属性分类值间的关系,揭示数据库中的隐性信息,并针对Parallel Sets任意排列分类值产生... 随着恐怖主义愈演愈烈,"反恐"成为当今世界各国军事安全部门的中心任务。使用分类型可视化工具Parallel Sets分析国际恐怖主义数据库中多属性分类值间的关系,揭示数据库中的隐性信息,并针对Parallel Sets任意排列分类值产生较多交叉的不足,提出带降势的启发式分类值布局算法,自动优化分类值布局顺序,减轻视图中的可视混乱,降势策略可以减少参与计算的分类值数目。实验结果表明,改进的ParallelSets可清晰展现国际恐怖主义数据库中各分类值间的关联,从而辅助用户分析不同恐怖组织的行为特征等信息;带降势的启发式分类值布局算法简单高效,适用于数据量较大、分类值较多的数据集。 展开更多
关键词 平行集 边交叉问题 恐怖主义 可视化分析 降势
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部