期刊文献+
共找到133篇文章
< 1 2 7 >
每页显示 20 50 100
融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法 被引量:1
1
作者 鲁超峰 陶冶 +4 位作者 文连庆 孟菲 秦修功 杜永杰 田云龙 《计算机应用》 北大核心 2025年第3期815-822,共8页
针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先... 针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先,使用大语言模型生成带有所需情感标签的文本;其次,使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人;然后,将生成的文本合成情感语音,以达到数据增强的目的;再次,使用合成语音与源目标语音共同训练说话人-情感语音转换模型;最后,为了进一步提升转换语音的说话人相似度和情感相似度,使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明,综合考虑评价指标情感相似度平均得分(EMOS)、说话人相似度平均意见得分(SMOS)、梅尔倒谱失真(MCD)和词错误率(WER)时,所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。 展开更多
关键词 少量语料 说话人-情感语音转换 语言模型 训练情感语音合成模型 微调
在线阅读 下载PDF
基于视觉-语言预训练模型的开集交通目标检测算法
2
作者 黄琦强 安国成 熊刚 《计算机工程》 北大核心 2025年第6期375-384,共10页
交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其... 交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其能够适应开集目标的定位问题,并将损失函数改进为交并比(IoU)损失,有效提升定位精度;其次,构建一种新的基于VLP的标签匹配网络(VLP-LMN),对预测框进行标签匹配,VLP模型作为一个强大的知识库,可有效匹配区域图像和标签文本,同时,VLP-LMN的提示工程和微调网络模块可以更好地发掘出VLP模型的性能,有效提高VLP模型标签匹配的准确性。实验结果表明,该算法在PASCAL VOC07+12数据集上实现了60.3%的新类目标检测平均准确率,这证明了其具有良好的开集目标检测性能;同时在交通数据集上的新类目标检测平均准确率达到了58.9%,作为零样本检测,仅比基类目标低14.5%,证明了该算法在交通目标检测上具有良好的泛化能力。 展开更多
关键词 视觉-语言训练模型 Faster R-CNN 开集目标检测 交通目标检测
在线阅读 下载PDF
基于视觉-语言预训练模型的零样本迁移学习方法综述
3
作者 孙仁科 许靖昊 +2 位作者 皇甫志宇 李仲年 许新征 《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模... 近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。 展开更多
关键词 零样本学习 视觉-语言训练模型 零样本迁移 多模态 计算机视觉
在线阅读 下载PDF
YuLan-Chat:基于多阶段课程学习的大语言模型 被引量:2
4
作者 周昆 朱余韬 +21 位作者 陈志朋 毛科龙 陈文通 陈昱硕 孙一丁 曹乾 王磊 张蕾 庞新程 谢曙方 赵鑫 窦志成 林衍凯 毛佳昕 宋睿华 陈旭 徐君 胡迪 严睿 黄文炳 魏哲巍 文继荣 《计算机学报》 北大核心 2025年第1期1-18,共18页
近年来,大语言模型已成为研究热点。其在大规模数据上预训练之后,具有强大的少样本和零样本上下文学习能力,能够便捷地用于许多真实场景复杂任务。然而,对大语言模型进行从头到尾的开发和训练,可参考的实现较少;且存在较难习得的知识,... 近年来,大语言模型已成为研究热点。其在大规模数据上预训练之后,具有强大的少样本和零样本上下文学习能力,能够便捷地用于许多真实场景复杂任务。然而,对大语言模型进行从头到尾的开发和训练,可参考的实现较少;且存在较难习得的知识,如长尾知识相关数据、复杂指令、难区分的负例等。为填补该领域空白,并强化对较难掌握数据的学习,本文提出了多阶段的课程学习方法,针对以上三种典型数据,使用了:(1)迭代增强长尾知识的预训练课程;(2)由简单到复杂的指令微调课程;(3)由易到难的人类对齐课程,完成了YuLan-Chat从头开始的整个训练流程。本文在四个与大语言模型基础能力和人类对齐能力相关的中英文评测基准上对YuLan-Chat进行评测,结果表明该模型能够在大部分场景下优于基线模型。分析实验进一步表明了该课程学习方法在GAOKAO和AlignBench评测基准上,能够分别提升模型9.7%和18.9%的答案预测准确率。 展开更多
关键词 语言模型 课程学习 训练 指令微调 人类对齐
在线阅读 下载PDF
语义增强图像-文本预训练模型的零样本三维模型分类
5
作者 丁博 张立宝 +1 位作者 秦健 何勇军 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第8期3314-3323,共10页
目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法... 目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法。该方法首先将3维模型表示成多视图;然后为了增强零样本学习对未知类别的识别能力,通过视觉语言生成模型获得每张视图及其类别的语义描述性文本,并将其作为视图和类别提示文本之间的语义桥梁,语义描述性文本采用图像字幕和视觉问答两种方式获取;最后微调语义编码器将语义描述性文本具化为类别的语义描述,其拥有丰富的语义信息和较好的可解释性,有效减小了视图和类别提示文本的语义鸿沟。实验表明,该文方法在ModelNet10和ModelNet40数据集上的分类性能优于现有的零样本分类方法。 展开更多
关键词 3维模型分类 零样本 基于对比学习图像-文本训练模型 语义描述性文本
在线阅读 下载PDF
基于BERT和Bi-LSTM的题目难度预测:知识点标签增强模型
6
作者 叶航 柴春来 +2 位作者 张思赟 陈东烁 吴霁航 《计算机应用》 北大核心 2025年第S1期37-42,共6页
目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bi... 目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bidirectional Encoder Representations from Transformers)和双向长短时记忆(Bi-LSTM)模型的C语言题目难度预测模型FTKB-BiLSTM(Fusion of Title and Knowledge based on BERT and Bi-LSTM)。首先,利用BERT的中文预训练模型获得题目文本和知识点的词向量;其次,融合模块将融合后的信息通过BERT处理得到文本的信息表示,并输入Bi-LSTM模型中学习其中的序列信息,提取更丰富的特征;最后,把经Bi-LSTM模型得到的特征表示通过全连接层并经过Softmax函数处理得到题目难度分类结果。在Leetcode中文数据集和ZjgsuOJ平台数据集上的实验结果表明,相较于XLNet等主流的深度学习模型,所提模型的准确率更优,具有较强的分类能力。 展开更多
关键词 自然语言处理 深度学习 题目难度 BERT 训练模型
在线阅读 下载PDF
基于Transformer的预训练语言模型在生物医学领域的应用 被引量:1
7
作者 游至宇 阳倩 +2 位作者 傅姿晴 陈庆超 李奇渊 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第5期883-893,共11页
[背景]随着人工智能技术的快速发展,自然语言处理(NLP)已成为生物医学研究领域中的一项关键技术.而基于Transformer框架的预训练语言模型(T-PLMs)已被广泛应用于生物医学文本的分析,有效地推动了临床决策支持系统的发展和基因组学数据... [背景]随着人工智能技术的快速发展,自然语言处理(NLP)已成为生物医学研究领域中的一项关键技术.而基于Transformer框架的预训练语言模型(T-PLMs)已被广泛应用于生物医学文本的分析,有效地推动了临床决策支持系统的发展和基因组学数据的解读.[进展]本文聚焦于T-PLMs在生物医学领域的应用,探讨其在处理和理解生物医学文本数据方面的潜力和挑战.首先回顾NLP技术的演进,从传统的特征工程到预训练语言模型的兴起,特别是BERT等模型如何改变生物医学文本分析的范式;随后详细介绍T-PLMs的训练范式,包括预训练和微调过程,以及如何通过特定领域的预训练和Prompt工程来提升模型在生物医学任务中的性能;进而深入探讨T-PLMs在生物医学领域的多样化应用,包括文本表示和知识挖掘、临床决策支持、医学影像理解、蛋白质预测、分子表示和药物设计等,并特别归纳收集了上述多个生物医学细分领域相关的数据库资料.[展望]当前研究和应用中仍面临许多挑战,如模型可解释性、数据隐私保护、多模态数据等.基于此对未来的研究方向提出展望,以充分发挥NLP在推动生物医学研究和改善患者护理方面的潜力. 展开更多
关键词 自然语言处理 生物医学应用 训练语言模型 多模态学习 医疗文本挖掘
在线阅读 下载PDF
基于对比学习与语言模型增强嵌入的知识图谱补全 被引量:2
8
作者 张洪程 李林育 +5 位作者 杨莉 伞晨峻 尹春林 颜冰 于虹 张璇 《计算机工程》 CAS CSCD 北大核心 2024年第4期168-176,共9页
知识图谱是由各种知识或数据单元经过抽取等处理而组成的一种结构化知识库,用于描述和表示实体、概念、事实和关系等信息。自然语言处理技术的限制和各种知识或信息单元文本本身的噪声都会使信息抽取的准确性受到一定程度的影响。现有... 知识图谱是由各种知识或数据单元经过抽取等处理而组成的一种结构化知识库,用于描述和表示实体、概念、事实和关系等信息。自然语言处理技术的限制和各种知识或信息单元文本本身的噪声都会使信息抽取的准确性受到一定程度的影响。现有的知识图谱补全方法通常只考虑单一结构信息或者文本语义信息,忽略了整个知识图谱中同时存在的结构信息与文本语义信息。针对此问题,提出一种基于语言模型增强嵌入与对比学习的知识图谱补全(KGC)模型。将输入的实体和关系通过预训练语言模型获取实体和关系的文本语义信息,利用翻译模型的距离打分函数捕获知识图谱中的结构信息,使用2种用于对比学习的负采样方法融合对比学习来训练模型以提高模型对正负样本的表征能力。实验结果表明,与基于来自Transformеr的双向编码器表示的知识图谱补全(KG-BERT)模型相比,在WN18RR和FB15K-237数据集上该模型链接预测的排名小于等于10的三元组的平均占比(Hits@10)分别提升了31%和23%,明显优于对比模型。 展开更多
关键词 知识图谱补全 知识图谱 对比学习 训练语言模型 链接
在线阅读 下载PDF
预训练模型特征提取的双对抗磁共振图像融合网络研究 被引量:4
9
作者 刘慧 李珊珊 +3 位作者 高珊珊 邓凯 徐岗 张彩明 《软件学报》 EI CSCD 北大核心 2023年第5期2134-2151,共18页
随着多模态医学图像在临床诊疗工作中的普及,建立在时空相关性特性基础上的融合技术得到快速发展,融合后的医学图像不仅可以保留各模态源图像的独有特征,而且能够强化互补信息、便于医生阅片.目前大多数方法采用人工定义约束的策略来实... 随着多模态医学图像在临床诊疗工作中的普及,建立在时空相关性特性基础上的融合技术得到快速发展,融合后的医学图像不仅可以保留各模态源图像的独有特征,而且能够强化互补信息、便于医生阅片.目前大多数方法采用人工定义约束的策略来实现特征提取和特征融合,这容易导致融合图像中部分有用信息丢失和细节不清晰等问题.为此,提出一种基于预训练模型特征提取的双对抗融合网络实现MR-T1/MR-T2图像的融合.该网络由一个特征提取模块、一个特征融合模块和两个鉴别网络模块组成.由于已配准的多模态医学图像数据集规模较小,无法对特征提取网络进行充分的训练,又因预训练模型具有强大的数据表征能力,故将预先训练的卷积神经网络模型嵌入到特征提取模块以生成特征图.然后,特征融合网络负责融合深度特征并输出融合图像.两个鉴别网络通过对源图像与融合图像进行准确分类,分别与特征融合网络建立对抗关系,最终激励其学习出最优的融合参数.实验结果证明了预训练技术在所提方法中的有效性,同时与现有的6种典型融合方法相比,所提方法融合结果在视觉效果和量化指标方面均取得最优表现. 展开更多
关键词 多模态医学图像 图像融合 训练模型 双鉴别网络 对抗学习
在线阅读 下载PDF
融合预训练语言模型的成语完形填空算法 被引量:3
10
作者 琚生根 黄方怡 孙界平 《软件学报》 EI CSCD 北大核心 2022年第10期3793-3805,共13页
根据上下文语境选择恰当的成语,是自然语言处理领域的重要任务之一.现有的研究将成语完型填空任务看成是文本匹配问题,虽然预训练语言模型能够在文本匹配研究上取得较高的准确率,但也存在明显的缺陷:一方面,预训练语言模型作为特征提取... 根据上下文语境选择恰当的成语,是自然语言处理领域的重要任务之一.现有的研究将成语完型填空任务看成是文本匹配问题,虽然预训练语言模型能够在文本匹配研究上取得较高的准确率,但也存在明显的缺陷:一方面,预训练语言模型作为特征提取器时,会丢失句子间相互信息;另一方面,预训练语言模型作为文本匹配器时,计算开销大,训练时间和推理时间较长.另外,上下文与候选成语之间的匹配是不对称的,会影响预训练语言模型发挥匹配器的效果.为了解决上述两个问题,利用参数共享的思想,提出了TALBERT-blank.TALBERTblank是将成语选择从基于上下文的不对称匹配过程转换为填空与候选答案之间的对称匹配过程,将预训练语言模型同时作为特征提取器和文本匹配器,并对句向量作潜在语义匹配.这样可以减少参数量和内存的消耗,在保持准确度的情况下,提高了训练和推理速度,达到了轻量高效的效果.在CHID数据集上的实验结果表明:作为匹配器,TALBERT-blank相较于ALBERT,在保证准确率的情况下,更大限度地精简了模型的结构,计算时间进一步缩短54.35%. 展开更多
关键词 成语完形填空 文本匹配 深度学习 训练语言模型
在线阅读 下载PDF
视觉富文档理解预训练综述 被引量:1
11
作者 张剑 李晖 +2 位作者 张晟铭 吴杰 彭滢 《计算机科学》 北大核心 2025年第1期259-276,共18页
视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理... 视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理和计算机视觉的交叉领域。近年来,视觉富文档理解领域的预训练技术在打破下游任务的训练壁垒和提升模型表现上取得了重大的进展。然而,目前对现有的预训练模型的归纳总结和深入分析仍然有所欠缺。为此,对视觉富文档理解领域预训练技术的相关研究进行了全面总结。首先,介绍了预训练技术的数据预处理阶段,包括预训练数据集和光学字符识别引擎。然后,对预训练技术的模型预训练阶段进行了阐述,提炼出单模态表示学习、多模态特征融合和预训练任务3个关键的技术模块,并基于上述模块归纳了预训练模型之间的共性和差异。此外,简要介绍了多模态大模型在视觉富文档理解领域的应用。接着,对预训练模型在下游任务上的表现进行了对比分析。最后,探讨了预训练技术面临的挑战和未来的研究方向。 展开更多
关键词 文档智能 训练模型 自然语言处理 计算机视觉 深度学习
在线阅读 下载PDF
面向语言学习者的跨语言反馈评语生成方法
12
作者 安纪元 朱琳 杨尔弘 《中文信息学报》 北大核心 2025年第7期148-161,共14页
反馈评语生成是近年来自然语言处理研究的一个热点任务,旨在为语言学习者的作文提供纠偏及解释性的评价,以帮助学习者理解并内化语言规则,从而提高写作水平。现有研究主要聚焦于单一语言的反馈评语生成,忽略了非母语学习者可能面临的理... 反馈评语生成是近年来自然语言处理研究的一个热点任务,旨在为语言学习者的作文提供纠偏及解释性的评价,以帮助学习者理解并内化语言规则,从而提高写作水平。现有研究主要聚焦于单一语言的反馈评语生成,忽略了非母语学习者可能面临的理解障碍,以及评语中存在陌生语言知识等问题。该文提出了一种新的跨语言反馈评语生成(CLFCG)任务,其目的是为汉语母语者学习英语提供汉语的反馈评语。首先,通过构建首个英-汉跨语言反馈评语数据集,探索了大语言模型(如GPT-4)和预训练语言模型(如mBART、mT5)在该任务上的性能,并针对预训练语言模型,分析了修正编辑、线索词语和语法术语等附加信息对反馈评语生成效果的影响。其次,该文提出了一种基于大语言模型的评估方法,以更加准确地评估反馈评语生成效果。实验结果显示,基于微调的预训练语言模型能够更好地对齐人类教师的评语,但其生成的准确性略逊于采用少样本学习策略的GPT-4模型。最后,该文对实验结果进行了深入讨论和分析,以期为跨语言反馈评语生成任务提供更多思路和见解。 展开更多
关键词 智能辅助语言学习 反馈评语生成 语言文本生成 训练语言模型 语言模型
在线阅读 下载PDF
基于预训练语言表示模型的汉语韵律结构预测 被引量:2
13
作者 张鹏远 卢春晖 王睿敏 《天津大学学报(自然科学与工程技术版)》 EI CSCD 北大核心 2020年第3期265-271,共7页
韵律结构预测作为语音合成系统中的一个关键步骤,其结果直接影响合成语音的自然度和可懂度.本文提出了一种基于预训练语言表示模型的韵律结构预测方法,以字为建模单位,在预训练语言模型的基础上对每个韵律层级设置了独立的输出层,利用... 韵律结构预测作为语音合成系统中的一个关键步骤,其结果直接影响合成语音的自然度和可懂度.本文提出了一种基于预训练语言表示模型的韵律结构预测方法,以字为建模单位,在预训练语言模型的基础上对每个韵律层级设置了独立的输出层,利用韵律标注数据对预训练模型进行微调.另外在此基础上额外增加了分词任务,通过多任务学习的方法对各韵律层级间的关系及韵律与词间的关系建模,实现对输入文本各级韵律边界的同时预测.实验首先证明了多输出结构设置的合理性及使用预训练模型的有效性,并验证了分词任务的加入可以进一步提升模型性能;将最优的结果与设置的两个基线模型相比,在韵律词和韵律短语预测的F1值上与条件随机场模型相比分别有2.48%和4.50%的绝对提升,而与双向长短时记忆网络相比分别有6.2%和5.4%的绝对提升;最后实验表明该方法可以在保证预测性能的同时减少对训练数据量的需求. 展开更多
关键词 韵律结构 训练语言表示模型 多任务学习 语音合成
在线阅读 下载PDF
基于预训练语言模型的安卓恶意软件检测方法 被引量:2
14
作者 印杰 黄肖宇 +2 位作者 刘家银 牛博威 谢文伟 《计算机工程与科学》 CSCD 北大核心 2023年第8期1433-1442,共10页
近年来,基于有监督机器学习的安卓恶意软件检测方法取得了一定进展。但是,由于恶意软件样本搜集困难,带标签的数据集规模一般较小,导致训练出的有监督模型泛化能力有限。针对这一问题,提出无监督和有监督相结合的恶意软件检测方法。首先... 近年来,基于有监督机器学习的安卓恶意软件检测方法取得了一定进展。但是,由于恶意软件样本搜集困难,带标签的数据集规模一般较小,导致训练出的有监督模型泛化能力有限。针对这一问题,提出无监督和有监督相结合的恶意软件检测方法。首先,使用无监督方法预训练语言模型,从大量无标记APK样本中学习字节码中丰富、复杂的语义关系,提高模型的泛化能力。然后,利用有标记的恶意软件样本对语言模型进行微调,使其能更有效地检测恶意软件。在Drebin等实验数据集上的实验结果表明,相比基准方法,提出的方法泛化能力更好,检测性能更优,最高检测准确率达98.7%。 展开更多
关键词 安卓 恶意软件检测 训练语言模型 无监督学习
在线阅读 下载PDF
基于CLIP的视频时刻检索预训练模型 被引量:3
15
作者 缪翌 张卫锋 徐领 《计算机应用研究》 CSCD 北大核心 2024年第12期3866-3872,共7页
视频时刻检索作为下游任务,依赖预训练模型提取特征的能力。近年的研究表明,以CLIP为代表的图像-语言预训练模型在大规模数据集下能学习到有效且通用的语义知识,从而在图像分类等任务上表现出强大的迁移能力和零样本能力。然而其迁移到... 视频时刻检索作为下游任务,依赖预训练模型提取特征的能力。近年的研究表明,以CLIP为代表的图像-语言预训练模型在大规模数据集下能学习到有效且通用的语义知识,从而在图像分类等任务上表现出强大的迁移能力和零样本能力。然而其迁移到视频时刻检索任务仍效果不佳。为解决上述难题,提出了视频时刻检索网络VMRNet,该网络以CLIP预训练模型为骨干,并设计了用于增强CLIP模型时序建模能力和跨模态交互能力的视频时序增强模块VTEMo。该模块采用旁路层级结构,引入查询文本引导的视觉提示,引导视觉编码器学习当前查询任务关注的视觉信息和时序信息。在QVHighlights、Charades-STA等常用数据集上进行了验证实验,VMRNet的R1@0.5指标在两个数据集上分别提高0.83和1.27,模型总体性能优于其他代表性的模型。实验结果充分表明,提出的VTEMo可在查询文本引导下有效学习视频视觉特征和时序特征,VMRNet结合VTEMo可在视频时刻检索任务上获得更为优秀的表现。 展开更多
关键词 多模态 视频时刻检索 图像-语言训练模型 参数微调
在线阅读 下载PDF
面向汉越跨语言事件检索的事件预训练方法
16
作者 吴少扬 余正涛 +3 位作者 黄于欣 朱恩昌 高盛祥 邓同杰 《中文信息学报》 CSCD 北大核心 2024年第4期78-85,共8页
汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务。由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务。因此,... 汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务。由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务。因此,为了将汉越双语对齐的事件知识融入到多语言预训练语言模型中,该文提出了两个预训练方法,即事件要素掩码预训练以及跨语言事件对比预训练。在该文构造的汉越跨语言事件检索数据集和公开跨语言问答数据集上进行了实验,比基线提升1%~3%MAP值,2%~4%NDCG值,证明了该文方法的有效性。 展开更多
关键词 事件训练 语言事件检索 掩码语言模型 对比学习
在线阅读 下载PDF
基于双文本提示和多重相似性学习的多标签遥感图像分类
17
作者 白淑芬 宋铁成 《电讯技术》 北大核心 2025年第1期35-42,共8页
多标签遥感图像分类旨在预测遥感图像中出现的多个相互关联的对象,其中文本标签能赋予丰富的语义信息。然而,目前多数多标签图像分类法未能充分考虑视觉语义图像-文本对信息。为了解决这一问题,提出了一种基于双文本提示和多重相似性(Bi... 多标签遥感图像分类旨在预测遥感图像中出现的多个相互关联的对象,其中文本标签能赋予丰富的语义信息。然而,目前多数多标签图像分类法未能充分考虑视觉语义图像-文本对信息。为了解决这一问题,提出了一种基于双文本提示和多重相似性(Bi-text Prompts and Multi-similarity,BTPMS)学习的多标签遥感图像分类算法。该算法首先利用场景与对象标签文本的双文本提示(Bi-text Prompts,BTP)提供丰富的先验知识,再综合考虑场景与对象标签之间的关联,对所得的文本特征和图像特征计算多重相似性,最后利用相似性得分进行多标签遥感图像分类。此外,设计了新颖的局部特征注意力(Local Feature Attention,LFA)模块,从空间与通道维度上捕捉图像中局部结构。在两个基准遥感数据集上进行广泛实验,结果表明所提算法优于对比的多标签图像分类方法。 展开更多
关键词 遥感图像 多标签图像分类 视觉语言训练 提示学习 局部特征注意力
在线阅读 下载PDF
大语言模型在推荐系统中的应用
18
作者 李博 莫先 《计算机科学》 北大核心 2025年第S1期7-13,共7页
大语言模型(LLMs)在推荐系统(RS)的特征工程与特征编码、预训练与微调和提示学习等阶段发挥着关键作用。通过特征工程与特征编码,LLMs提升了推荐系统的个性化和准确性,同时优化了模型的泛化能力和适应性。研究表明,LLMs在特征工程阶段... 大语言模型(LLMs)在推荐系统(RS)的特征工程与特征编码、预训练与微调和提示学习等阶段发挥着关键作用。通过特征工程与特征编码,LLMs提升了推荐系统的个性化和准确性,同时优化了模型的泛化能力和适应性。研究表明,LLMs在特征工程阶段能够丰富用户画像和提取物品特征;在预训练与微调阶段则通过大量未标记数据训练,为下游任务部署做好准备;在提示学习阶段通过设计有效的指令和提示,提高了模型对推荐任务的理解和解决能力。文中还讨论了LLMs在推荐系统应用中面临的挑战,例如计算成本高、API依赖、数据噪声等问题,研究者正在探索优化策略。未来推荐系统的发展潜力集中在数据增强、微调效率提升、提示设计优化和可解释性增强等方面,这些综合性分析为推荐系统领域的持续发展和创新提供了坚实的理论基础。 展开更多
关键词 推荐系统 语言模型 特征工程 训练与微调 提示学习
在线阅读 下载PDF
基于预训练模型的多音字消歧方法
19
作者 高贝贝 张仰森 《计算机科学》 CSCD 北大核心 2024年第11期273-279,共7页
字音转换是中文语音合成系统(Text-To-Speech,TTS)的重要组成部分,其核心问题是多音字消歧,即在若干候选读音中为多音字选择一个正确的发音。现有的方法通常无法充分理解多音字所在词语的语义,且多音字数据集存在分布不均衡的问题。针... 字音转换是中文语音合成系统(Text-To-Speech,TTS)的重要组成部分,其核心问题是多音字消歧,即在若干候选读音中为多音字选择一个正确的发音。现有的方法通常无法充分理解多音字所在词语的语义,且多音字数据集存在分布不均衡的问题。针对以上问题,提出了一种基于预训练模型RoBERTa的多音字消歧方法CLTRoBERTa(Cross-lingual Translation RoBERTa)。首先联合跨语言互译模块获得多音字所在词语的另一种语言翻译,并将其作为额外特征输入模型以提升对词语的语义理解,然后使用判别微调中的层级学习率优化策略来适应神经网络不同层之间的学习特性,最后结合样本权重模块以解决多音字数据集的分布不均衡问题。CTLRoBERTa平衡了数据集的不均衡分布带来的性能差异,并且在CPP(Chinese Polyphone with Pinyin)基准数据集上取得了99.08%的正确率,性能优于其他基线模型。 展开更多
关键词 多音字消歧 训练模型 字音转换 语言互译 层级学习 样本权重
在线阅读 下载PDF
基于深度预训练语言模型的文献学科自动分类研究 被引量:35
20
作者 罗鹏程 王一博 王继民 《情报学报》 CSSCI CSCD 北大核心 2020年第10期1046-1059,共14页
为了支撑"一流学科"相关的情报和文献服务,本文探索利用深度预训练语言模型实现文献的教育部一级学科自动分类。通过构建基于BERT和ERNIE的文献学科分类模型,在21个人文社科一级学科近10万条期刊文献数据集上进行实验验证,并... 为了支撑"一流学科"相关的情报和文献服务,本文探索利用深度预训练语言模型实现文献的教育部一级学科自动分类。通过构建基于BERT和ERNIE的文献学科分类模型,在21个人文社科一级学科近10万条期刊文献数据集上进行实验验证,并与传统机器学习方法 (朴素贝叶斯、支持向量机等)、典型深度学习方法 (卷积神经网络、循环神经网络)进行对比分析。结果显示,基于深度预训练语言模型的方法效果最好,其中ERNIE在测试集上的Top 1和Top 2准确率分别可达到75.56%、89.35%;同时使用标题、关键词和摘要作为输入的分类模型效果最优;一些学科的学科独立性强,分类效果好,如体育学F1值高达0.98;另一些学科间交叉性高,分类效果欠佳,如理论经济学和应用经济学的F1值在0.6左右。此外,本文还对学科交叉融合、模型应用场景、分类效果优化做了进一步的探讨。 展开更多
关键词 文献学科分类 深度学习 文本分类 训练语言模型
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部