期刊文献+
共找到377篇文章
< 1 2 19 >
每页显示 20 50 100
基于预训练语言模型的知识图谱研究综述 被引量:11
1
作者 曾泽凡 胡星辰 +2 位作者 成清 司悦航 刘忠 《计算机科学》 北大核心 2025年第1期1-33,共33页
大语言模型时代,知识图谱作为一种结构化的知识表示方式,在提升人工智能的可靠性、安全性和可解释性方面发挥着不可替代的作用,具有重要的研究价值和实际应用前景。近年来,凭借在语义理解和上下文学习方面的优越性能,预训练语言模型已... 大语言模型时代,知识图谱作为一种结构化的知识表示方式,在提升人工智能的可靠性、安全性和可解释性方面发挥着不可替代的作用,具有重要的研究价值和实际应用前景。近年来,凭借在语义理解和上下文学习方面的优越性能,预训练语言模型已经成为了知识图谱研究的主要手段。系统梳理了基于预训练语言模型的知识图谱研究的相关工作,包括知识图谱构建、表示学习、推理、问答等,介绍了相关模型和方法的核心思路,并依据技术路径建立了分类体系,对不同类型方法的优缺点进行了对比分析。此外,对预训练语言模型在事件知识图谱和多模态知识图谱这两种新型知识图谱中的应用现状进行了综述。最后,总结了当前基于预训练语言模型的知识图谱研究面临的挑战,展望了未来的研究方向。 展开更多
关键词 知识图谱 训练语言模型 语言模型 多模态 事件知识图谱
在线阅读 下载PDF
影响预训练语言模型数据泄露的因素研究 被引量:1
2
作者 钱汉伟 彭季天 +4 位作者 袁明 高光亮 刘晓迁 王群 朱景羽 《信息安全研究》 北大核心 2025年第2期181-188,共8页
当前广泛使用的预训练语言模型是从海量训练语料中学习通用的语言表示.自然语言处理领域的下游任务在使用预训练语言模型后性能得到显著提升,但是深度神经网络过拟合现象使得预训练语言模型可能存在泄露训练语料隐私的风险.选用T5,GPT-2... 当前广泛使用的预训练语言模型是从海量训练语料中学习通用的语言表示.自然语言处理领域的下游任务在使用预训练语言模型后性能得到显著提升,但是深度神经网络过拟合现象使得预训练语言模型可能存在泄露训练语料隐私的风险.选用T5,GPT-2,OPT等广泛使用的预训练语言模型作为研究对象,利用模型反演攻击探索影响预训练语言模型数据泄露的因素.实验过程中利用预训练语言模型生成大量样本,以困惑度等指标选取最有可能发生数据泄露风险的样本进行验证,证明了T5等不同模型均存在不同程度的数据泄露问题;同一种模型,模型规模越大数据泄露可能性越大;添加特定前缀更容易获取泄露数据等问题.对未来数据泄露问题及其防御方法进行了展望. 展开更多
关键词 自然语言处理 训练语言模型 隐私数据泄露 模型反演攻击 模型架构
在线阅读 下载PDF
基于预训练语言模型的IPC与高相似CLC类目自动映射 被引量:1
3
作者 黄敏 魏嘉琴 李茂西 《中文信息学报》 北大核心 2025年第2期153-161,共9页
专利和图书期刊是产业界与学术界的科技创新信息来源,专利通常采用国际专利分类法(International Patent Classification,IPC)标识,而中文图书期刊则采用中国图书馆分类法(Chinese Library Classification,CLC),不同的分类标识体系给专... 专利和图书期刊是产业界与学术界的科技创新信息来源,专利通常采用国际专利分类法(International Patent Classification,IPC)标识,而中文图书期刊则采用中国图书馆分类法(Chinese Library Classification,CLC),不同的分类标识体系给专利、图书期刊信息整合共享和跨库检索浏览带来了挑战。针对IPC类目和高相似的CLC类目难以准确映射的问题,对于计算资源受限的场景,该文提出结合预训练语言模型BERT和文本蕴含模型ESIM的IPC与CLC类目自动映射方法;对于计算资源充足的场景,该文提出了基于大语言模型ChatGLM2-6B的IPC与CLC类目自动映射方法。在公开的IPC与CLC类目映射数据集和在其基础上构建的IPC类目与高相似的CLC类目映射数据集上的实验结果表明,该文所提出的两种方法均统计显著地优于对比的基线方法,包括当前最先进的Sia-BERT等基于深度神经网络的科技文献类目自动映射方法。消融实验和详细的映射实例分析进一步揭示了该文所提方法的有效性。 展开更多
关键词 国际专利分类法 中国图书馆分类法 训练语言模型 语言模型 类目映射
在线阅读 下载PDF
融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法 被引量:1
4
作者 鲁超峰 陶冶 +4 位作者 文连庆 孟菲 秦修功 杜永杰 田云龙 《计算机应用》 北大核心 2025年第3期815-822,共8页
针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先... 针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先,使用大语言模型生成带有所需情感标签的文本;其次,使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人;然后,将生成的文本合成情感语音,以达到数据增强的目的;再次,使用合成语音与源目标语音共同训练说话人-情感语音转换模型;最后,为了进一步提升转换语音的说话人相似度和情感相似度,使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明,综合考虑评价指标情感相似度平均得分(EMOS)、说话人相似度平均意见得分(SMOS)、梅尔倒谱失真(MCD)和词错误率(WER)时,所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。 展开更多
关键词 少量语料 说话人-情感语音转换 语言模型 训练情感语音合成模型 微调
在线阅读 下载PDF
面向煤矿安全隐患文本的预训练语言模型构建
5
作者 李泽荃 刘飞翔 +2 位作者 赵嘉良 祁慧 李靖 《矿业安全与环保》 北大核心 2025年第3期185-192,共8页
煤矿各类安全管理信息化平台积累的大量非结构化文本数据目前并没有得到充分利用。为充分挖掘煤矿安全隐患文本知识,提出一种基于领域术语掩码语言建模(DP-MLM)和句子顺序预测建模(SOP)学习机制的煤矿安全领域预训练语言模型(CoalBERT)... 煤矿各类安全管理信息化平台积累的大量非结构化文本数据目前并没有得到充分利用。为充分挖掘煤矿安全隐患文本知识,提出一种基于领域术语掩码语言建模(DP-MLM)和句子顺序预测建模(SOP)学习机制的煤矿安全领域预训练语言模型(CoalBERT)。利用收集到的110万余条煤矿隐患排查记录数据和自构建的1 328个领域术语词典进行模型训练,并在煤矿安全隐患文本分类和命名实体识别2个任务上分别进行对比实验。研究结果表明:在文本分类实验中,CoalBERT模型总体结果的精准率、召回率和综合评价指标F_(1)值较双向编码器表征法预训练模型(BERT)分别提高0.34%、0.21%、0.27%;在命名实体识别实验中,CoalBERT模型的精准率和F_(1)值较BERT模型分别提高3.84%、2.13%。CoalBERT模型能够有效提升煤矿安全隐患文本语义理解能力,可为煤矿安全领域文本挖掘相关任务场景提供基础参考。 展开更多
关键词 bert模型 煤矿安全隐患文本 文本分类 命名实体识别 训练模型 任务微调
在线阅读 下载PDF
基于预训练语言模型和提示学习的生物医学关系抽取
6
作者 马蓉蓉 朱小飞 陈旭 《重庆理工大学学报(自然科学)》 北大核心 2025年第7期149-156,共8页
生物医学关系抽取是电子健康记录挖掘和生物医学知识库构建的一个重要任务。由于生物医学领域关系抽取具有大量的专业术语和复杂的语言结构,导致生物医学关系抽取数据集注释往往不完整或覆盖率较低。提出一种基于预训练语言模型和提示... 生物医学关系抽取是电子健康记录挖掘和生物医学知识库构建的一个重要任务。由于生物医学领域关系抽取具有大量的专业术语和复杂的语言结构,导致生物医学关系抽取数据集注释往往不完整或覆盖率较低。提出一种基于预训练语言模型和提示学习的生物医学关系抽取模型。该模型在大规模生物医学数据集预训练的模型基础上进行关系抽取,提出一种利用大语言模型自动构建提示模板的方法,有效利用关系类信息并充分指导模型捕获关键类特征。此外,提出一种利用大语言模型增强训练数据的方法,确保了增强数据的相关性和多样性,有效缓解训练数据不足的问题。在3个BioRE基准数据集BC5CDR、DDI和DrugProt上进行实验,实验结果表明该模型能够有效提升生物医学关系抽取的性能。 展开更多
关键词 训练语言模型 提示学习 语言模型 生物医学关系抽取
在线阅读 下载PDF
基于自注意力归因和剪枝的预训练语言模型去偏方法
7
作者 叶啟文 周栋 +1 位作者 王蒙蒙 曹步清 《中文信息学报》 北大核心 2025年第6期9-21,共13页
预训练语言模型编码了一系列社会偏见,应用在下游任务中可能会延续甚至放大对弱势群体的不公平对待。现有与任务无关的方法去偏效果迁移至下游任务中表现不佳,而与任务相关的方法主要依赖于下游微调数据标注的受保护属性标签。该文提出... 预训练语言模型编码了一系列社会偏见,应用在下游任务中可能会延续甚至放大对弱势群体的不公平对待。现有与任务无关的方法去偏效果迁移至下游任务中表现不佳,而与任务相关的方法主要依赖于下游微调数据标注的受保护属性标签。该文提出了基于自注意力归因和剪枝的预训练语言模型去偏方法,这是一种与任务相关但不需要依赖受保护属性标签的方法,适用于通用下游任务且具有可解释性。该方法将模型的决策归因于输入数据和自注意力头之间的信息交互,进而识别自注意力头对模型决策的重要性。通过权衡预测准确率和公平性,有选择地对偏见影响较大的头进行剪枝,从而实现模型去偏。该文在多个数据集上进行实验,实验结果表明,该方法可以有效缓解偏见且不损耗模型预测性能。 展开更多
关键词 训练语言模型 公平性 去偏 自注意力归因
在线阅读 下载PDF
基于视觉-语言预训练模型的开集交通目标检测算法
8
作者 黄琦强 安国成 熊刚 《计算机工程》 北大核心 2025年第6期375-384,共10页
交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其... 交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其能够适应开集目标的定位问题,并将损失函数改进为交并比(IoU)损失,有效提升定位精度;其次,构建一种新的基于VLP的标签匹配网络(VLP-LMN),对预测框进行标签匹配,VLP模型作为一个强大的知识库,可有效匹配区域图像和标签文本,同时,VLP-LMN的提示工程和微调网络模块可以更好地发掘出VLP模型的性能,有效提高VLP模型标签匹配的准确性。实验结果表明,该算法在PASCAL VOC07+12数据集上实现了60.3%的新类目标检测平均准确率,这证明了其具有良好的开集目标检测性能;同时在交通数据集上的新类目标检测平均准确率达到了58.9%,作为零样本检测,仅比基类目标低14.5%,证明了该算法在交通目标检测上具有良好的泛化能力。 展开更多
关键词 视觉-语言训练模型 Faster R-CNN 开集目标检测 交通目标检测
在线阅读 下载PDF
基于预训练大语言模型的实体关系抽取框架及其应用 被引量:1
9
作者 魏伟 金成功 +3 位作者 杨龙 周默 孟祥主 冯慧 《应用科学学报》 北大核心 2025年第1期20-34,共15页
实体关系抽取是构建大规模知识图谱和专业领域数据集的重要基础之一,为此提出了一种基于预训练大语言模型的实体关系抽取框架(entity relation extraction framework based on pre-trained large language model, PLLM-RE),并针对循环... 实体关系抽取是构建大规模知识图谱和专业领域数据集的重要基础之一,为此提出了一种基于预训练大语言模型的实体关系抽取框架(entity relation extraction framework based on pre-trained large language model, PLLM-RE),并针对循环经济政策进行了实体关系抽取研究。基于所提出的PLLM-RE框架,首先使用RoBERTa模型进行循环经济政策文本的实体识别,然后选取基于Transformer的双向编码器表示(bidirectional encoder representation from Transformers, BERT)模型进行循环经济政策实体关系抽取研究,以构建该政策领域的知识图谱。研究结果表明,PLLM-RE框架在循环经济政策实体关系抽取任务上的性能优于对比模型BiLSTM-ATT、PCNN、BERT以及ALBERT,验证了所提框架在循环经济政策实体关系抽取任务上的适配性和优越性,为后续循环经济领域资源的信息挖掘和政策分析提供了新思路。 展开更多
关键词 训练语言模型 实体关系抽取框架 循环经济政策 政策分析
在线阅读 下载PDF
基于变分注意力知识选择和预训练语言模型的对话生成
10
作者 张乃洲 曹薇 +1 位作者 张啸剑 李石君 《计算机研究与发展》 北大核心 2025年第8期1902-1917,共16页
基于知识的神经对话研究常常面临外部知识包含冗余甚至与对话主题不相关信息的问题,从而导致对话系统性能下降.知识选择成为解决该问题的重要途径,但现有研究对诸如知识选择器的设计、选择出的知识的利用以及知识选择对话方法适用的场... 基于知识的神经对话研究常常面临外部知识包含冗余甚至与对话主题不相关信息的问题,从而导致对话系统性能下降.知识选择成为解决该问题的重要途径,但现有研究对诸如知识选择器的设计、选择出的知识的利用以及知识选择对话方法适用的场景等问题,还缺乏深入研究.针对这些问题,提出了一个新的基于变分注意力知识选择和预训练模型的神经对话方法,使用一个基于条件变分自编码(conditional variational autoencoder,CVAE)和多层注意力机制的知识选择算法,自动选择出与当前对话最相关文本知识集合.该算法有效利用了训练数据中的对话回复来提高知识选择的效率.使用预训练语言模型Bart作为编码器-解码器架构,将选择的文本知识合并到Bart模型中,并在训练过程中对其进行微调.实验结果表明,与现有的一些代表性研究方法相比,提出的模型能生成多样性和连贯性更好、准确率更高的对话回复. 展开更多
关键词 基于知识的对话 知识选择 训练语言模型 条件变分自编码 注意力机制 记忆网络
在线阅读 下载PDF
预训练语言模型引入数字政府建设的风险应对——基于行政关系的视角
11
作者 曹冬英 《中南大学学报(社会科学版)》 北大核心 2025年第4期143-152,共10页
从行政主客体关系的角度来看,将预训练语言模型引入数字政府建设能够推动行政主体与相对人之间的沟通升级、促进行政行为内外流程的多维完善、提高行政决策的理性水平。在正视预训练语言模型带来的正面效能的同时,需要清醒地认识到它可... 从行政主客体关系的角度来看,将预训练语言模型引入数字政府建设能够推动行政主体与相对人之间的沟通升级、促进行政行为内外流程的多维完善、提高行政决策的理性水平。在正视预训练语言模型带来的正面效能的同时,需要清醒地认识到它可能引发的行政相对人的数据权利被侵扰、行政伦理基本原则面临挑战、行政责任主体模糊不明等风险。为了应对风险,行政主体应当以权利保障为核心落实相关法律法规、以价值理性为取向构建伦理保障机制、以权责清晰为基点优化责任结构关系。 展开更多
关键词 训练语言模型 数字政府 行政关系 ChatGPT 数字治理
在线阅读 下载PDF
玲珑:一个小规模的高质量中文预训练语言模型
12
作者 李东闻 钟震宇 +4 位作者 孙羽菲 申峻宇 马子智 于川越 张玉志 《计算机研究与发展》 北大核心 2025年第3期682-693,共12页
近年来,大规模的、基于自回归的中文预训练语言模型在各种自然语言处理任务上表现出优异性能.然而,高昂的计算成本以及基于中文词切分数据给中文预训练语言模型实际应用带来了巨大挑战.此外,大多基于自回归的模型只能使用单向前文信息,... 近年来,大规模的、基于自回归的中文预训练语言模型在各种自然语言处理任务上表现出优异性能.然而,高昂的计算成本以及基于中文词切分数据给中文预训练语言模型实际应用带来了巨大挑战.此外,大多基于自回归的模型只能使用单向前文信息,可能会导致模型在上下文敏感任务上的性能有所下降.为了解决以上问题,提出并训练了一个高质量的小型中文预训练语言模型——玲珑.该模型仅有3.17亿个参数,较小的规模使得玲珑十分容易部署和应用.使用基于汉字的策略对训练语料进行切分,可以有效减轻未知标记和分词错误带来的负面影响,增强了玲珑在下游任务上的性能.此外,通过对每条训练数据的输入顺序进行逆序处理,训练了一个反向玲珑模型.将玲珑与其反向版本相结合,可以实现在下游任务中使用双向信息.多种自然语言处理下游任务的实验结果表明,玲珑具有不错的处理下游任务的能力.在6个数据集上玲珑超越了相近规模模型的性能,在5个数据集上超越了大模型的性能. 展开更多
关键词 中文训练语言模型 小规模 基于汉字的模型 反向模型 双向信息
在线阅读 下载PDF
问答式林业预训练语言模型ForestBERT 被引量:3
13
作者 谭晶维 张怀清 +2 位作者 刘洋 杨杰 郑东萍 《林业科学》 EI CAS CSCD 北大核心 2024年第9期99-110,共12页
【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策... 【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策管理提供智能化信息服务。【方法】首先,基于网络爬虫技术构建包含术语、法律法规和文献3个主题的林业语料库,使用该语料库对通用领域预训练语言模型BERT进行继续预训练,再通过掩码语言模型和下一句预测这2个任务进行自监督学习,使BERT能够有效地学习林业语义信息,得到具有林业文本通用特征的预训练语言模型ForestBERT。然后,对预训练语言模型mT5进行微调,实现样本的自动标注,通过人工校正后,构建包含3个主题共2280个样本的林业抽取式问答数据集。基于该数据集对BERT、RoBERTa、MacBERT、PERT、ELECTRA、LERT 6个通用领域的中文预训练语言模型以及本研究构建的ForestBERT进行训练和验证,以明确ForestBERT的优势。为探究不同主题对模型性能的影响,分别基于林业术语、林业法律法规、林业文献3个主题数据集对所有模型进行微调。将ForestBERT与BERT在林业文献中的问答结果进行可视化比较,以更直观展现ForestBERT的优势。【结果】ForestBERT在林业领域的抽取式问答任务中整体表现优于其他6个对比模型,与基础模型BERT相比,精确匹配(EM)分数和F1分数分别提升1.6%和1.72%,在另外5个模型的平均性能上也均提升0.96%。在各个模型最优划分比例下,ForestBERT在EM上分别优于BERT和其他5个模型2.12%和1.2%,在F1上分别优于1.88%和1.26%。此外,ForestBERT在3个林业主题上也均表现优异,术语、法律法规、文献任务的评估分数分别比其他6个模型平均提升3.06%、1.73%、2.76%。在所有模型中,术语任务表现最佳,F1的平均值达到87.63%,表现较差的法律法规也达到82.32%。在文献抽取式问答任务中,ForestBERT相比BERT可提供更准确、全面的答案。【结论】采用继续预训练的方式增强通用领域预训练语言模型的林业专业知识,可有效提升模型在林业抽取式问答任务中的表现,为林业文本和其他领域的文本处理和应用提供一种新思路。 展开更多
关键词 林业文本 bert 训练语言模型 特定领域训练 抽取式问答任务 自然语言处理
在线阅读 下载PDF
面向中国海关进出口商品税率检测的预训练语言模型CC-BERT
14
作者 周成杰 车超 +1 位作者 张强 周东生 《中文信息学报》 CSCD 北大核心 2024年第10期155-164,共10页
判定商品税率以便进行税收是海关最重要的职能之一,其肩负着国家财政收入与再分配的重要作用。预训练语言模型(BERT)的提出,刷新了众多自然语言处理任务的最优结果。但是由于海关文本数据的特殊性,导致BERT在海关进出口商品税率检测(文... 判定商品税率以便进行税收是海关最重要的职能之一,其肩负着国家财政收入与再分配的重要作用。预训练语言模型(BERT)的提出,刷新了众多自然语言处理任务的最优结果。但是由于海关文本数据的特殊性,导致BERT在海关进出口商品税率检测(文本分类)任务中表现较差。针对这个问题,该文提出一种新的预训练语言模型CC-BERT。在模型预训练阶段,提出了全要素掩蔽策略以及预测规格型号与申报要素是否对齐(NCA)两种全新的预训练策略。CC-BERT可以降低既定文本顺序对模型性能的负反馈,以及加强规格型号与申报要素之间的联系。在真实的海关税率检测任务上的实验结果表明,该方法具有更强的鲁棒性,分类性能指标优于基线模型,F_(1)值在两个数据集上分别达到90.52%和80.10%。 展开更多
关键词 训练语言模型 税率检测 结构化文本
在线阅读 下载PDF
KAACNN:融合知识图谱和预训练模型的短文本多标签分类方法
15
作者 陶冶 徐锴 +2 位作者 刘天宇 鲁超峰 王浩杰 《中文信息学报》 北大核心 2025年第3期96-106,共11页
短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训... 短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训练语言模型提高短文本的文本表示能力;另一方面从外部知识库中检索短文本概念知识,并利用注意力机制将其与短文本结合用于分类任务。此外,针对数据集类别分布不均衡的问题,该文提出基于领域类别知识图谱的数据增强方法。在三个公共数据集和一个汽车领域客户原话数据集上进行了实验,结果表明,引入知识图谱和预训练语言模型的分类方法优于目前先进的短文本分类方法,证明了外部知识库和预训练语言模型的先验知识在短文本分类中的有效性。 展开更多
关键词 知识图谱 注意力机制 训练语言模型 数据增强 短文本分类
在线阅读 下载PDF
预训练模型在软件工程领域应用研究进展 被引量:2
16
作者 宫丽娜 周易人 +3 位作者 乔羽 姜淑娟 魏明强 黄志球 《软件学报》 北大核心 2025年第1期1-26,共26页
近年来深度学习在软件工程领域任务中取得了优异的性能.众所周知,实际任务中优异性能依赖于大规模训练集,而收集和标记大规模训练集需要耗费大量资源和成本,这限制了深度学习技术在实际任务中的广泛应用.随着深度学习领域预训练模型(pre... 近年来深度学习在软件工程领域任务中取得了优异的性能.众所周知,实际任务中优异性能依赖于大规模训练集,而收集和标记大规模训练集需要耗费大量资源和成本,这限制了深度学习技术在实际任务中的广泛应用.随着深度学习领域预训练模型(pre-trained model,PTM)的发布,将预训练模型引入到软件工程(software engineering,SE)任务中得到了国内外软件工程领域研究人员的广泛关注,并得到了质的飞跃,使得智能化软件工程进入了一个新时代.然而,目前没有研究提炼预训练模型在软件工程领域的成功和机遇.为阐明这一交叉领域的工作(pre-trained models for software engineering,PTM4SE),系统梳理当前基于预训练模型的智能软件工程相关工作,首先给出基于预训练模型的智能软件工程方法框架,其次分析讨论软件工程领域常用的预训练模型技术,详细介绍使用预训练模型的软件工程领域下游任务,并比较和分析预训练模型技术这些任务上的性能.然后详细介绍常用的训练和微调PTM的软件工程领域数据集.最后,讨论软件工程领域使用PTM面临的挑战和机遇.同时将整理的软件工程领域PTM和常用数据集发布在https://github.com/OpenSELab/PTM4SE. 展开更多
关键词 软件仓库挖掘 训练模型 程序语言模型
在线阅读 下载PDF
基于视觉-语言预训练模型的零样本迁移学习方法综述 被引量:1
17
作者 孙仁科 许靖昊 +2 位作者 皇甫志宇 李仲年 许新征 《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模... 近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。 展开更多
关键词 零样本学习 视觉-语言训练模型 零样本迁移 多模态 计算机视觉
在线阅读 下载PDF
基于联邦学习的BERT模型高效训练框架
18
作者 王鑫澳 陈珂 +2 位作者 寿黎但 骆歆远 陈刚 《软件学报》 北大核心 2025年第9期4110-4133,共24页
高质量的训练数据对于预训练语言模型(PLM)至关重要,但许多专业领域的数据因隐私问题而无法集中收集用于模型训练.借助联邦学习,可以在保护数据隐私的前提下完成模型训练.然而,联邦学习的客户端通常资源有限,无法完成预训练语言模型的训... 高质量的训练数据对于预训练语言模型(PLM)至关重要,但许多专业领域的数据因隐私问题而无法集中收集用于模型训练.借助联邦学习,可以在保护数据隐私的前提下完成模型训练.然而,联邦学习的客户端通常资源有限,无法完成预训练语言模型的训练.针对这一问题进行深入研究.首先,明确定义在资源有限前提下完成模型训练的问题,通过调整计算开销与通信开销来优化模型的训练效果.其次,介绍一种适用于联邦学习环境下的BERT模型高效训练框架——FedBT.该框架旨在实现BERT模型在联邦学习客户端上的训练,涵盖进一步预训练和下游任务微调两种场景.FedBT适应不同的应用场景,在客户端针对BERT模型的关键参数进行训练,并仅将更新的参数上传至服务器进行聚合.这种方法显著减少模型训练过程中的计算和通信成本.最后,在多个专业领域的数据集上进行充分的实验对比,进一步预训练场景下,FedBT框架可以降低客户端的训练开销与通信开销至原来的34.31%和7.04%,下游任务微调场景下,FedBT框架可以降低客户端的训练开销与通信开销至原来的48.26%和20.19%,并且均实现同传统联邦学习训练完整模型接近的精确度. 展开更多
关键词 联邦学习 训练语言模型 进一步训练 下游任务微调
在线阅读 下载PDF
基于BERT和Bi-LSTM的题目难度预测:知识点标签增强模型
19
作者 叶航 柴春来 +2 位作者 张思赟 陈东烁 吴霁航 《计算机应用》 北大核心 2025年第S1期37-42,共6页
目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bi... 目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bidirectional Encoder Representations from Transformers)和双向长短时记忆(Bi-LSTM)模型的C语言题目难度预测模型FTKB-BiLSTM(Fusion of Title and Knowledge based on BERT and Bi-LSTM)。首先,利用BERT的中文预训练模型获得题目文本和知识点的词向量;其次,融合模块将融合后的信息通过BERT处理得到文本的信息表示,并输入Bi-LSTM模型中学习其中的序列信息,提取更丰富的特征;最后,把经Bi-LSTM模型得到的特征表示通过全连接层并经过Softmax函数处理得到题目难度分类结果。在Leetcode中文数据集和ZjgsuOJ平台数据集上的实验结果表明,相较于XLNet等主流的深度学习模型,所提模型的准确率更优,具有较强的分类能力。 展开更多
关键词 自然语言处理 深度学习 题目难度 bert 训练模型
在线阅读 下载PDF
大语言模型指导的多模态时序-语义预测框架
20
作者 叶诗敏 刘非菲 张岩 《数据采集与处理》 北大核心 2025年第5期1193-1206,共14页
多模态预测任务通常需要同时对文本、图像与结构化数值等异构数据进行建模,以在复杂环境中实现稳健的时序建模、跨模态语义对齐与可解释推理。传统单模态或弱融合方法难以在语义对齐、信息互补与跨源推理方面取得一致性,且深度模型的黑... 多模态预测任务通常需要同时对文本、图像与结构化数值等异构数据进行建模,以在复杂环境中实现稳健的时序建模、跨模态语义对齐与可解释推理。传统单模态或弱融合方法难以在语义对齐、信息互补与跨源推理方面取得一致性,且深度模型的黑箱特性限制了结果的可解释性。与此同时,大语言模型(Large language model,LLM)在语义理解、指令跟随与推理方面展现出强大能力,但其与时序建模、跨模态对齐及实时知识整合之间仍存在鸿沟。因此,提出LLM指导的多模态时序-语义预测框架,通过将变分推理的时序建模与LLM的语义分析相结合,构建“时序-语义-决策”的协同机制:时序模块利用递归潜变量与注意力机制提取历史行为模式;语义模块利用领域化语言模型与多模态编码器提炼高层语义与解释;两者在可学习融合器中联合优化,并提供不确定性标注与可解释报告。在StockNet、CMIN-US和CMIN-CN数据集上的实验表明,本文方法准确率达63.54%,较最优基线提升5.31个百分点,马修斯相关系数(Matthews correlation coefficient,MCC)提升至0.223。本文研究为多模态时序预测提供了统一范式,并在金融科技领域展现出应用潜力。 展开更多
关键词 多模态 语言模型 人工智能 训练模型 时间序列
在线阅读 下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部