期刊文献+
共找到615篇文章
< 1 2 31 >
每页显示 20 50 100
可重构OCS技术在大模型预训练中的应用(特邀) 被引量:1
1
作者 朱宸 周谞 王佩龙 《光通信研究》 北大核心 2024年第5期25-34,共10页
【目的】相比于电子分组交换机(EPS),全光电路交换(OCS)在时延、功耗、成本和稳定性等各个方面都体现出了优势,文章通过分析大模型预训练中的并行切分策略、集合通信需求、流量模式和现今的网络架构,讨论了基于OCS在训练组网中的可行的... 【目的】相比于电子分组交换机(EPS),全光电路交换(OCS)在时延、功耗、成本和稳定性等各个方面都体现出了优势,文章通过分析大模型预训练中的并行切分策略、集合通信需求、流量模式和现今的网络架构,讨论了基于OCS在训练组网中的可行的应用方式,以在训练任务中充分利用OCS的优势。【方法】文章提出在故障快速恢复中采用多个小端口OCS进行网络设备冗余保护的机制,可在机顶(ToR)交换机故障时快速切换不中断训练任务。此外,文章还提出OCS只为数据并行(DP)服务,且仅在任务开始前进行配置。【结果】文章提出了多种可行的光电组网架构,以及在不同AllReduce算法下的具体配置,采用包括集合通信算法和架构设计联合优化的方式达到更优的带宽利用率。【结论】只要充分结合训练任务的流量模型,OCS可以很好地融入现有EPS网络架构,从成本、低功耗、低时延以及高稳定性等各方面对大模型预训练进行优化。 展开更多
关键词 全光电路交换 可重构 光电混合网络架构 模型预训练 集合通信 并行训练
在线阅读 下载PDF
KAACNN:融合知识图谱和预训练模型的短文本多标签分类方法
2
作者 陶冶 徐锴 +2 位作者 刘天宇 鲁超峰 王浩杰 《中文信息学报》 北大核心 2025年第3期96-106,共11页
短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训... 短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训练语言模型提高短文本的文本表示能力;另一方面从外部知识库中检索短文本概念知识,并利用注意力机制将其与短文本结合用于分类任务。此外,针对数据集类别分布不均衡的问题,该文提出基于领域类别知识图谱的数据增强方法。在三个公共数据集和一个汽车领域客户原话数据集上进行了实验,结果表明,引入知识图谱和预训练语言模型的分类方法优于目前先进的短文本分类方法,证明了外部知识库和预训练语言模型的先验知识在短文本分类中的有效性。 展开更多
关键词 知识图谱 注意力机制 训练语言模型 数据增强 短文本分类
在线阅读 下载PDF
基于预训练语言模型的知识图谱研究综述 被引量:5
3
作者 曾泽凡 胡星辰 +2 位作者 成清 司悦航 刘忠 《计算机科学》 北大核心 2025年第1期1-33,共33页
大语言模型时代,知识图谱作为一种结构化的知识表示方式,在提升人工智能的可靠性、安全性和可解释性方面发挥着不可替代的作用,具有重要的研究价值和实际应用前景。近年来,凭借在语义理解和上下文学习方面的优越性能,预训练语言模型已... 大语言模型时代,知识图谱作为一种结构化的知识表示方式,在提升人工智能的可靠性、安全性和可解释性方面发挥着不可替代的作用,具有重要的研究价值和实际应用前景。近年来,凭借在语义理解和上下文学习方面的优越性能,预训练语言模型已经成为了知识图谱研究的主要手段。系统梳理了基于预训练语言模型的知识图谱研究的相关工作,包括知识图谱构建、表示学习、推理、问答等,介绍了相关模型和方法的核心思路,并依据技术路径建立了分类体系,对不同类型方法的优缺点进行了对比分析。此外,对预训练语言模型在事件知识图谱和多模态知识图谱这两种新型知识图谱中的应用现状进行了综述。最后,总结了当前基于预训练语言模型的知识图谱研究面临的挑战,展望了未来的研究方向。 展开更多
关键词 知识图谱 训练语言模型 大语言模型 多模态 事件知识图谱
在线阅读 下载PDF
预训练模型在软件工程领域应用研究进展 被引量:2
4
作者 宫丽娜 周易人 +3 位作者 乔羽 姜淑娟 魏明强 黄志球 《软件学报》 北大核心 2025年第1期1-26,共26页
近年来深度学习在软件工程领域任务中取得了优异的性能.众所周知,实际任务中优异性能依赖于大规模训练集,而收集和标记大规模训练集需要耗费大量资源和成本,这限制了深度学习技术在实际任务中的广泛应用.随着深度学习领域预训练模型(pre... 近年来深度学习在软件工程领域任务中取得了优异的性能.众所周知,实际任务中优异性能依赖于大规模训练集,而收集和标记大规模训练集需要耗费大量资源和成本,这限制了深度学习技术在实际任务中的广泛应用.随着深度学习领域预训练模型(pre-trained model,PTM)的发布,将预训练模型引入到软件工程(software engineering,SE)任务中得到了国内外软件工程领域研究人员的广泛关注,并得到了质的飞跃,使得智能化软件工程进入了一个新时代.然而,目前没有研究提炼预训练模型在软件工程领域的成功和机遇.为阐明这一交叉领域的工作(pre-trained models for software engineering,PTM4SE),系统梳理当前基于预训练模型的智能软件工程相关工作,首先给出基于预训练模型的智能软件工程方法框架,其次分析讨论软件工程领域常用的预训练模型技术,详细介绍使用预训练模型的软件工程领域下游任务,并比较和分析预训练模型技术这些任务上的性能.然后详细介绍常用的训练和微调PTM的软件工程领域数据集.最后,讨论软件工程领域使用PTM面临的挑战和机遇.同时将整理的软件工程领域PTM和常用数据集发布在https://github.com/OpenSELab/PTM4SE. 展开更多
关键词 软件仓库挖掘 训练模型 程序语言模型
在线阅读 下载PDF
基于预训练模型的用户评分预测
5
作者 强敏杰 王中卿 周国栋 《软件学报》 北大核心 2025年第2期608-624,共17页
随着商家评论网站的快速发展,推荐系统所带来的效率提升使得评分预测成为近年来新兴研究任务之一.现有的评分预测方法通常局限于协同过滤算法以及各类神经网络模型,并没有充分利用目前预训练模型提前学习的丰富的语义知识.针对此问题,... 随着商家评论网站的快速发展,推荐系统所带来的效率提升使得评分预测成为近年来新兴研究任务之一.现有的评分预测方法通常局限于协同过滤算法以及各类神经网络模型,并没有充分利用目前预训练模型提前学习的丰富的语义知识.针对此问题,提出一种基于预训练语言模型的个性化评分预测方法,其通过分析用户和商家的历史评论,为用户在消费前提供评分预测作为参考.该方法首先设计一项预训练任务,让模型学习捕捉文本中的关键信息.其次,通过细粒度情感分析方法对评论文本进行处理,从而获取评论文本中的属性词.接下来,设计一个属性词嵌入层将上述外部领域知识融入模型中.最后,采用基于注意力机制的信息融合策略,将输入文本的全局和局部语义信息进行融合.实验结果表明,该方法相较于基准模型,在两个自动评价指标上均取得显著的提升. 展开更多
关键词 推荐系统 评分 训练模型 注意力机制
在线阅读 下载PDF
融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法 被引量:1
6
作者 鲁超峰 陶冶 +4 位作者 文连庆 孟菲 秦修功 杜永杰 田云龙 《计算机应用》 北大核心 2025年第3期815-822,共8页
针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先... 针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先,使用大语言模型生成带有所需情感标签的文本;其次,使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人;然后,将生成的文本合成情感语音,以达到数据增强的目的;再次,使用合成语音与源目标语音共同训练说话人-情感语音转换模型;最后,为了进一步提升转换语音的说话人相似度和情感相似度,使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明,综合考虑评价指标情感相似度平均得分(EMOS)、说话人相似度平均意见得分(SMOS)、梅尔倒谱失真(MCD)和词错误率(WER)时,所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。 展开更多
关键词 少量语料 说话人-情感语音转换 大语言模型 训练情感语音合成模型 微调
在线阅读 下载PDF
基于预训练扩散模型的两阶段高分辨率图像复原方法
7
作者 谢源远 周非 +1 位作者 周志远 张宇曈 《计算机应用研究》 北大核心 2025年第8期2545-2551,共7页
预训练扩散先验图像复原依赖预训练的扩散模型,无须微调即可处理各种经典图像复原任务。然而,目前的预训练扩散先验图像复原方法在处理高分辨率图像时效率低下,并且存在分布外问题(out of distribution,OOD)。针对以上问题,提出了一种... 预训练扩散先验图像复原依赖预训练的扩散模型,无须微调即可处理各种经典图像复原任务。然而,目前的预训练扩散先验图像复原方法在处理高分辨率图像时效率低下,并且存在分布外问题(out of distribution,OOD)。针对以上问题,提出了一种基于预训练扩散模型的两阶段高分辨率图像复原方法,命名为由粗到细(coarse-to-fine,C2F)的方法。首先在预训练模型固定尺寸的coarse阶段得到粗糙的复原结果以保证输出一致性。然后在原尺寸的fine阶段上以coarse阶段结果为起点,使用更短的扩散过程来大幅度提升复原速度与获取一致性结果。在人脸与自然环境等多种场景下,以修复、上色、去模糊三种经典复原任务为目标,两阶段方法在任何尺寸下皆可获得最高水平的输出结果。对于1024尺寸的图像复原,采样次数需求仅需要同类方法的22%,速度达到了同类方法的4.5倍,避免了OOD问题,并且在PSNR与FID指标上达到最高水平。实验表明,所提方法对高分辨率图像的复原速度远高于其他方法,并且避免了OOD问题,具有良好的复原效果。 展开更多
关键词 图像复原 扩散模型 训练模型
在线阅读 下载PDF
结合预训练模型和数据增强的跨领域属性级情感分析研究
8
作者 陈舸 王中卿 《计算机科学》 北大核心 2025年第8期300-307,共8页
属性级情感分析(ABSA)是一项细粒度情感分析任务,旨在识别文本中的具体属性并探测其情感倾向。针对ABSA模型因无法适应不同领域的语言风格而导致性能不佳以及目标领域缺乏标注数据的问题,提出了一种结合预训练模型的跨领域属性级情感分... 属性级情感分析(ABSA)是一项细粒度情感分析任务,旨在识别文本中的具体属性并探测其情感倾向。针对ABSA模型因无法适应不同领域的语言风格而导致性能不佳以及目标领域缺乏标注数据的问题,提出了一种结合预训练模型的跨领域属性级情感分析方法。该方法利用预训练模型对目标领域文本进行标签生成,再利用大语言模型重新生成更具目标领域风格的自然语句,最后将生成的样本和源领域样本组合训练,以对目标领域进行预测。在SemEval语料库的restaurant和laptop数据集以及一个公开的网络服务评论数据集上进行实验,结果表明,与现有跨领域情感分析方法相比,所提方法在F1值上至少提升了5.33%,充分证明了该方法的有效性。 展开更多
关键词 跨领域情感分析 训练模型 T5 GPT
在线阅读 下载PDF
联合预训练模型和层级注意力的知识超图链接预测
9
作者 庞俊 梅杰 +1 位作者 林晓丽 王蒙湘 《计算机工程与应用》 北大核心 2025年第10期133-144,共12页
知识超图(knowledge hypergraph,KHG)是超图结构的知识图谱。现有知识超图链接预测模型主要存在以下不足:模型输入时将实体和关系简单地表示为嵌入层的ID(索引),而没有考虑实体和关系之间复杂的联系和语义;编码时只考虑位置和角色信息,... 知识超图(knowledge hypergraph,KHG)是超图结构的知识图谱。现有知识超图链接预测模型主要存在以下不足:模型输入时将实体和关系简单地表示为嵌入层的ID(索引),而没有考虑实体和关系之间复杂的联系和语义;编码时只考虑位置和角色信息,而忽略了实体邻域结构和多元关系间的联系,导致实体和关系表示能力不足;模型训练时采样的负样本质量不够高,不能帮助模型高效学习样本特征。针对以上问题,提出一种联合预训练模型和层级注意力的知识超图链接预测模型(link prediction in knowledge hypergraph combining pretrained model and hierarchical attention,LPPH)。该模型引入预训练模型和简化的团式展开方法初始化超图嵌入,将实体和关系之间复杂联系和语义融入至实体和关系嵌入中;编码时使用层级注意力机制聚合实体邻域结构信息以增强实体表示,并使用实体-关系融合操作增强关系表示;提出一种基于过滤机制和主动学习的负样本选择策略,实现模型的高效训练。真实数据集上的大量实验结果验证了LPPH能有效提高知识超图链接预测的效果。 展开更多
关键词 知识超图 链接 训练模型 层级注意力
在线阅读 下载PDF
基于自注意力归因和剪枝的预训练语言模型去偏方法
10
作者 叶啟文 周栋 +1 位作者 王蒙蒙 曹步清 《中文信息学报》 北大核心 2025年第6期9-21,共13页
预训练语言模型编码了一系列社会偏见,应用在下游任务中可能会延续甚至放大对弱势群体的不公平对待。现有与任务无关的方法去偏效果迁移至下游任务中表现不佳,而与任务相关的方法主要依赖于下游微调数据标注的受保护属性标签。该文提出... 预训练语言模型编码了一系列社会偏见,应用在下游任务中可能会延续甚至放大对弱势群体的不公平对待。现有与任务无关的方法去偏效果迁移至下游任务中表现不佳,而与任务相关的方法主要依赖于下游微调数据标注的受保护属性标签。该文提出了基于自注意力归因和剪枝的预训练语言模型去偏方法,这是一种与任务相关但不需要依赖受保护属性标签的方法,适用于通用下游任务且具有可解释性。该方法将模型的决策归因于输入数据和自注意力头之间的信息交互,进而识别自注意力头对模型决策的重要性。通过权衡预测准确率和公平性,有选择地对偏见影响较大的头进行剪枝,从而实现模型去偏。该文在多个数据集上进行实验,实验结果表明,该方法可以有效缓解偏见且不损耗模型预测性能。 展开更多
关键词 训练语言模型 公平性 去偏 自注意力归因
在线阅读 下载PDF
基于视觉-语言预训练模型的开集交通目标检测算法
11
作者 黄琦强 安国成 熊刚 《计算机工程》 北大核心 2025年第6期375-384,共10页
交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其... 交通目标检测是智慧交通系统的重要组成部分,但现有的交通目标检测算法只能实现对于预设目标的检测,无法应对开集目标场景。为此,提出一种基于视觉-语言预训练(VLP)模型的开集交通目标检测算法。首先,基于Faster R-CNN修改预测网络使其能够适应开集目标的定位问题,并将损失函数改进为交并比(IoU)损失,有效提升定位精度;其次,构建一种新的基于VLP的标签匹配网络(VLP-LMN),对预测框进行标签匹配,VLP模型作为一个强大的知识库,可有效匹配区域图像和标签文本,同时,VLP-LMN的提示工程和微调网络模块可以更好地发掘出VLP模型的性能,有效提高VLP模型标签匹配的准确性。实验结果表明,该算法在PASCAL VOC07+12数据集上实现了60.3%的新类目标检测平均准确率,这证明了其具有良好的开集目标检测性能;同时在交通数据集上的新类目标检测平均准确率达到了58.9%,作为零样本检测,仅比基类目标低14.5%,证明了该算法在交通目标检测上具有良好的泛化能力。 展开更多
关键词 视觉-语言训练模型 Faster R-CNN 开集目标检测 交通目标检测
在线阅读 下载PDF
面向煤矿安全隐患文本的预训练语言模型构建
12
作者 李泽荃 刘飞翔 +2 位作者 赵嘉良 祁慧 李靖 《矿业安全与环保》 北大核心 2025年第3期185-192,共8页
煤矿各类安全管理信息化平台积累的大量非结构化文本数据目前并没有得到充分利用。为充分挖掘煤矿安全隐患文本知识,提出一种基于领域术语掩码语言建模(DP-MLM)和句子顺序预测建模(SOP)学习机制的煤矿安全领域预训练语言模型(CoalBERT)... 煤矿各类安全管理信息化平台积累的大量非结构化文本数据目前并没有得到充分利用。为充分挖掘煤矿安全隐患文本知识,提出一种基于领域术语掩码语言建模(DP-MLM)和句子顺序预测建模(SOP)学习机制的煤矿安全领域预训练语言模型(CoalBERT)。利用收集到的110万余条煤矿隐患排查记录数据和自构建的1 328个领域术语词典进行模型训练,并在煤矿安全隐患文本分类和命名实体识别2个任务上分别进行对比实验。研究结果表明:在文本分类实验中,CoalBERT模型总体结果的精准率、召回率和综合评价指标F_(1)值较双向编码器表征法预训练模型(BERT)分别提高0.34%、0.21%、0.27%;在命名实体识别实验中,CoalBERT模型的精准率和F_(1)值较BERT模型分别提高3.84%、2.13%。CoalBERT模型能够有效提升煤矿安全隐患文本语义理解能力,可为煤矿安全领域文本挖掘相关任务场景提供基础参考。 展开更多
关键词 BERT模型 煤矿安全隐患文本 文本分类 命名实体识别 训练模型 任务微调
在线阅读 下载PDF
基于字节编码与预训练任务的加密流量分类模型
13
作者 姚利峰 蔡满春 +2 位作者 朱懿 陈咏豪 张溢文 《计算机工程》 北大核心 2025年第2期188-201,共14页
当预训练模型BERT应用于加密流量分类领域时,缺乏针对加密流量特性设计的编码方法和相应预训练任务。为此,提出一种融合字节级编码与改进预训练任务的加密流量分类预训练模型。首先,设计了一种新型词汇表构建方法,增强模型对流量传输结... 当预训练模型BERT应用于加密流量分类领域时,缺乏针对加密流量特性设计的编码方法和相应预训练任务。为此,提出一种融合字节级编码与改进预训练任务的加密流量分类预训练模型。首先,设计了一种新型词汇表构建方法,增强模型对流量传输结构的表征能力;其次,提出动态掩码BURST预测和同源BURST连贯性预测2个新的自监督预训练任务,动态掩码BURST预测任务增强模型对加密流量语义多样性的获取能力,同源BURST连贯性预测任务提高模型对加密流量连贯性顺序的建模能力。实验结果表明,所提模型在CSTNET-TLS 1.3数据集上的准确率、精确率、召回率和F1值分别为98.52%、98.40%、98.35%、98.43%,与现有性能最好的预训练基准模型相比,分别提高了1.15、0.98、0.93、1.02百分点。此外,在5个下游加密流量分类任务的7个主流数据集上,所提模型能够有效分类加密流量。 展开更多
关键词 加密流量分类 训练模型 字节级编码 自监督训练任务 微调方法
在线阅读 下载PDF
基于预训练模型标记器重构的藏文分词系统
14
作者 杨杰 尼玛扎西 +2 位作者 仁青东主 祁晋东 才让东知 《计算机应用》 北大核心 2025年第4期1199-1204,共6页
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,... 针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERTBiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。 展开更多
关键词 藏语信息处理 藏文分词模型 训练模型 自然语言处理 标记器重构
在线阅读 下载PDF
影响预训练语言模型数据泄露的因素研究
15
作者 钱汉伟 彭季天 +4 位作者 袁明 高光亮 刘晓迁 王群 朱景羽 《信息安全研究》 北大核心 2025年第2期181-188,共8页
当前广泛使用的预训练语言模型是从海量训练语料中学习通用的语言表示.自然语言处理领域的下游任务在使用预训练语言模型后性能得到显著提升,但是深度神经网络过拟合现象使得预训练语言模型可能存在泄露训练语料隐私的风险.选用T5,GPT-2... 当前广泛使用的预训练语言模型是从海量训练语料中学习通用的语言表示.自然语言处理领域的下游任务在使用预训练语言模型后性能得到显著提升,但是深度神经网络过拟合现象使得预训练语言模型可能存在泄露训练语料隐私的风险.选用T5,GPT-2,OPT等广泛使用的预训练语言模型作为研究对象,利用模型反演攻击探索影响预训练语言模型数据泄露的因素.实验过程中利用预训练语言模型生成大量样本,以困惑度等指标选取最有可能发生数据泄露风险的样本进行验证,证明了T5等不同模型均存在不同程度的数据泄露问题;同一种模型,模型规模越大数据泄露可能性越大;添加特定前缀更容易获取泄露数据等问题.对未来数据泄露问题及其防御方法进行了展望. 展开更多
关键词 自然语言处理 训练语言模型 隐私数据泄露 模型反演攻击 模型架构
在线阅读 下载PDF
基于预训练语言模型的IPC与高相似CLC类目自动映射
16
作者 黄敏 魏嘉琴 李茂西 《中文信息学报》 北大核心 2025年第2期153-161,共9页
专利和图书期刊是产业界与学术界的科技创新信息来源,专利通常采用国际专利分类法(International Patent Classification,IPC)标识,而中文图书期刊则采用中国图书馆分类法(Chinese Library Classification,CLC),不同的分类标识体系给专... 专利和图书期刊是产业界与学术界的科技创新信息来源,专利通常采用国际专利分类法(International Patent Classification,IPC)标识,而中文图书期刊则采用中国图书馆分类法(Chinese Library Classification,CLC),不同的分类标识体系给专利、图书期刊信息整合共享和跨库检索浏览带来了挑战。针对IPC类目和高相似的CLC类目难以准确映射的问题,对于计算资源受限的场景,该文提出结合预训练语言模型BERT和文本蕴含模型ESIM的IPC与CLC类目自动映射方法;对于计算资源充足的场景,该文提出了基于大语言模型ChatGLM2-6B的IPC与CLC类目自动映射方法。在公开的IPC与CLC类目映射数据集和在其基础上构建的IPC类目与高相似的CLC类目映射数据集上的实验结果表明,该文所提出的两种方法均统计显著地优于对比的基线方法,包括当前最先进的Sia-BERT等基于深度神经网络的科技文献类目自动映射方法。消融实验和详细的映射实例分析进一步揭示了该文所提方法的有效性。 展开更多
关键词 国际专利分类法 中国图书馆分类法 训练语言模型 大语言模型 类目映射
在线阅读 下载PDF
基于变分注意力知识选择和预训练语言模型的对话生成
17
作者 张乃洲 曹薇 +1 位作者 张啸剑 李石君 《计算机研究与发展》 北大核心 2025年第8期1902-1917,共16页
基于知识的神经对话研究常常面临外部知识包含冗余甚至与对话主题不相关信息的问题,从而导致对话系统性能下降.知识选择成为解决该问题的重要途径,但现有研究对诸如知识选择器的设计、选择出的知识的利用以及知识选择对话方法适用的场... 基于知识的神经对话研究常常面临外部知识包含冗余甚至与对话主题不相关信息的问题,从而导致对话系统性能下降.知识选择成为解决该问题的重要途径,但现有研究对诸如知识选择器的设计、选择出的知识的利用以及知识选择对话方法适用的场景等问题,还缺乏深入研究.针对这些问题,提出了一个新的基于变分注意力知识选择和预训练模型的神经对话方法,使用一个基于条件变分自编码(conditional variational autoencoder,CVAE)和多层注意力机制的知识选择算法,自动选择出与当前对话最相关文本知识集合.该算法有效利用了训练数据中的对话回复来提高知识选择的效率.使用预训练语言模型Bart作为编码器-解码器架构,将选择的文本知识合并到Bart模型中,并在训练过程中对其进行微调.实验结果表明,与现有的一些代表性研究方法相比,提出的模型能生成多样性和连贯性更好、准确率更高的对话回复. 展开更多
关键词 基于知识的对话 知识选择 训练语言模型 条件变分自编码 注意力机制 记忆网络
在线阅读 下载PDF
基于预训练大语言模型的实体关系抽取框架及其应用 被引量:1
18
作者 魏伟 金成功 +3 位作者 杨龙 周默 孟祥主 冯慧 《应用科学学报》 北大核心 2025年第1期20-34,共15页
实体关系抽取是构建大规模知识图谱和专业领域数据集的重要基础之一,为此提出了一种基于预训练大语言模型的实体关系抽取框架(entity relation extraction framework based on pre-trained large language model, PLLM-RE),并针对循环... 实体关系抽取是构建大规模知识图谱和专业领域数据集的重要基础之一,为此提出了一种基于预训练大语言模型的实体关系抽取框架(entity relation extraction framework based on pre-trained large language model, PLLM-RE),并针对循环经济政策进行了实体关系抽取研究。基于所提出的PLLM-RE框架,首先使用RoBERTa模型进行循环经济政策文本的实体识别,然后选取基于Transformer的双向编码器表示(bidirectional encoder representation from Transformers, BERT)模型进行循环经济政策实体关系抽取研究,以构建该政策领域的知识图谱。研究结果表明,PLLM-RE框架在循环经济政策实体关系抽取任务上的性能优于对比模型BiLSTM-ATT、PCNN、BERT以及ALBERT,验证了所提框架在循环经济政策实体关系抽取任务上的适配性和优越性,为后续循环经济领域资源的信息挖掘和政策分析提供了新思路。 展开更多
关键词 训练大语言模型 实体关系抽取框架 循环经济政策 政策分析
在线阅读 下载PDF
预训练语言模型引入数字政府建设的风险应对——基于行政关系的视角
19
作者 曹冬英 《中南大学学报(社会科学版)》 北大核心 2025年第4期143-152,共10页
从行政主客体关系的角度来看,将预训练语言模型引入数字政府建设能够推动行政主体与相对人之间的沟通升级、促进行政行为内外流程的多维完善、提高行政决策的理性水平。在正视预训练语言模型带来的正面效能的同时,需要清醒地认识到它可... 从行政主客体关系的角度来看,将预训练语言模型引入数字政府建设能够推动行政主体与相对人之间的沟通升级、促进行政行为内外流程的多维完善、提高行政决策的理性水平。在正视预训练语言模型带来的正面效能的同时,需要清醒地认识到它可能引发的行政相对人的数据权利被侵扰、行政伦理基本原则面临挑战、行政责任主体模糊不明等风险。为了应对风险,行政主体应当以权利保障为核心落实相关法律法规、以价值理性为取向构建伦理保障机制、以权责清晰为基点优化责任结构关系。 展开更多
关键词 训练语言模型 数字政府 行政关系 ChatGPT 数字治理
在线阅读 下载PDF
玲珑:一个小规模的高质量中文预训练语言模型
20
作者 李东闻 钟震宇 +4 位作者 孙羽菲 申峻宇 马子智 于川越 张玉志 《计算机研究与发展》 北大核心 2025年第3期682-693,共12页
近年来,大规模的、基于自回归的中文预训练语言模型在各种自然语言处理任务上表现出优异性能.然而,高昂的计算成本以及基于中文词切分数据给中文预训练语言模型实际应用带来了巨大挑战.此外,大多基于自回归的模型只能使用单向前文信息,... 近年来,大规模的、基于自回归的中文预训练语言模型在各种自然语言处理任务上表现出优异性能.然而,高昂的计算成本以及基于中文词切分数据给中文预训练语言模型实际应用带来了巨大挑战.此外,大多基于自回归的模型只能使用单向前文信息,可能会导致模型在上下文敏感任务上的性能有所下降.为了解决以上问题,提出并训练了一个高质量的小型中文预训练语言模型——玲珑.该模型仅有3.17亿个参数,较小的规模使得玲珑十分容易部署和应用.使用基于汉字的策略对训练语料进行切分,可以有效减轻未知标记和分词错误带来的负面影响,增强了玲珑在下游任务上的性能.此外,通过对每条训练数据的输入顺序进行逆序处理,训练了一个反向玲珑模型.将玲珑与其反向版本相结合,可以实现在下游任务中使用双向信息.多种自然语言处理下游任务的实验结果表明,玲珑具有不错的处理下游任务的能力.在6个数据集上玲珑超越了相近规模模型的性能,在5个数据集上超越了大模型的性能. 展开更多
关键词 中文训练语言模型 小规模 基于汉字的模型 反向模型 双向信息
在线阅读 下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部