期刊文献+
共找到475篇文章
< 1 2 24 >
每页显示 20 50 100
Event-driven process execution model for process virtual machine 被引量:3
1
作者 WU Dong-yao WEI Jun GAO Chu-shu DOU Wen-shen 《计算机集成制造系统》 EI CSCD 北大核心 2012年第8期1675-1685,共11页
Current orchestration and choreography process engines only serve with dedicate process languages.To solve these problems,an Event-driven Process Execution Model(EPEM) was developed.Formalization and mapping principle... Current orchestration and choreography process engines only serve with dedicate process languages.To solve these problems,an Event-driven Process Execution Model(EPEM) was developed.Formalization and mapping principles of the model were presented to guarantee the correctness and efficiency for process transformation.As a case study,the EPEM descriptions of Web Services Business Process Execution Language(WS-BPEL) were represented and a Process Virtual Machine(PVM)-OncePVM was implemented in compliance with the EPEM. 展开更多
关键词 business process modeling event-driven architecture process virtual machine service orchestration process execution language
在线阅读 下载PDF
大语言模型综述与展望 被引量:9
2
作者 秦小林 古徐 +1 位作者 李弟诚 徐海文 《计算机应用》 北大核心 2025年第3期685-696,共12页
大语言模型(LLM)是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练,是当前生成式人工智能(AI)技术的核心。与传统语言模型相比,LLM通过大量的算力、参... 大语言模型(LLM)是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练,是当前生成式人工智能(AI)技术的核心。与传统语言模型相比,LLM通过大量的算力、参数和数据支持,展现出更强的语言理解与生成能力,广泛应用于机器翻译、问答系统、对话生成等众多任务中并表现卓越。现有的综述大多侧重于LLM的理论架构与训练方法,对LLM的产业级应用实践及技术生态演进的系统性探讨仍显不足。因此,在介绍LLM的基础架构、训练技术及发展历程的基础上,分析当前通用的LLM关键技术和以LLM为底座的先进融合技术。通过归纳总结现有研究,进一步阐述LLM在实际应用中面临的挑战,包括数据偏差、模型幻觉和计算资源消耗等问题,并对LLM的持续发展趋势进行展望。 展开更多
关键词 大语言模型 智能体 自然语言处理 检索增强生成 模型幻觉
在线阅读 下载PDF
自然语言处理的深度学习模型综述 被引量:2
3
作者 何雪锋 周洁 +1 位作者 陈德光 廖海 《计算机应用与软件》 北大核心 2025年第2期1-19,101,共20页
模型作为自然语言处理的关键,直接关系到最终性能。该文介绍自然语言处理中涉及到的模型。按照规则与统计的方法从发布时间、特点、优缺点与适用范围等方面对传统自然语言处理模型进行介绍;重点将神经网络依据不同的技术划分为不同的类... 模型作为自然语言处理的关键,直接关系到最终性能。该文介绍自然语言处理中涉及到的模型。按照规则与统计的方法从发布时间、特点、优缺点与适用范围等方面对传统自然语言处理模型进行介绍;重点将神经网络依据不同的技术划分为不同的类型,对每种类型进行介绍并总结其相应特性;对以BERT为基础的两大类改进模型进行具体介绍并对每种模型进行归纳;分析目前自然语言处理模型面临的挑战与对应的解决办法;对未来工作进行展望。 展开更多
关键词 自然语言处理 语言模型 人工智能
在线阅读 下载PDF
医疗领域的大型语言模型综述
4
作者 肖建力 许东舟 +4 位作者 王浩 刘敏 周雷 朱林 顾松 《智能系统学报》 北大核心 2025年第3期530-547,共18页
深度学习是人工智能领域的热门研究方向之一,它通过构建多层人工神经网络模仿人脑对数据的处理机制。大型语言模型(large language model,LLM)基于深度学习的架构,在无需编程指令的情况下,能通过分析大量数据以获得理解和生成人类语言... 深度学习是人工智能领域的热门研究方向之一,它通过构建多层人工神经网络模仿人脑对数据的处理机制。大型语言模型(large language model,LLM)基于深度学习的架构,在无需编程指令的情况下,能通过分析大量数据以获得理解和生成人类语言的能力,被广泛应用于自然语言处理、计算机视觉、智慧医疗、智慧交通等诸多领域。文章总结了LLM在医疗领域的应用,涵盖了LLM针对医疗任务的基本训练流程、特殊策略以及在具体医疗场景中的应用。同时,进一步讨论了LLM在应用中面临的挑战,包括决策过程缺乏透明度、输出准确性以及隐私、伦理问题等,随后列举了相应的改进策略。最后,文章展望了LLM在医疗领域的未来发展趋势,及其对人类健康事业发展的潜在影响。 展开更多
关键词 人工智能 深度学习 TRANSFORMER 大型语言模型 智慧医疗 数据分析 图像处理 计算机视觉
在线阅读 下载PDF
面向古籍文献智能处理的大语言模型效能测评
5
作者 文玉锋 林伟杰 +1 位作者 夏翠娟 周文杰 《图书馆论坛》 北大核心 2025年第8期52-60,共9页
古籍文献是中华优秀传统文化的重要载体,对其内容结构进行有效揭示具有重要意义。大语言模型为古籍文献的“活化”提供了技术潜力,但其能力需通过科学严谨的测评加以验证。文章选取豆包、DeepSeek等14种大语言模型,以2022-2024年高考语... 古籍文献是中华优秀传统文化的重要载体,对其内容结构进行有效揭示具有重要意义。大语言模型为古籍文献的“活化”提供了技术潜力,但其能力需通过科学严谨的测评加以验证。文章选取豆包、DeepSeek等14种大语言模型,以2022-2024年高考语文试卷文言文题目为语料,对古籍文献基础智能处理能力进行测评。由于知识图谱构建受基础能力的影响,基于测评结果,选择排名靠前的豆包和DeepSeek,以《史记·朝鲜列传》为语料,对两个大模型在知识图谱构建的信度、效度方面进行测评。研究发现,大语言模型具备基本古籍文献内容理解的能力,综合断句、逻辑判断、翻译和总结归纳四个维度,豆包与DeepSeek表现较为突出;豆包和DeepSeek的古籍文献知识图谱构建信效度检验结果显示,豆包大模型表现更优。 展开更多
关键词 古籍文献 大语言模型 智能处理 效能测评
在线阅读 下载PDF
大语言模型参数高效微调技术综述
6
作者 秦董洪 李政韬 +3 位作者 白凤波 董路宽 张慧 徐晨 《计算机工程与应用》 北大核心 2025年第16期38-63,共26页
近年来,自然语言处理领域的训练范式和模型规模发生显著变化,从特定任务的监督学习转向全量微调大规模预训练模型。然而,模型参数的激增导致全量微调计算成本高昂。“参数高效微调”技术应运而生,通过仅微调部分参数或引入少量新参数,... 近年来,自然语言处理领域的训练范式和模型规模发生显著变化,从特定任务的监督学习转向全量微调大规模预训练模型。然而,模型参数的激增导致全量微调计算成本高昂。“参数高效微调”技术应运而生,通过仅微调部分参数或引入少量新参数,显著降低成本并保持性能。对近年来参数高效微调技术中最具代表性和最前沿的方法进行了简要介绍和系统分析,涵盖设计理念与核心算法,并对不同方法的特性、优势、不足以及适用场景进行了归纳和分析,并进一步对比了不同种类中同系列的多种方法,分析了同系列方法在设计理念上的演进趋势,提供了当前研究现状的全面概述。最后对参数高效微调技术进行整体的分析与展望,提出未来该技术可能的优化方向,并结合实践提出该技术在实际工程应用中可行的技术方案。 展开更多
关键词 参数高效微调技术 深度学习 自然语言处理 模型优化
在线阅读 下载PDF
深层语义特征增强的ReLM中文拼写纠错模型
7
作者 张伟 牛家祥 +1 位作者 马继超 沈琼霞 《计算机应用》 北大核心 2025年第8期2484-2490,共7页
ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分... ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分离卷积(DSC)技术融合特征提取模型BGE(BAAI General Embeddings)生成的深层语义特征与ReLM生成的整体特征,从而有效提升模型对复杂上下文的解析力和拼写错误的识别纠正精度。首先,在Wang271K数据集上训练FeReLM,使模型持续学习句子中的深层语义和复杂表达;其次,迁移训练好的权重,从而将模型学习到的知识应用于新的数据集并进行微调。实验结果表明,在ECSpell和MCSC数据集上与ReLM、MCRSpell(Metric learning of Correct Representation for Chinese Spelling Correction)和RSpell(Retrieval-augmented Framework for Domain Adaptive Chinese Spelling Check)等模型相比,FeReLM的精确率、召回率、F1分数等关键指标的提升幅度可达0.6~28.7个百分点。此外,通过消融实验验证了所提方法的有效性。 展开更多
关键词 自然语言处理 特征增强 中文拼写纠错 语义融合 文本纠错 预训练语言模型
在线阅读 下载PDF
基于抽象标签序列与大语言模型的业务过程自动生成
8
作者 朱锐 肖鸿浩 +4 位作者 李文鑫 胡泉舟 宋俊巧 胡胜男 陈晔婷 《计算机集成制造系统》 北大核心 2025年第5期1639-1650,共12页
大语言模型的迅速发展对企业领域的业务过程管理产生了提高效率、降低成本、增强客户体验和促进创新等显著影响。业务过程管理(BPM)中的业务过程自动生成具有模拟业务过程进行业务改进以及将复杂的业务过程可视化等重大意义。所提出的... 大语言模型的迅速发展对企业领域的业务过程管理产生了提高效率、降低成本、增强客户体验和促进创新等显著影响。业务过程管理(BPM)中的业务过程自动生成具有模拟业务过程进行业务改进以及将复杂的业务过程可视化等重大意义。所提出的业务过程自动生成方法能够整合到实际业务场景中,以帮助改善业务过程并提高效率。所提方法分为以下几个部分,首先将业务过程文本经过信号词库转化为抽象标签序列,其次构建提示模板从大语言模型中得到抽象标签的邻接表从而确定抽象标签之间的连接关系得到一张初始图,随后将初始图输入到归纳式图神经网络进行监督学习训练,最后预测出活动间直接时序关系并将其转化为过程图。实验表明,所提方法在预测活动间时序关系的总体F1-分数达到了0.67,在预测顺序、并发和无关系的时序关系上领先基线方法和大语言模型的方法,在选择关系上能够领先基线方法但落后于大语言模型的方法。 展开更多
关键词 大语言模型 业务过程管理 业务过程自动生成 图神经网络
在线阅读 下载PDF
基于大语言模型的中文多义词义项融合技术研究
9
作者 尹宝生 宗辰 《计算机科学》 北大核心 2025年第S1期53-59,共7页
针对中文的一词多义特点,基于现有各类汉语词典资源构建一个义项全面、描述规范的中文多义词知识库,对于汉语语义分析、智能问答、机器翻译以及大语言模型消歧能力调优和评估等具有重要意义。文中针对《现代汉语词典》和《现代汉语规范... 针对中文的一词多义特点,基于现有各类汉语词典资源构建一个义项全面、描述规范的中文多义词知识库,对于汉语语义分析、智能问答、机器翻译以及大语言模型消歧能力调优和评估等具有重要意义。文中针对《现代汉语词典》和《现代汉语规范词典》等资源整合过程中“词条义项含义相同但描述不同”等问题进行了深入分析,并创新性地提出了基于大语言模型和提示学习的多义词义项融合技术,即充分利用大语言模型对常识知识的分析理解和辅助决策能力,通过有效的问题分解策略和提示模版设计,以及义项关系交叉验证等手段完成了多义词义项的自动化融合工作。实验结果表明,在通过正态分布抽取50个多义词共754个义项对的评测数据上,基于上述算法的义项融合的正确率达96.26%,Dice系数为0.973 3。该项研究验证了利用大语言模型开展中文知识资源自动化加工的可行性和有效性,与传统依赖语言专家加工模式相比,在保证较高质量的前提下,显著提升了知识加工效率。 展开更多
关键词 多义词 义项融合 大语言模型 提示学习 中文信息处理
在线阅读 下载PDF
大模型在垂直领域应用的现状与挑战 被引量:3
10
作者 籍欣萌 昝红英 +1 位作者 崔婷婷 张坤丽 《计算机工程与应用》 北大核心 2025年第12期1-11,共11页
近年来,以ChatGPT为代表的大语言模型在多个领域受到广泛的关注,并取得优异的表现,推动了人工智能技术的新一轮发展浪潮。目前国产大模型数量已有上百个,覆盖多个行业领域,应用场景也不断扩展。为了更好地应对大模型在自然语言处理中的... 近年来,以ChatGPT为代表的大语言模型在多个领域受到广泛的关注,并取得优异的表现,推动了人工智能技术的新一轮发展浪潮。目前国产大模型数量已有上百个,覆盖多个行业领域,应用场景也不断扩展。为了更好地应对大模型在自然语言处理中的发展及其对通用任务和领域应用带来的冲击,对自然语言处理和大模型的发展历程进行回顾,阐述了当前大模型的相关技术以及大模型在医疗、法律、金融等垂直领域的应用,并对大模型在应用过程中面临的挑战如能力缺陷、协同问题等作出分析。最后,针对这些问题探讨了大模型在实际应用中的未来研究方向。 展开更多
关键词 自然语言处理 人工智能 大语言模型 垂直领域
在线阅读 下载PDF
大模型时代下的汉语自然语言处理研究与探索 被引量:4
11
作者 黄施洋 奚雪峰 崔志明 《计算机工程与应用》 北大核心 2025年第1期80-97,共18页
自然语言处理是实现人机交互的关键步骤,而汉语自然语言处理(Chinese natural language processing,CNLP)是其中的重要组成部分。随着大模型技术的发展,CNLP进入了一个新的阶段,这些汉语大模型具备更强的泛化能力和更快的任务适应性。然... 自然语言处理是实现人机交互的关键步骤,而汉语自然语言处理(Chinese natural language processing,CNLP)是其中的重要组成部分。随着大模型技术的发展,CNLP进入了一个新的阶段,这些汉语大模型具备更强的泛化能力和更快的任务适应性。然而,相较于英语大模型,汉语大模型在逻辑推理和文本理解能力方面仍存在不足。介绍了图神经网络在特定CNLP任务中的优势,进行了量子机器学习在CNLP发展潜力的调查。总结了大模型的基本原理和技术架构,详细整理了大模型评测任务的典型数据集和模型评价指标,评估比较了当前主流的大模型在CNLP任务中的效果。分析了当前CNLP存在的挑战,并对CNLP任务的未来研究方向进行了展望,希望能帮助解决当前CNLP存在的挑战,同时为新方法的提出提供了一定的参考。 展开更多
关键词 汉语自然语言处理 图神经网络 量子机器学习 汉语大模型
在线阅读 下载PDF
基于大语言模型的智能问答系统研究综述 被引量:14
12
作者 任海玉 刘建平 +4 位作者 王健 顾勋勋 陈曦 张越 赵昌顼 《计算机工程与应用》 北大核心 2025年第7期1-24,共24页
智能问答是自然语言处理中的一个核心的子领域,旨在理解并回答用户提出的自然语言问题的系统。传统的问答系统通常依赖于预定义的规则和有限的语料库,无法处理复杂的多轮对话。大语言模型是一种基于深度学习技术的自然语言处理模型,拥... 智能问答是自然语言处理中的一个核心的子领域,旨在理解并回答用户提出的自然语言问题的系统。传统的问答系统通常依赖于预定义的规则和有限的语料库,无法处理复杂的多轮对话。大语言模型是一种基于深度学习技术的自然语言处理模型,拥有数十亿甚至上千亿个参数,不仅能够理解和生成自然语言,还能显著提升问答系统的准确性和效率,推动智能问答技术的发展。近年来,基于大模型技术的智能问答逐渐成为研究热点,但对该领域的系统性综述仍然较为欠缺。因此,针对大模型的智能问答系统进行系统综述,介绍了问答系统的基本概念和数据集及其评价指标;介绍了基于大模型的问答系统,其中包括基于提示学习的问答系统、基于知识图谱的问答系统、基于检索增强生成的问答系统和基于智能代理的问答系统以及微调在问答任务中的技术路线,并对比了五种方法在问答系统中的优缺点和应用场景;对于当前基于大语言模型的问答系统面临的研究挑战和未来发展趋势进行了总结。 展开更多
关键词 大语言模型 智能问答 自然语言处理 检索增强生成 提示学习 知识图谱
在线阅读 下载PDF
基于大语言模型的社交媒体文本立场检测
13
作者 李居昊 石磊 +3 位作者 丁锰 雷永升 赵东越 陈泷 《计算机科学与探索》 北大核心 2025年第5期1302-1312,共11页
立场检测旨在分析文本对给定目标的态度。当前社交媒体的文本通常简短且话题演变迅速,传统立场检测方法面临着语义信息稀少和立场特征表示不充分等挑战,且许多现有方法往往忽略了情感信息对立场检测的影响。为了应对上述两方面挑战,提... 立场检测旨在分析文本对给定目标的态度。当前社交媒体的文本通常简短且话题演变迅速,传统立场检测方法面临着语义信息稀少和立场特征表示不充分等挑战,且许多现有方法往往忽略了情感信息对立场检测的影响。为了应对上述两方面挑战,提出了一种基于大语言模型的社交媒体文本立场检测方法。通过设计包含明确任务指令的立场检测提示模板,调用模型在预训练阶段获得的与立场检测相关的知识,解决语义信息稀少的问题;通过在任务指令中加入情感分析任务,引导模型关注情感信息,为立场检测提供更多的语义线索,解决情感信息利用不足的问题。在此基础上,在模型内部添加针对立场检测任务的适配器,专注于提取和表示立场特征,增强模型对立场特征的表示能力,实现了更好的立场检测效果;将不同架构的大语言模型的结果进行集成投票提高预测结果的稳定性。为验证该方法,构建多组对比实验,实验结果表明该方法在SemEval-2016 Task 6A数据集上的有效性显著优于现有基准方法。 展开更多
关键词 立场检测 大语言模型 自然语言处理 多策略优化
在线阅读 下载PDF
基于大语言模型的业务流程自动建模方法
14
作者 刘瑞祥 柳先辉 +1 位作者 赵卫东 朱城林 《计算机集成制造系统》 北大核心 2025年第6期2001-2014,共14页
为了提高项目或企业在业务流程模型构建过程的自动化程度并有效利用流程的非结构数据,提出一种基于大语言模型(LLMs)的业务流程自动建模方法。在该建模方法框架中,采用大语言模型构建输入采集模块,接受自然语言文本等非结构化形式输入;... 为了提高项目或企业在业务流程模型构建过程的自动化程度并有效利用流程的非结构数据,提出一种基于大语言模型(LLMs)的业务流程自动建模方法。在该建模方法框架中,采用大语言模型构建输入采集模块,接受自然语言文本等非结构化形式输入;以一种简单标记语言对业务流程进行中间表示,通过构造序列转换规则数据集对大语言模型进行微调,使其学习如何使用该标记语言,完成自然语言输入到中间表示的转换过程。为了纠正结果的语法错误并改善建模结果,引入多智能体纠错模块对结果进行自动检查与修正。最后,针对具有不同特点的业务流程进行建模实验,验证了所提建模方法的自动性以及在提取隐性循环结构方面的有效性。 展开更多
关键词 业务流程建模 自动化建模 大语言模型 多智能体 循环结构识别
在线阅读 下载PDF
基于知识图谱的露天矿爆破安全管理问答系统
15
作者 孙嘉怡 李萍丰 +5 位作者 管伟明 谭洁 赵明生 余红兵 温颖远 唐洪佩 《爆破》 北大核心 2025年第2期188-201,共14页
在爆破作业中,安全管理发挥着至关重要的作用,爆破安全与“钻孔、爆破、采装、运输、排土”等工艺流程密切相关,工序之间相互作用显著。然而,由于现有爆破安全数据来源多样、结构复杂,缺乏系统化集成,导致现场作业人员在面对复杂工况时... 在爆破作业中,安全管理发挥着至关重要的作用,爆破安全与“钻孔、爆破、采装、运输、排土”等工艺流程密切相关,工序之间相互作用显著。然而,由于现有爆破安全数据来源多样、结构复杂,缺乏系统化集成,导致现场作业人员在面对复杂工况时难以准确获取关键安全知识,给安全管理带来了挑战。因此将基于BERT-BiLSTM-CRF的命名实体识别方法应用于爆破安全管理领域。首先采用BERT预训练模型获取动态词向量,其次采用BiLSTM-CRF进行实体最佳标签序列标注,构建了涵盖7类实体和9类关系的知识图谱,并利用开源图数据库系统Neo4j存储知识图谱数据。结果表明:模型所有实体类型的F 1值均在60%以上,证明该模型较传统模型实体识别提取精度显著提高。并基于知识图谱模型开发了露天煤矿爆破工艺安全管理知识问答系统,完成领域知识查询及各类爆破工艺与安全标准的迅速匹配。通过问答系统的支持,现场工程师能够在复杂的爆破安全管理中迅速做出科学决策。 展开更多
关键词 知识图谱 问答系统 爆破安全 工艺流程 预训练语言模型
在线阅读 下载PDF
基于预训练模型标记器重构的藏文分词系统
16
作者 杨杰 尼玛扎西 +2 位作者 仁青东主 祁晋东 才让东知 《计算机应用》 北大核心 2025年第4期1199-1204,共6页
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,... 针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERTBiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。 展开更多
关键词 藏语信息处理 藏文分词模型 预训练模型 自然语言处理 标记器重构
在线阅读 下载PDF
基于大语言模型的书目检索系统设计与实现
17
作者 刘崧印 朱学芳 王震宇 《图书馆论坛》 北大核心 2025年第7期113-120,共8页
传统的书目检索系统依赖于关键字搜索,限制了用户查询的灵活性,难以精确理解用户的查询意图。文章基于大语言模型开发书目检索系统,允许用户以自然语言形式查询书目信息,并能提高检索效率;使用Langchain框架实现通过自然语言进行检索的... 传统的书目检索系统依赖于关键字搜索,限制了用户查询的灵活性,难以精确理解用户的查询意图。文章基于大语言模型开发书目检索系统,允许用户以自然语言形式查询书目信息,并能提高检索效率;使用Langchain框架实现通过自然语言进行检索的书目检索系统,通过文本嵌入、少样本学习、提示工程等技术增强大语言模型的信息检索能力。实验结果表明,系统能够理解用户的查询意图并返回满足需求的检索结果,在使用便捷性上超过传统书目检索系统。 展开更多
关键词 大语言模型 书目检索 自然语言处理
在线阅读 下载PDF
影响预训练语言模型数据泄露的因素研究
18
作者 钱汉伟 彭季天 +4 位作者 袁明 高光亮 刘晓迁 王群 朱景羽 《信息安全研究》 北大核心 2025年第2期181-188,共8页
当前广泛使用的预训练语言模型是从海量训练语料中学习通用的语言表示.自然语言处理领域的下游任务在使用预训练语言模型后性能得到显著提升,但是深度神经网络过拟合现象使得预训练语言模型可能存在泄露训练语料隐私的风险.选用T5,GPT-2... 当前广泛使用的预训练语言模型是从海量训练语料中学习通用的语言表示.自然语言处理领域的下游任务在使用预训练语言模型后性能得到显著提升,但是深度神经网络过拟合现象使得预训练语言模型可能存在泄露训练语料隐私的风险.选用T5,GPT-2,OPT等广泛使用的预训练语言模型作为研究对象,利用模型反演攻击探索影响预训练语言模型数据泄露的因素.实验过程中利用预训练语言模型生成大量样本,以困惑度等指标选取最有可能发生数据泄露风险的样本进行验证,证明了T5等不同模型均存在不同程度的数据泄露问题;同一种模型,模型规模越大数据泄露可能性越大;添加特定前缀更容易获取泄露数据等问题.对未来数据泄露问题及其防御方法进行了展望. 展开更多
关键词 自然语言处理 预训练语言模型 隐私数据泄露 模型反演攻击 模型架构
在线阅读 下载PDF
视觉富文档理解预训练综述 被引量:1
19
作者 张剑 李晖 +2 位作者 张晟铭 吴杰 彭滢 《计算机科学》 北大核心 2025年第1期259-276,共18页
视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理... 视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理和计算机视觉的交叉领域。近年来,视觉富文档理解领域的预训练技术在打破下游任务的训练壁垒和提升模型表现上取得了重大的进展。然而,目前对现有的预训练模型的归纳总结和深入分析仍然有所欠缺。为此,对视觉富文档理解领域预训练技术的相关研究进行了全面总结。首先,介绍了预训练技术的数据预处理阶段,包括预训练数据集和光学字符识别引擎。然后,对预训练技术的模型预训练阶段进行了阐述,提炼出单模态表示学习、多模态特征融合和预训练任务3个关键的技术模块,并基于上述模块归纳了预训练模型之间的共性和差异。此外,简要介绍了多模态大模型在视觉富文档理解领域的应用。接着,对预训练模型在下游任务上的表现进行了对比分析。最后,探讨了预训练技术面临的挑战和未来的研究方向。 展开更多
关键词 文档智能 预训练模型 自然语言处理 计算机视觉 深度学习
在线阅读 下载PDF
基于大语言模型的NLP数据增强方法综述 被引量:1
20
作者 许德龙 林民 +1 位作者 王玉荣 张树钧 《计算机科学与探索》 北大核心 2025年第6期1395-1413,共19页
当前,大语言模型在自然语言处理(NLP)领域展现出巨大的潜力,但其训练过程依赖于大量高质量样本。在低资源场景下,随着模型规模不断扩大,现有数据样本数量难以支撑模型训练收敛,这一问题激发了相关领域科研工作者对于数据增强方法的研究... 当前,大语言模型在自然语言处理(NLP)领域展现出巨大的潜力,但其训练过程依赖于大量高质量样本。在低资源场景下,随着模型规模不断扩大,现有数据样本数量难以支撑模型训练收敛,这一问题激发了相关领域科研工作者对于数据增强方法的研究。然而,传统数据增强方法在NLP领域大模型背景下存在应用范围有限和数据失真的问题。相比之下,基于大语言模型的数据增强方法能够更有效地应对这一挑战。全面探讨了现阶段NLP领域大语言模型数据增强方法,采用了综合性的视角研究NLP领域数据增强。对NLP领域传统数据增强方法进行分析与总结。将现阶段NLP领域多种大语言模型数据增强方法归纳总结,并深入探讨了每一种方法的适用范围、优点以及局限性。介绍了NLP领域数据增强评估方法。通过对当前方法的对比实验和结果分析讨论了NLP领域大语言模型数据增强方法的未来研究方向,并提出了前瞻性建议。 展开更多
关键词 数据增强方法 大语言模型 自然语言处理 深度学习 人工智能
在线阅读 下载PDF
上一页 1 2 24 下一页 到第
使用帮助 返回顶部