期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
生成式预训练模型机器人及其潜力与挑战 被引量:2
1
作者 张帆 谭跃刚 《中国机械工程》 EI CAS CSCD 北大核心 2024年第7期1241-1252,共12页
机器人与ChatGPT的融合可形成具有人类智慧特征的“硅智能体”,定义为“生成式预训练模型机器人”。以ChatGPT和机器人的智能融合为对象,阐述了GPT-R的特点、技术趋势及在工业和人类生活中的应用。分析了GPT-R在体力、智力及与人类共融... 机器人与ChatGPT的融合可形成具有人类智慧特征的“硅智能体”,定义为“生成式预训练模型机器人”。以ChatGPT和机器人的智能融合为对象,阐述了GPT-R的特点、技术趋势及在工业和人类生活中的应用。分析了GPT-R在体力、智力及与人类共融发展中存在的问题,从GPT-R的本体与智能、法律与安全、社会规则三方面给出相应对策。结合了ChatGPT和机器人技术的GPT-R将拥有越来越广泛的应用场景和越来越大的市场潜力,成为未来人工智能和机器人共融发展的重要方向之一。 展开更多
关键词 生成式训练模型机器人 人工智能 硅智能体 共融发展
在线阅读 下载PDF
生成式AI的融贯性法律治理——以生成式预训练模型(GPT)为例 被引量:86
2
作者 郭春镇 《现代法学》 CSSCI 北大核心 2023年第3期88-107,共20页
随着大规模数据和算式的增长,以及算法的不断优化。围绕生成式AI的前景,存在着支持、反对、中立等不同态度,这些态度背后隐含着认知根源、经济考量和权利思考。立足于法律3.0的融贯性治理注重国家法律、行政规制和技术方案之间的融贯,... 随着大规模数据和算式的增长,以及算法的不断优化。围绕生成式AI的前景,存在着支持、反对、中立等不同态度,这些态度背后隐含着认知根源、经济考量和权利思考。立足于法律3.0的融贯性治理注重国家法律、行政规制和技术方案之间的融贯,为治理生成式AI提供了思路和方向。融贯性治理中的“融贯”,既是规范性融贯,强调法律规范的内在一致性和统一性,也是整体性融贯,强调将技术方案融入规范,进而使得技术方案与不同层级规范和引领这些规范的原则与价值得以融贯。在面对以GPT为代表的生成式AI时,可以尝试将AI和区块链作为技术方案对其进行治理,也可以通过自我规制和外在约束培育建设“有道德的”AI,还可以通过“市场+规则”助力生成式AI的发展。生成式AI所涉及的法律问题在现有的法律体系框架内基本能得到有效应对,对于它带来的现实、急迫且法律没有明确规定的问题,可以进行融贯性治理。 展开更多
关键词 生成式AI 生成式训练模型(GPT) 融贯性治理 法律3.0
在线阅读 下载PDF
Lacmia:抗混淆的多民族语言生成式摘要模型
3
作者 翁彧 罗皓予 +3 位作者 刘征 超木日力格 刘轩 董俊 《中文信息学报》 CSCD 北大核心 2024年第10期80-94,共15页
该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不... 该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不同民族语言的摘要生成任务。此外,为了解决以往模型在多民族低资源语言处理上的性能不足问题,该模型在框架中加入了语言信息嵌入模块。该文通过在损失函数中引入目标语言偏好性正则化项,有效减轻了多语言摘要中出现的语言混淆现象,从而提升摘要生成准确性和流畅度。广泛的实验表明,Lacmia在包括藏语和维吾尔语在内的多民族低资源语言摘要任务中,取得了卓越成绩。除了在ROUGE评价标准上实现了显著性能提升外,Lacmia在该文新提出的CINOScore和NLCR两项指标上均达到了最佳效果,验证了模型的有效性和先进性。 展开更多
关键词 生成式摘要 多语言训练模型 低资源语言信息处理 多目标学习
在线阅读 下载PDF
Pobe:一种基于生成式模型的分布外文本检测方法 被引量:2
4
作者 欧阳亚文 高源 +2 位作者 宗石 鲍宇 戴新宇 《软件学报》 EI CSCD 北大核心 2024年第9期4365-4376,共12页
对于安全可靠的机器学习系统,具备检测训练集分布外(out-of-distribution,OOD)样本的能力十分必要.基于似然的生成式模型由于训练时不需要样本标签,是一类非常受欢迎的OOD检测方法.然而,近期研究表明通过似然来检测OOD样本往往会失效,... 对于安全可靠的机器学习系统,具备检测训练集分布外(out-of-distribution,OOD)样本的能力十分必要.基于似然的生成式模型由于训练时不需要样本标签,是一类非常受欢迎的OOD检测方法.然而,近期研究表明通过似然来检测OOD样本往往会失效,并且失效原因与解决方案的探究仍较少,尤其是对于文本数据.从模型层面和数据层面分析文本上失效的原因:生成式模型的泛化性不足和文本先验概率的偏差.在此基础上,提出一种新的OOD文本检测方法Pobe.针对生成式模型泛化性不足的问题,引入KNN检索的方式,来提升模型的泛化性.针对文本先验概率偏差的问题,设计一种偏差校准策略,借助预训练语言模型改善概率偏差对OOD检测的影响,并通过贝叶斯定理证明策略的合理性.通过在广泛的数据集上进行实验,证明所提方法的有效性,其中,在8个数据集上的平均AUROC值超过99%,FPR95值低于1%. 展开更多
关键词 机器学习 分布外检测 生成式模型 文本检索 训练语言模型
在线阅读 下载PDF
生成式人工智能重塑高校创新创业教育——内容、实施风险与规范化策略
5
作者 任华卿 程倩 谈才双 《江苏高教》 北大核心 2025年第7期97-102,共6页
生成式人工智能对高校创新创业教育发挥重塑作用。同时,与算法推荐带来的技术赋能与技术赋责偏差相比,生成式人工智能的参与引致了新的实施风险,即关系伦理问题、资源伦理问题和主体伦理问题。立足于技术运行逻辑和主要行动者利益需求... 生成式人工智能对高校创新创业教育发挥重塑作用。同时,与算法推荐带来的技术赋能与技术赋责偏差相比,生成式人工智能的参与引致了新的实施风险,即关系伦理问题、资源伦理问题和主体伦理问题。立足于技术运行逻辑和主要行动者利益需求主观认定逻辑,生成式人工智能重塑高校创新创业教育应始终基于主体要求,在主要行动者之间引入协商沟通机制,建构阶段化的合作协议。以此为治理旨归,生成式人工智能重塑高校创新创业教育方能实现规范化发展,进而彰显进一步全面深化改革、推进中国式现代化的价值意蕴。 展开更多
关键词 生成式人工智能 高校创新创业教育 行动者网络 训练模型
在线阅读 下载PDF
生成式人工智能思维影响下教师教育实验中心的建设 被引量:1
6
作者 李小志 严乙淼 《实验室研究与探索》 CAS 北大核心 2024年第10期113-117,141,共6页
为了深入探讨生成式人工智能在教育领域的创新应用,以其开放性、创造性、协同性和适应性为理论基础,对教师教育实验中心的建设进行了全面的重构与创新发展。采用虚实结合的方式重塑实验实训教学模式,利用平台互联互通构建实验实训教学... 为了深入探讨生成式人工智能在教育领域的创新应用,以其开放性、创造性、协同性和适应性为理论基础,对教师教育实验中心的建设进行了全面的重构与创新发展。采用虚实结合的方式重塑实验实训教学模式,利用平台互联互通构建实验实训教学支撑体系,借助学科间的协同合作创新实验实训课程系统,通过多方辐射制定实验实训教学的保障措施,以及构建完善的实验实训教学服务框架。引入生成式人工智能后,教师教育实验中心不仅创新了实验教学模式,提升了师范生的教学能力,也为师范生的研究能力培养提供了实践路径。 展开更多
关键词 生成式人工智能 聊天生成训练转换器 教师教育 实验教学
在线阅读 下载PDF
TSPT:基于预训练的三阶段复合式文本摘要模型 被引量:3
7
作者 吕瑞 王涛 +1 位作者 曾碧卿 刘相湖 《计算机应用研究》 CSCD 北大核心 2020年第10期2917-2921,共5页
抽取式方法从源文本中抽取句子,会造成信息冗余;生成式方法可能生成非源文词,会产生语法问题,自然性差。BERT作为一种双向Transformer模型,在自然语言理解任务上展现了优异的性能,但在文本生成任务的应用有待探索。针对以上问题,提出一... 抽取式方法从源文本中抽取句子,会造成信息冗余;生成式方法可能生成非源文词,会产生语法问题,自然性差。BERT作为一种双向Transformer模型,在自然语言理解任务上展现了优异的性能,但在文本生成任务的应用有待探索。针对以上问题,提出一种基于预训练的三阶段复合式文本摘要模型(TSPT),结合抽取式方法和生成式方法,将源本文经过预训练产生的双向上下文信息词向量由sigmoid函数获取句子得分抽取关键句,在摘要生成阶段将关键句作为完形填空任务重写,生成最终摘要。实验结果表明,该模型在CNN/Daily Mail数据集中取得了良好效果。 展开更多
关键词 训练 复合式文本摘要模型 抽取式方法 生成式方法 双向上下文信息词向量
在线阅读 下载PDF
生成式人工智能的责任能力研究 被引量:87
8
作者 袁曾 《东方法学》 CSSCI 北大核心 2023年第3期18-33,共16页
以ChatGPT为代表的生成式人工智能投入规模化应用后,至少带来创造性成果归属、意思表示能力确认、刑事犯罪规制、侵权损害救济、数据滥用等多领域的现实法律困境。从传统稳定的社会结构与数字社会新生风险两个维度形成了治理困境,需要... 以ChatGPT为代表的生成式人工智能投入规模化应用后,至少带来创造性成果归属、意思表示能力确认、刑事犯罪规制、侵权损害救济、数据滥用等多领域的现实法律困境。从传统稳定的社会结构与数字社会新生风险两个维度形成了治理困境,需要从责任的角度确定何种主体应为生成式人工智能技术的决策负责。生成式人工智能已经具备类人化意识与行为能力的基本形态,在拟制主体对人类经济发挥巨大作用的现实借鉴下,可考虑由生成式人工智能自身承担部分责任,但由于其责任能力的限制以及以人为本的伦理基础,对该责任能力应当进行明确限定。通过“穿透人工智能面纱”的归责原则以及相应的配套机制构建,促使发展“负责任的人工智能”成为符合人类共同利益的选择。 展开更多
关键词 生成式人工智能 ChatGPT 预训练生成式聊天模型 责任能力 法律人格 大型语言模型
在线阅读 下载PDF
基于BERT-PGN模型的中文新闻文本自动摘要生成 被引量:15
9
作者 谭金源 刁宇峰 +1 位作者 祁瑞华 林鸿飞 《计算机应用》 CSCD 北大核心 2021年第1期127-132,共6页
针对文本自动摘要任务中生成式摘要模型对句子的上下文理解不够充分、生成内容重复的问题,基于BERT和指针生成网络(PGN),提出了一种面向中文新闻文本的生成式摘要模型——BERT-指针生成网络(BERTPGN)。首先,利用BERT预训练语言模型结合... 针对文本自动摘要任务中生成式摘要模型对句子的上下文理解不够充分、生成内容重复的问题,基于BERT和指针生成网络(PGN),提出了一种面向中文新闻文本的生成式摘要模型——BERT-指针生成网络(BERTPGN)。首先,利用BERT预训练语言模型结合多维语义特征获取词向量,从而得到更细粒度的文本上下文表示;然后,通过PGN模型,从词表或原文中抽取单词组成摘要;最后,结合coverage机制来减少重复内容的生成并获取最终的摘要结果。在2017年CCF国际自然语言处理与中文计算会议(NLPCC2017)单文档中文新闻摘要评测数据集上的实验结果表明,与PGN、伴随注意力机制的长短时记忆神经网络(LSTM-attention)等模型相比,结合多维语义特征的BERT-PGN模型对摘要原文的理解更加充分,生成的摘要内容更加丰富,全面且有效地减少重复、冗余内容的生成,Rouge-2和Rouge-4指标分别提升了1.5%和1.2%。 展开更多
关键词 生成式摘要模型 训练语言模型 多维语义特征 指针生成网络 coverage机制
在线阅读 下载PDF
基于多粒度对比学习的聊天对话摘要模型 被引量:1
10
作者 康梦瑶 刘扬 +2 位作者 黄俊恒 王佰玲 刘树龙 《计算机科学》 CSCD 北大核心 2023年第11期192-200,共9页
社交网络的发展在给人们带来便捷的同时也产生了海量的聊天数据,如何从聊天对话中筛选出关键信息成为一大难题。聊天摘要是解决此类问题的有效工具,既不必重复浏览冗长的聊天记录,又可以快速获取重要内容。目前,预训练模型被广泛应用于... 社交网络的发展在给人们带来便捷的同时也产生了海量的聊天数据,如何从聊天对话中筛选出关键信息成为一大难题。聊天摘要是解决此类问题的有效工具,既不必重复浏览冗长的聊天记录,又可以快速获取重要内容。目前,预训练模型被广泛应用于各种类型的文本,包括非结构化、半结构化和结构化文本。然而,针对聊天对话文本的应用,常见的预训练模型难以捕捉到其独特的结构特征,仍需进一步探索与改进。对此,提出了一种基于对比学习的聊天摘要算法MGCSum。该算法无需人工标注数据集,便于学习和迁移。首先使用文档频数、词项频数和信息熵构造了针对聊天文本的停用词列表,去除聊天中的干扰信息;其次,从词语和主题两个粒度进行自监督对比学习,识别对话中的结构信息,挖掘聊天中的关键词和不同主题信息。在聊天摘要公开数据集SAMSum和金融欺诈对话数据集FINSum上进行实验,结果表明,与当前主流的聊天摘要方法相比,该算法在摘要的连贯性、信息量和ROUGE评价指标上均有显著提升。 展开更多
关键词 聊天摘要 对比学习 训练模型 关键词检测 主题分割
在线阅读 下载PDF
基于HRAGS模型的混合式摘要生成方法 被引量:1
11
作者 岳琳 杨风暴 王肖霞 《电子测量技术》 北大核心 2022年第15期75-83,共9页
针对传统的抽取式、生成式方法在摘要自动生成任务上存在可读性、准确性不足的问题,提出了基于HRAGS模型的混合式摘要生成方法。该方法首先使用BERT预训练语言模型获取上下文句子表示,结合冗余感知方法构造抽取模型;然后将训练完毕的BER... 针对传统的抽取式、生成式方法在摘要自动生成任务上存在可读性、准确性不足的问题,提出了基于HRAGS模型的混合式摘要生成方法。该方法首先使用BERT预训练语言模型获取上下文句子表示,结合冗余感知方法构造抽取模型;然后将训练完毕的BERT双编码器和随机初始化的具有双编码-解码注意力模块的Transformer解码器相结合构造生成模型,采用二阶段微调策略解决编、解码器训练不平衡的问题;最后使用Oracle贪婪算法选择关键句作为指导信号,将原文和指导信号分别输入生成模型以获取摘要。在LCSTS数据集上进行验证,实验结果表明,相比于其他基准模型,HRAGS模型能够生成更具可读性、准确性和ROUGE得分更高的摘要。 展开更多
关键词 训练语言模型 混合式摘要 生成式摘要 冗余感知
在线阅读 下载PDF
油气大模型发展方向及实施关键路径 被引量:1
12
作者 熊华平 赵春宇 刘万伟 《大庆石油地质与开发》 CAS 北大核心 2024年第3期214-224,共11页
大庆油田历经60余年的勘探开发,面临着理论创新、技术突破和现场实施等诸多挑战。在这个过程中,传统的数学模型在处理复杂的地质数据和工程数据时已接近瓶颈,需要探索新的研究范式。近年来,大模型特别是多模态生成式大模型作为一种基于... 大庆油田历经60余年的勘探开发,面临着理论创新、技术突破和现场实施等诸多挑战。在这个过程中,传统的数学模型在处理复杂的地质数据和工程数据时已接近瓶颈,需要探索新的研究范式。近年来,大模型特别是多模态生成式大模型作为一种基于大数据、大模型的智能化技术,能够处理大规模、异源、异构的数据,有望更好地应对油气勘探开发领域中的复杂性和不确定性,重塑油气领域的数字化流程,成为油气行业新的发展契机。从油气大模型产生的技术需求、时代背景出发,探索油气大模型技术体系,对油气大模型建设提出设想。具体方案从建设目标、建设原则开始,设计技术架构、给出实施路径,横向上规划4个实施阶段、纵向上规划4个研究领域,设计15项关键任务,进一步为大模型落地,规划了数据库、知识库、成果库和协同研究4项配套体系建设、制定13项关键技术,逐步推进大模型对“数”“图”“体”的理解,最后对大模型在未来油气研究领域的应用场景进行了展望。 展开更多
关键词 油气大模型 多模态 生成式训练模型 垂直领域模型 指令微调
在线阅读 下载PDF
基于大模型增强的通用人工智能教师架构 被引量:37
13
作者 余胜泉 熊莎莎 《开放教育研究》 CSSCI 北大核心 2024年第1期33-43,共11页
以ChatGPT为代表的预训练大模型在教育界产生了巨大影响,也为发展通用人工智能教师带来了曙光。预训练大模型应用于教育存在幻觉、深度逻辑缺失、社会情感缺失等局限,如果这些关键问题不解决,大模型不可能在教育中得到真正有价值的应用... 以ChatGPT为代表的预训练大模型在教育界产生了巨大影响,也为发展通用人工智能教师带来了曙光。预训练大模型应用于教育存在幻觉、深度逻辑缺失、社会情感缺失等局限,如果这些关键问题不解决,大模型不可能在教育中得到真正有价值的应用。本文提出通过增强大模型构建通用人工智能教师架构,其核心思路是精调训练增强场景知识、检索增强认知、外部智能组件编排增强推理、多模态融合增强感知、情感计算增强社会情感,再通过教育知识图谱对大模型输出进行监督。通用人工智能教师主要有六种应用场景:需要渊博知识的场景、洞察创意增强场景、约束与管理场景、社会情感互动场景、个性化指导与反馈场景、多模态内容表现场景。文章最后分析了通用智能时代人类教师面临的机遇与挑战,提出教师需要主动拥抱、使用、驾驭并控制智能技术,解放、增强、进化自我,并跨越陷阱。 展开更多
关键词 人工智能教师 生成式人工智能 训练模型 人工智能教育应用
在线阅读 下载PDF
一种建立在GPT-2模型上的数据增强方法 被引量:2
14
作者 张小川 陈盼盼 +2 位作者 邢欣来 杨昌萌 滕达 《智能系统学报》 CSCD 北大核心 2024年第1期209-216,共8页
针对句子分类任务常面临着训练数据不足,而且文本语言具有离散性,在语义保留的条件下进行数据增强具有一定困难,语义一致性和多样性难以平衡的问题,本文提出一种惩罚生成式预训练语言模型的数据增强方法(punishing generative pre-train... 针对句子分类任务常面临着训练数据不足,而且文本语言具有离散性,在语义保留的条件下进行数据增强具有一定困难,语义一致性和多样性难以平衡的问题,本文提出一种惩罚生成式预训练语言模型的数据增强方法(punishing generative pre-trained transformer for data augmentation,PunishGPT-DA)。设计了惩罚项和超参数α,与负对数似然损失函数共同作用微调GPT-2(generative pre-training 2.0),鼓励模型关注那些预测概率较小但仍然合理的输出;使用基于双向编码器表征模型(bidirectional encoder representation from transformers,BERT)的过滤器过滤语义偏差较大的生成样本。本文方法实现了对训练集16倍扩充,与GPT-2相比,在意图识别、问题分类以及情感分析3个任务上的准确率分别提升了1.1%、4.9%和8.7%。实验结果表明,本文提出的方法能够同时有效地控制一致性和多样性需求,提升下游任务模型的训练性能。 展开更多
关键词 自然语言处理 人工智能 数据增强 句子分类 少样本 序列到序列 生成式训练语言模型 双向编码器表征模型
在线阅读 下载PDF
基于知识辅助的结构化医疗报告生成
15
作者 史继筠 张驰 +2 位作者 王禹桥 罗兆经 张美慧 《计算机科学》 CSCD 北大核心 2024年第6期317-324,共8页
医疗报告自动生成是文本摘要生成技术的重要应用。由于医疗问诊数据与通用领域的数据特征存在着明显的差异,传统的文本摘要生成方法不能充分理解并利用医疗文本中高复杂性的医疗术语,因此医疗问诊中包含的关键知识并没有得到充分的利用... 医疗报告自动生成是文本摘要生成技术的重要应用。由于医疗问诊数据与通用领域的数据特征存在着明显的差异,传统的文本摘要生成方法不能充分理解并利用医疗文本中高复杂性的医疗术语,因此医疗问诊中包含的关键知识并没有得到充分的利用。此外,传统的文本摘要生成方法大多是直接生成摘要,并没有针对医疗报告结构化的特点自动选择过滤关键信息并生成结构化文本的能力。针对上述问题,提出了一种知识辅助的结构化医疗报告生成方法。该方法将实体引导的先验领域知识与结构引导的任务解耦机制相结合,实现了对医疗问诊数据的关键知识与医疗报告的结构化特点的充分利用。在IMCS21数据集上的实验验证了所提方法的有效性,其生成摘要的ROUGE分数与同类方法相比提升了2%~3%,生成了更准确的医疗报告。 展开更多
关键词 医疗报告生成 训练模型 生成式摘要 领域知识先验 任务解耦机制
在线阅读 下载PDF
基于人工智能大模型技术的果蔬农技知识智能问答系统 被引量:17
16
作者 王婷 王娜 +1 位作者 崔运鹏 刘娟 《智慧农业(中英文)》 CSCD 2023年第4期105-116,共12页
[目的/意义]乡村振兴战略给农业技术推广提出新的要求,使农业推广知识的供给形式有待进一步创新。以果蔬农技知识服务为需求导向,基于前沿大语言模型技术,面向新型农业知识导读和知识问答等农技推广服务,构建果蔬农技知识智能问答系统。... [目的/意义]乡村振兴战略给农业技术推广提出新的要求,使农业推广知识的供给形式有待进一步创新。以果蔬农技知识服务为需求导向,基于前沿大语言模型技术,面向新型农业知识导读和知识问答等农技推广服务,构建果蔬农技知识智能问答系统。[方法]基于草莓种植户需求分析,把草莓栽培农技知识划分为不同主题,形成知识对象识别和知识问答两种大模型下游任务,结合机器自动标注和人工标注的方法构建小样本高质量训练语料;通过对比已有的4种大语言模型:Baichuan2-13B-Chat、Chat GLM2-6B、Llama-2-13B-Chat、Chat GPT的性能表现,选择性能最优的模型作为基础模型,按照“优质语料+预训练大模型+微调”的研究思路,训练具有语义分析、上下文关联和生成能力,能够适应多种下游任务的深度神经网络,构建农业知识问答大模型;采用数据优化、检索增强生成技术等多种策略缓解大模型幻觉问题;研发果蔬农技知识智能问答系统,生成高精度、无歧义的农业知识答案,同时支持用户多轮问答。[结果和讨论]以精准率和召回率为命名实体识别任务的性能表现指标,参与测评的国内主流模型在微调后不同知识主题下的平均精准率均超过85%,平均召回率表现各异,其中知识实体类型的数量、标注语料数量等因素都会影响大模型性能;以幻觉率和语义相似度为知识问答任务的性能表现指标,数据优化、采用检索增强生成技术等策略以10%~40%的幅度有效降低大模型幻觉率,并有效提高大模型的语义相似度。[结论]在农业领域的命名实体识别和知识问答任务中,预训练大模型Chat GLM的表现性能最优。针对预训练大模型下游任务的微调和基于检索增强生成(Retrieval-Augmented Generation,RAG)技术的模型优化可以缓解大模型幻觉问题,显著提升大模型性能。大模型技术具有创新农技知识服务模式、优化农业知识推广的潜力,能够有效降低种植户获取高质量有效知识的时间成本,引导更多的种植户实现农业技术创新和转型。但是由于性能不稳定等诸多问题,大模型的优化方法和具体场景应用仍需进一步深入研究。 展开更多
关键词 模型 生成式训练变换器 农技知识 智能问答 命名实体识别
在线阅读 下载PDF
基于可控性解释的混合数据增强框架
17
作者 孙泽辰 肖义胜 +2 位作者 李俊涛 张民 周国栋 《软件学报》 北大核心 2025年第4期1604-1619,共16页
先前的预训练语言模型已在众多自然语言理解任务中展现了其卓越的性能.然而,它们常表现出捷径学习的问题,即学习了非鲁棒性特征与标签之间的虚假关联,导致模型在不同于训练分布的测试场景中的泛化能力不佳.近期,生成式预训练大模型在理... 先前的预训练语言模型已在众多自然语言理解任务中展现了其卓越的性能.然而,它们常表现出捷径学习的问题,即学习了非鲁棒性特征与标签之间的虚假关联,导致模型在不同于训练分布的测试场景中的泛化能力不佳.近期,生成式预训练大模型在理解任务中的出色表现引起了广泛的关注,但它们是否受到捷径学习的影响尚未被充分研究.以LLaMA系列模型与FLAN-T5模型为代表,探究生成式预训练大模型在多个自然语言理解任务中的捷径学习现象.研究结果表明,近期流行的生成式大模型仍然存在捷径学习的问题.进而,提出针对生成式预训练大模型的捷径学习问题的缓解策略——基于可控性解释的混合数据增强框架.该框架以数据为中心,基于模型生成的可控性解释数据与部分原始提示性数据构造小规模混合数据集,开展模型微调.在3个具有代表性的自然语言理解任务中的大量实验结果表明,使用该框架所构造的数据集训练模型能够有效缓解模型的捷径学习问题,提升模型在分布外测试场景中的鲁棒性与泛化能力,同时不牺牲甚至提升模型在分布内测试场景中的性能.代码已公开发布在https://github.com/Mint9996/HEDA. 展开更多
关键词 捷径学习 生成式训练语言模型 自然语言理解
在线阅读 下载PDF
基于文本水印的AIGC用户溯源技术
18
作者 宋轶旻 刘功申 《应用科学学报》 北大核心 2025年第3期361-369,共9页
本文主要针对文本水印技术在中文语境下研究的不足,使用修改式水印与生成式水印两种方案对于中英文文本水印技术进行了实现。利用针对英文的Bert模型和针对中文的WoBert模型,设计了可移植的词替换水印模块,通过替换源文本中指定词元的... 本文主要针对文本水印技术在中文语境下研究的不足,使用修改式水印与生成式水印两种方案对于中英文文本水印技术进行了实现。利用针对英文的Bert模型和针对中文的WoBert模型,设计了可移植的词替换水印模块,通过替换源文本中指定词元的方式在源文本中嵌入水印信息。对于生成式水印,采用对抗生成式文本水印模型,在中文语料上进行了针对性地修改与迁移,以适应中文文本的语义结构和语言习惯。使用中英文下的人类-ChatGPT对比语料库进行实验,结合准确与语义两方面的文本水印评估指标对2个数据集下不同模型的水印质量进行了评估,以说明水印在多种语料下的有效性。 展开更多
关键词 文本水印 训练语言模型 生成式模型 对比语料库
在线阅读 下载PDF
基于ALBERT-UniLM模型的文本自动摘要技术研究 被引量:6
19
作者 孙宝山 谭浩 《计算机工程与应用》 CSCD 北大核心 2022年第15期184-190,共7页
任务中的生成式摘要模型对原文理解不充分且容易生成重复文本等问题,提出将词向量模型ALBERT与统一预训练模型UniLM相结合的算法,构造出一种ALBERT-UniLM摘要生成模型。该模型采用预训练动态词向量ALBERT替代传统的BERT基准模型进行特... 任务中的生成式摘要模型对原文理解不充分且容易生成重复文本等问题,提出将词向量模型ALBERT与统一预训练模型UniLM相结合的算法,构造出一种ALBERT-UniLM摘要生成模型。该模型采用预训练动态词向量ALBERT替代传统的BERT基准模型进行特征提取获得词向量。利用融合指针网络的UniLM语言模型对下游生成任务微调,结合覆盖机制来降低重复词的生成并获取摘要文本。实验以ROUGE评测值作为评价指标,在2018年CCF国际自然语言处理与中文计算会议(NLPC-C2018)单文档中文新闻摘要评价数据集上进行验证。与BERT基准模型相比,ALBERT-UniLM模型的Rouge-1、Rouge-2和Rouge-L指标分别提升了1.57%、1.37%和1.60%。实验结果表明,提出的ALBERT-UniLM模型在文本摘要任务上效果明显优于其他基准模型,能够有效提高文本摘要的生成质量。 展开更多
关键词 自然语言处理 训练语言模型 ALBERT模型 UniLM模型 生成式摘要
在线阅读 下载PDF
基于BERT的语义增强中文文本自动摘要研究
20
作者 盖泽超 池越 周亚同 《中文信息学报》 北大核心 2025年第5期110-119,共10页
目前,基于BERT预训练的文本摘要模型效果良好。然而,预训练模型内部使用的自注意力机制倾向于关注文本中字与字之间的相关信息,对词信息关注度较低,并且在解码时存在语义理解不充分的情况。针对上述问题,该文提出了一种基于BERT的语义... 目前,基于BERT预训练的文本摘要模型效果良好。然而,预训练模型内部使用的自注意力机制倾向于关注文本中字与字之间的相关信息,对词信息关注度较低,并且在解码时存在语义理解不充分的情况。针对上述问题,该文提出了一种基于BERT的语义增强文本摘要模型CBSUM-Aux(Convolution and BERT Based Summarization Model with Auxiliary Information)。首先,使用窗口大小不同的卷积神经网络模块提取原文中的词特征信息,并与输入的字嵌入进行特征融合,之后通过预训练模型对融合特征进行深度特征挖掘。然后,在解码输出阶段,将卷积之后的词特征信息作为解码辅助信息输入解码器中指导模型解码。最后,针对束搜索算法倾向于输出短句的问题对其进行优化。该文使用LCSTS和CSTSD数据集对模型进行验证,实验结果表明,该文模型在ROUGE指标上有明显提升,生成的摘要与原文语义更加贴合。 展开更多
关键词 生成式文本摘要 训练模型 自注意力机制 卷积神经网络 辅助信息
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部