期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
玲珑:一个小规模的高质量中文预训练语言模型
1
作者 李东闻 钟震宇 +4 位作者 孙羽菲 申峻宇 马子智 于川越 张玉志 《计算机研究与发展》 北大核心 2025年第3期682-693,共12页
近年来,大规模的、基于自回归的中文预训练语言模型在各种自然语言处理任务上表现出优异性能.然而,高昂的计算成本以及基于中文词切分数据给中文预训练语言模型实际应用带来了巨大挑战.此外,大多基于自回归的模型只能使用单向前文信息,... 近年来,大规模的、基于自回归的中文预训练语言模型在各种自然语言处理任务上表现出优异性能.然而,高昂的计算成本以及基于中文词切分数据给中文预训练语言模型实际应用带来了巨大挑战.此外,大多基于自回归的模型只能使用单向前文信息,可能会导致模型在上下文敏感任务上的性能有所下降.为了解决以上问题,提出并训练了一个高质量的小型中文预训练语言模型——玲珑.该模型仅有3.17亿个参数,较小的规模使得玲珑十分容易部署和应用.使用基于汉字的策略对训练语料进行切分,可以有效减轻未知标记和分词错误带来的负面影响,增强了玲珑在下游任务上的性能.此外,通过对每条训练数据的输入顺序进行逆序处理,训练了一个反向玲珑模型.将玲珑与其反向版本相结合,可以实现在下游任务中使用双向信息.多种自然语言处理下游任务的实验结果表明,玲珑具有不错的处理下游任务的能力.在6个数据集上玲珑超越了相近规模模型的性能,在5个数据集上超越了大模型的性能. 展开更多
关键词 中文预训练语言模型 小规模 基于汉字的模型 反向模型 双向信息
在线阅读 下载PDF
探索中文预训练模型的混合粒度编码和IDF遮蔽
2
作者 邵云帆 孙天祥 邱锡鹏 《中文信息学报》 CSCD 北大核心 2024年第1期57-64,共8页
目前大多数中文预训练语言模型采用字级别编码,因为字符级编码序列长而产生大量计算开销。词级别编码尽管能够缓解这一问题,但也会带来其他问题,如词典外词、数据稀疏等。针对中文不同粒度的编码,该文提出使用混合粒度编码的中文预训练... 目前大多数中文预训练语言模型采用字级别编码,因为字符级编码序列长而产生大量计算开销。词级别编码尽管能够缓解这一问题,但也会带来其他问题,如词典外词、数据稀疏等。针对中文不同粒度的编码,该文提出使用混合粒度编码的中文预训练模型。这一编码所用的词表在大规模预训练语料上得到,因此缓解了词典外词和数据稀疏问题。为了更进一步增强模型性能,该文提出了一种选择性的遮蔽语言建模训练策略——IDF遮蔽。这一策略基于词在大规模预训练语料上统计的逆文档频率。实验表明,与之前的中文预训练语言模型相比,该文所提出方法预训练的模型在多个中文自然语言数据集上取得了更好或相当的性能,并且能更高效地编码文本。 展开更多
关键词 中文预训练 混合粒度编码 IDF遮蔽
在线阅读 下载PDF
中文预训练模型研究进展 被引量:14
3
作者 侯钰涛 阿布都克力木·阿布力孜 哈里旦木·阿布都克里木 《计算机科学》 CSCD 北大核心 2022年第7期148-163,共16页
近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行建模和表示,但主流预训练模型大多针对英文领域。中文领域起步相对较晚,鉴于其在自然语言处理过程中的重要性,学术界和工业界都开展了广泛的研究,提出了众多... 近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行建模和表示,但主流预训练模型大多针对英文领域。中文领域起步相对较晚,鉴于其在自然语言处理过程中的重要性,学术界和工业界都开展了广泛的研究,提出了众多的中文预训练模型。文中对中文预训练模型的相关研究成果进行了较为全面的回顾,首先介绍预训练模型的基本概况及其发展历史,对中文预训练模型主要使用的两种经典模型Transformer和BERT进行了梳理,然后根据不同模型所属类别提出了中文预训练模型的分类方法,并总结了中文领域的不同评测基准,最后对中文预训练模型未来的发展趋势进行了展望。旨在帮助科研工作者更全面地了解中文预训练模型的发展历程,继而为新模型的提出提供思路。 展开更多
关键词 中文预训练模型 自然语言处理 词向量 处理 深度学习
在线阅读 下载PDF
融合对抗训练的中文GPT对话模型研究
4
作者 王伟 阮文翰 孟祥福 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2023年第3期378-384,共7页
在已清洗的中文会话数据集中进行预训练时存在对话模型泛化能力降低、微调后评价指标偏低的问题,为此采用对抗训练的方法,提出一种融合对抗训练的中文GPT对话模型。在微调过程中使用投影梯度下降法进行训练,使用Focal损失函数加快训练... 在已清洗的中文会话数据集中进行预训练时存在对话模型泛化能力降低、微调后评价指标偏低的问题,为此采用对抗训练的方法,提出一种融合对抗训练的中文GPT对话模型。在微调过程中使用投影梯度下降法进行训练,使用Focal损失函数加快训练速度。实验结果表明,融合对抗训练后,在有噪声的数据集微调和测试中,该模型与基线模型相比具有较强的抗干扰和泛化能力。 展开更多
关键词 生成对抗网络 投影梯度下降 对话生成 中文预训练对话模型 泛化能力
在线阅读 下载PDF
基于BERT—BiLSTM—CRF模型的中文岩石描述文本命名实体与关系联合提取 被引量:10
5
作者 陈忠良 袁峰 +1 位作者 李晓晖 张明明 《地质论评》 CAS CSCD 北大核心 2022年第2期742-750,共9页
地质调查正在从“数字化”走向“智能化”,需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取。地学命名实体和关系联合提取是当前研究的难点和核心。本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—... 地质调查正在从“数字化”走向“智能化”,需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取。地学命名实体和关系联合提取是当前研究的难点和核心。本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—CRF方法开展岩石描述文本命名实体与关系联合提取。首先,通过收集数字地质填图工作中的剖面测量和路线地质观测数据,建立岩石描述语料;然后,在岩石学理论指导下分析岩石知识组成,完成岩石知识图谱命名实体与关系的模式设计,标注岩石语料;最后,开展岩石描述语料知识提取的深度学习训练和消融试验对比。试验结果显示,大规模预训练中文语言模型(BERT)对岩石描述语料知识提取具有较高的适用性。推荐的BERT—BiLSTM—CRF模型方法对岩石命名实体与关系联合提取的准确率(F1值)为91.75%,对岩石命名实体识别的准确率(F1值)为97.38%。消融试验证明基于BERT的词嵌入层对岩石描述知识提取的性能提升影响显著,双向长短时记忆网络模型层(BiLSTM Layer)能提升实体关系联合提取性能。 展开更多
关键词 大数据思维 深度学习 训练中文语言模型 命名实体识别 关系提取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部