-
题名基于联邦学习的BERT模型高效训练框架
- 1
-
-
作者
王鑫澳
陈珂
寿黎但
骆歆远
陈刚
-
机构
区块链与数据安全全国重点实验室(浙江大学)
-
出处
《软件学报》
北大核心
2025年第9期4110-4133,共24页
-
基金
浙江省“尖兵”计划(2024C01021)。
-
文摘
高质量的训练数据对于预训练语言模型(PLM)至关重要,但许多专业领域的数据因隐私问题而无法集中收集用于模型训练.借助联邦学习,可以在保护数据隐私的前提下完成模型训练.然而,联邦学习的客户端通常资源有限,无法完成预训练语言模型的训练.针对这一问题进行深入研究.首先,明确定义在资源有限前提下完成模型训练的问题,通过调整计算开销与通信开销来优化模型的训练效果.其次,介绍一种适用于联邦学习环境下的BERT模型高效训练框架——FedBT.该框架旨在实现BERT模型在联邦学习客户端上的训练,涵盖进一步预训练和下游任务微调两种场景.FedBT适应不同的应用场景,在客户端针对BERT模型的关键参数进行训练,并仅将更新的参数上传至服务器进行聚合.这种方法显著减少模型训练过程中的计算和通信成本.最后,在多个专业领域的数据集上进行充分的实验对比,进一步预训练场景下,FedBT框架可以降低客户端的训练开销与通信开销至原来的34.31%和7.04%,下游任务微调场景下,FedBT框架可以降低客户端的训练开销与通信开销至原来的48.26%和20.19%,并且均实现同传统联邦学习训练完整模型接近的精确度.
-
关键词
联邦学习
预训练语言模型
进一步预训练
下游任务微调
-
Keywords
federated learning
pre-trained language model(PLM)
further pre-training
downstream fine-tuning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向煤矿安全隐患文本的预训练语言模型构建
- 2
-
-
作者
李泽荃
刘飞翔
赵嘉良
祁慧
李靖
-
机构
华北科技学院河北省矿山智能化开采技术重点实验室
华北科技学院矿山安全学院
华北科技学院经济管理学院
中国矿业大学(北京)能源与矿业学院
-
出处
《矿业安全与环保》
北大核心
2025年第3期185-192,共8页
-
基金
中央高校基本科研业务费项目(3142017107)
廊坊市科技计划项目(2023029061)。
-
文摘
煤矿各类安全管理信息化平台积累的大量非结构化文本数据目前并没有得到充分利用。为充分挖掘煤矿安全隐患文本知识,提出一种基于领域术语掩码语言建模(DP-MLM)和句子顺序预测建模(SOP)学习机制的煤矿安全领域预训练语言模型(CoalBERT)。利用收集到的110万余条煤矿隐患排查记录数据和自构建的1 328个领域术语词典进行模型训练,并在煤矿安全隐患文本分类和命名实体识别2个任务上分别进行对比实验。研究结果表明:在文本分类实验中,CoalBERT模型总体结果的精准率、召回率和综合评价指标F_(1)值较双向编码器表征法预训练模型(BERT)分别提高0.34%、0.21%、0.27%;在命名实体识别实验中,CoalBERT模型的精准率和F_(1)值较BERT模型分别提高3.84%、2.13%。CoalBERT模型能够有效提升煤矿安全隐患文本语义理解能力,可为煤矿安全领域文本挖掘相关任务场景提供基础参考。
-
关键词
BERT模型
煤矿安全隐患文本
文本分类
命名实体识别
预训练模型
任务微调
-
Keywords
BERT model
coal mine safety hidden danger text
text classification
named entity recognition
pre-training model
task fine-tuning
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TD79
[矿业工程—矿井通风与安全]
-