期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
影响预训练语言模型数据泄露的因素研究
1
作者 钱汉伟 彭季天 +4 位作者 袁明 高光亮 刘晓迁 王群 朱景羽 《信息安全研究》 北大核心 2025年第2期181-188,共8页
当前广泛使用的预训练语言模型是从海量训练语料中学习通用的语言表示.自然语言处理领域的下游任务在使用预训练语言模型后性能得到显著提升,但是深度神经网络过拟合现象使得预训练语言模型可能存在泄露训练语料隐私的风险.选用T5,GPT-2... 当前广泛使用的预训练语言模型是从海量训练语料中学习通用的语言表示.自然语言处理领域的下游任务在使用预训练语言模型后性能得到显著提升,但是深度神经网络过拟合现象使得预训练语言模型可能存在泄露训练语料隐私的风险.选用T5,GPT-2,OPT等广泛使用的预训练语言模型作为研究对象,利用模型反演攻击探索影响预训练语言模型数据泄露的因素.实验过程中利用预训练语言模型生成大量样本,以困惑度等指标选取最有可能发生数据泄露风险的样本进行验证,证明了T5等不同模型均存在不同程度的数据泄露问题;同一种模型,模型规模越大数据泄露可能性越大;添加特定前缀更容易获取泄露数据等问题.对未来数据泄露问题及其防御方法进行了展望. 展开更多
关键词 自然语言处理 预训练语言模型 隐私数据泄露 模型反演攻击 模型架构
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部