期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
大语言模型安全性:分类、评估、归因、缓解、展望
被引量:
2
1
作者
黄河燕
李思霖
+7 位作者
兰天伟
邱昱力
柳泽明
姚嘉树
曾理
单赢宇
施晓明
郭宇航
《智能系统学报》
北大核心
2025年第1期2-32,共31页
大语言模型能够在多个领域及任务上给出与人类水平相当的解答,并且在未经训练的领域和任务上展现了丰富的涌现能力。然而,目前基于大语言模型的人工智能系统存在许多安全性隐患,例如大语言模型系统容易受到难以被察觉的攻击,模型生成的...
大语言模型能够在多个领域及任务上给出与人类水平相当的解答,并且在未经训练的领域和任务上展现了丰富的涌现能力。然而,目前基于大语言模型的人工智能系统存在许多安全性隐患,例如大语言模型系统容易受到难以被察觉的攻击,模型生成的内容存在违法、泄密、仇恨、偏见、错误等问题。并且在实际应用中,大语言模型可能被滥用,生成的内容可能引起国家、人群和领域等多个层面的困扰。本文旨在深入探讨大语言模型面临的安全性风险并进行分类,回顾现有的评估方法,研究安全性风险背后的因果机制,并总结现有的解决措施。具体而言,本文明确了大语言模型面临的10种安全性风险,并将其归类为模型自身安全性风险与生成内容的安全性风险两个方面,并对每种风险进行了详细的分析和讲解。此外,本文还从生命周期和危害程度两个角度对大语言模型的安全风险进行了系统化的分析,并介绍了现有的大语言模型安全风险评估方法、大语言模型安全风险的出现原因以及相应的缓解措施。大语言模型的安全风险是亟待解决的重要问题。
展开更多
关键词
大语言模型
模型自身
安全性
生成内容安全性
安全性
分类
安全性
风险评估
安全性
风险归因
安全性
风险缓解措施
安全性
研究展望
在线阅读
下载PDF
职称材料
题名
大语言模型安全性:分类、评估、归因、缓解、展望
被引量:
2
1
作者
黄河燕
李思霖
兰天伟
邱昱力
柳泽明
姚嘉树
曾理
单赢宇
施晓明
郭宇航
机构
北京理工大学计算机学院
北京航空航天大学计算机学院
哈尔滨工业大学计算机学院社会计算与信息检索研究中心
出处
《智能系统学报》
北大核心
2025年第1期2-32,共31页
基金
国家自然科学基金项目(U21B2009)
科技创新2030-“新一代人工智能”重大项目(2020AAA0106601).
文摘
大语言模型能够在多个领域及任务上给出与人类水平相当的解答,并且在未经训练的领域和任务上展现了丰富的涌现能力。然而,目前基于大语言模型的人工智能系统存在许多安全性隐患,例如大语言模型系统容易受到难以被察觉的攻击,模型生成的内容存在违法、泄密、仇恨、偏见、错误等问题。并且在实际应用中,大语言模型可能被滥用,生成的内容可能引起国家、人群和领域等多个层面的困扰。本文旨在深入探讨大语言模型面临的安全性风险并进行分类,回顾现有的评估方法,研究安全性风险背后的因果机制,并总结现有的解决措施。具体而言,本文明确了大语言模型面临的10种安全性风险,并将其归类为模型自身安全性风险与生成内容的安全性风险两个方面,并对每种风险进行了详细的分析和讲解。此外,本文还从生命周期和危害程度两个角度对大语言模型的安全风险进行了系统化的分析,并介绍了现有的大语言模型安全风险评估方法、大语言模型安全风险的出现原因以及相应的缓解措施。大语言模型的安全风险是亟待解决的重要问题。
关键词
大语言模型
模型自身
安全性
生成内容安全性
安全性
分类
安全性
风险评估
安全性
风险归因
安全性
风险缓解措施
安全性
研究展望
Keywords
large language model
model safety
generated content safety
safety classification
safety risk evaluation
safety risk attribution
safety risk mitigation measures
safety research prospect
分类号
TP39 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
大语言模型安全性:分类、评估、归因、缓解、展望
黄河燕
李思霖
兰天伟
邱昱力
柳泽明
姚嘉树
曾理
单赢宇
施晓明
郭宇航
《智能系统学报》
北大核心
2025
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部