-
题名大模型安全检测评估技术综述
- 1
-
-
作者
胡斌
黑一鸣
吴铁军
郑开发
刘文忠
-
机构
华中科技大学计算机科学与技术学院
中国信息通信研究院人工智能研究所
东南大学计算机科学与工程学院
浙江大学计算机科学与技术学院
北京神州绿盟科技有限公司
北京理工大学计算机学院
-
出处
《信息网络安全》
北大核心
2025年第10期1477-1492,共16页
-
基金
国家重点研发计划[2022YFB3104900]
北京市高层次创新创业人才支持计划科技新星计划[20250484975]
山东省自然科学基金[ZR2024MF084]。
-
文摘
随着人工智能技术快速发展,大语言模型(LLM)凭借其强大的自然语言处理能力已在科研、教育、金融、医疗等许多领域崭露头角。然而,在LLM被广泛使用的过程中,伴随一系列安全问题:如存在偏见、歧视的风险,存在生成有害内容的风险,存在泄露用户隐私信息的风险,存在信息误导性传播的风险以及容易受到恶意对抗攻击等安全风险。上述风险可能对用户造成损害,甚至影响社会稳定及伦理秩序,因此需要对LLM进行全面安全检测评估。文章针对目前关于LLM安全性检测评估的相关研究内容,归纳总结常见的安全风险类型,并对已提出的主流安全检测评估技术或方法进行综述,同时介绍相关评估方法、评估指标、常用数据集和工具,归纳国内外关于大模型安全评估出台的重要参考标准、规范。此外,文章还讨论了安全对齐的技术理念、原理、功能实现机制及安全对齐技术评价体系。最后,通过分析当前LLM安全检测评估面临的问题,展望未来技术发展趋势和研究方向,旨在为学术界、产业界的相关研究和实践提供参考。
-
关键词
大语言模型
检测评估
安全风险
评估标准
对抗攻击
-
Keywords
LLM
detection and evaluation
security risks
evaluation standards
adversarial attacks
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-