-
题名大语言模型安全的技术治理:对抗测试与评估审计
被引量:2
- 1
-
-
作者
周辉
郭烘佑
-
机构
中国社会科学院法学研究所
中国社会科学院大学法学院
-
出处
《西安交通大学学报(社会科学版)》
北大核心
2025年第2期78-88,共11页
-
基金
中国社会科学院学科建设“登峰战略”资助计划项目(DF2023XXJC07)。
-
文摘
人工智能大语言模型在提供跨任务和跨领域泛化性能的同时,由于数据驱动和技术复杂等原因产生了多重风险,增加了企业和个人面临的安全威胁,并带来了伦理和法律问题。以对抗测试和评估审计为核心的技术治理能够有效辨识和缓解安全漏洞及风险,为大语言模型的安全应用提供了关键保障。但是,目前缺少充足的算力保障、技术治理流程和标准缺乏统一性、平台技术治理易受商业利益影响等困境影响了技术治理方案的稳步实施。从优化技术治理框架、鼓励安全治理技术创新、明确流程与标准、构建多方参与的监督机制等方面提出完善安全技术治理机制的建议,以确保大语言模型的稳定与安全运行。
-
关键词
人工智能
大语言模型
安全风险
技术治理
对抗测试
评估审计
-
Keywords
artificial intelligence
large language models
security risk
technical governance
red teaming
evaluation audits
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于多目标演化优化的SVM对抗仿真测试算法
- 2
-
-
作者
李飞行
邢立宁
周宇
-
机构
中国飞行试验研究院
西安电子科技大学电子工程学院
-
出处
《系统仿真学报》
CAS
CSCD
北大核心
2024年第9期2016-2031,共16页
-
基金
陕西省重点科技创新团队项目(2023-CX-TD-07)
陕西省重点研发计划(2024GH-ZDXM-48)。
-
文摘
机器学习通常从数据中挖掘潜在的模式与规则,容易受到数据的影响而产生诸如过拟合、欠拟合等现象,进而影响学习模型的泛化与鲁棒性能。从对抗仿真测试的角度考察SVM可能存在的脆弱不稳定性,采用的对抗仿真策略是通过选择性地污染训练样本标签,模拟攻击SVM分类器使其性能退化,以测试其对训练样本的依赖性。为探究SVM分类器在不同样本组合攻击下的性能损失上限,设计了最小攻击代价-最大攻击成效这一对矛盾目标,构建了SVM仿真测试的多目标优化模型。该模型本质上是一种典型的多目标组合优化问题,可采用适当的多目标演化算法求解目标间的一组非支配解集,揭示分类器在不同样本组合攻击下的分类性能表现。在人工及真实数据集上的仿真对比实验结果表明:所提方法能够一次性生成不同攻击水平下的最优攻击样本组合,取得最大的分类性能损失,更能全面测试SVM分类器性能的稳定性。
-
关键词
对抗仿真测试
污染标签
支持向量机
性能损失
多目标优化
非支配解集
-
Keywords
adversarial simulation testing
label contamination
SVM
performance degradation
multiobjective optimization
non-dominated solutions
-
分类号
TP306.2
[自动化与计算机技术—计算机系统结构]
-