近年来,大语言模型(large language model,LLM)(以下简称“大模型”)的流行在众多领域带来了重大影响,特别是它们的开放式生态系统,如应用程序接口、开源模型和插件.然而,尽管大模型已经广泛部署,对其潜在风险进行深入讨论与分析的研究...近年来,大语言模型(large language model,LLM)(以下简称“大模型”)的流行在众多领域带来了重大影响,特别是它们的开放式生态系统,如应用程序接口、开源模型和插件.然而,尽管大模型已经广泛部署,对其潜在风险进行深入讨论与分析的研究仍然普遍缺乏.在这种情况下,针对大模型系统的鲁棒性、一致性和可信性进行一项初步但具有开创性的研究.由于大模型时代的许多文献都尚未被实证,提出了一个自动化的工作流,用以应对不断增长的查询和响应.总体而言,对包括ChatGPT,LLaMA,OPT在内的主流大模型进行了100多万次查询.工作流程的核心是一个数据原语,然后是一个自动解释器,它在不同的对抗性度量系统下评估这些大模型.最终,从这一主流社区中得出了几个十分不同寻常的结论(一定程度上不太乐观).简而言之,这些结论包括:1)用户生成的查询输入中的微小但不可避免的错误可能偶然地导致大模型的意外响应;2)大模型在处理语义相似的查询时具有较差的一致性.此外,还附带发现ChatGPT即使在输入受到极端污染的情况下仍然能够产生正确的答案.这一现象虽然表明了大模型的强大记忆力,但也引发了人们对在学术发展中使用大模型参与评估的严重关切.为了解决这一问题,提出了一个与数据集相关联的新指标,该指标大致决定了基于这些数据对大模型进行评估的可行性.最后进行了广泛的实证研究,以支持上述主张.展开更多
文摘近年来,大语言模型(large language model,LLM)(以下简称“大模型”)的流行在众多领域带来了重大影响,特别是它们的开放式生态系统,如应用程序接口、开源模型和插件.然而,尽管大模型已经广泛部署,对其潜在风险进行深入讨论与分析的研究仍然普遍缺乏.在这种情况下,针对大模型系统的鲁棒性、一致性和可信性进行一项初步但具有开创性的研究.由于大模型时代的许多文献都尚未被实证,提出了一个自动化的工作流,用以应对不断增长的查询和响应.总体而言,对包括ChatGPT,LLaMA,OPT在内的主流大模型进行了100多万次查询.工作流程的核心是一个数据原语,然后是一个自动解释器,它在不同的对抗性度量系统下评估这些大模型.最终,从这一主流社区中得出了几个十分不同寻常的结论(一定程度上不太乐观).简而言之,这些结论包括:1)用户生成的查询输入中的微小但不可避免的错误可能偶然地导致大模型的意外响应;2)大模型在处理语义相似的查询时具有较差的一致性.此外,还附带发现ChatGPT即使在输入受到极端污染的情况下仍然能够产生正确的答案.这一现象虽然表明了大模型的强大记忆力,但也引发了人们对在学术发展中使用大模型参与评估的严重关切.为了解决这一问题,提出了一个与数据集相关联的新指标,该指标大致决定了基于这些数据对大模型进行评估的可行性.最后进行了广泛的实证研究,以支持上述主张.