大语言模型(large language model,LLM)评测应包含于科学评价体系之中,探究大语言模型评测相关概念内涵,理析其研究现状、应用、局限和趋势,以期推动大语言模型评测研究与应用。本文探讨大语言模型评测相关概念内涵,全面追踪现有关大语...大语言模型(large language model,LLM)评测应包含于科学评价体系之中,探究大语言模型评测相关概念内涵,理析其研究现状、应用、局限和趋势,以期推动大语言模型评测研究与应用。本文探讨大语言模型评测相关概念内涵,全面追踪现有关大语言模型评测的研究进展,运用归纳法对现有研究进行分类,分析大语言模型评测研究的现状、应用、局限及发展趋势。研究发现,评测基准已达上百种,涉及大语言模型的理解与生成、知识、伦理安全、多模态等多方面能力。相关研究聚焦评测大语言模型的通用能力,并不断向垂直领域拓展,但目前存在评测体系亟待建立、数据集丰富度不足、评测方法单一等局限。建立科学统一的评价体系、开展多模态评测研究、拓展垂直领域应用评测、与用户研究相结合将成为未来大语言模型评测的前沿课题。展开更多
文摘大语言模型(large language model,LLM)评测应包含于科学评价体系之中,探究大语言模型评测相关概念内涵,理析其研究现状、应用、局限和趋势,以期推动大语言模型评测研究与应用。本文探讨大语言模型评测相关概念内涵,全面追踪现有关大语言模型评测的研究进展,运用归纳法对现有研究进行分类,分析大语言模型评测研究的现状、应用、局限及发展趋势。研究发现,评测基准已达上百种,涉及大语言模型的理解与生成、知识、伦理安全、多模态等多方面能力。相关研究聚焦评测大语言模型的通用能力,并不断向垂直领域拓展,但目前存在评测体系亟待建立、数据集丰富度不足、评测方法单一等局限。建立科学统一的评价体系、开展多模态评测研究、拓展垂直领域应用评测、与用户研究相结合将成为未来大语言模型评测的前沿课题。