大语言模型(Large Language Models, LLMs)在多种自然语言处理(Natural Language Processing, NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个...大语言模型(Large Language Models, LLMs)在多种自然语言处理(Natural Language Processing, NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。展开更多
Web服务器的性能评测是Web服务容量规划和服务部署中的重要问题.针对目前方法在评测实际应用场景中的不足,根据峰值负载之前响应时间与用户请求量存在的指数关系,提出Web服务器性能评测模型MBRT(Web Server performance evaluation Mode...Web服务器的性能评测是Web服务容量规划和服务部署中的重要问题.针对目前方法在评测实际应用场景中的不足,根据峰值负载之前响应时间与用户请求量存在的指数关系,提出Web服务器性能评测模型MBRT(Web Server performance evaluation Model Based on Response Time),根据响应时间建模可以避免分析的不全面,有效的避免传统模型的局限性,然后基于MBRT提出具体评测方法,同时使用一元线性回归模型的显著性特征验证MBRT的准确性.最后为了显示MBRT的有效性和高效性,在Web服务器实际评测环境中对MBRT进行验证和评估,并与已有模型进行比较.展开更多
文摘大语言模型(Large Language Models, LLMs)在多种自然语言处理(Natural Language Processing, NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。
文摘Web服务器的性能评测是Web服务容量规划和服务部署中的重要问题.针对目前方法在评测实际应用场景中的不足,根据峰值负载之前响应时间与用户请求量存在的指数关系,提出Web服务器性能评测模型MBRT(Web Server performance evaluation Model Based on Response Time),根据响应时间建模可以避免分析的不全面,有效的避免传统模型的局限性,然后基于MBRT提出具体评测方法,同时使用一元线性回归模型的显著性特征验证MBRT的准确性.最后为了显示MBRT的有效性和高效性,在Web服务器实际评测环境中对MBRT进行验证和评估,并与已有模型进行比较.