期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于反馈的大语言模型内容与行为对齐方法综述
1
作者 张钰莹 云静 +1 位作者 刘雪颖 史晓国 《计算机工程与应用》 北大核心 2025年第20期75-104,共30页
近年来,大语言模型在一系列任务中展现了卓越的自然语言理解、生成与推理能力。然而,为了确保其输出符合人类预设标准,对齐成为关键的解决方式。针对“内容对齐”和“行为对齐”两大核心目标,从概念框架、技术实现到评估方法进行了系统... 近年来,大语言模型在一系列任务中展现了卓越的自然语言理解、生成与推理能力。然而,为了确保其输出符合人类预设标准,对齐成为关键的解决方式。针对“内容对齐”和“行为对齐”两大核心目标,从概念框架、技术实现到评估方法进行了系统综述。明确了获取反馈的来源、格式及其使用目的,建立了基于反馈对齐的概念框架。按照大模型训练、推理和生成的顺序总结了现有的基于反馈对齐的方法。之后回顾了评估大模型的基本技术指标,以及相关的数据集与基准。总结了基于反馈的对齐方法在提升大语言模型性能方面的潜力,以及当前面临的重大挑战和关键问题。 展开更多
关键词 大语言模型(LLMs) AI对齐 内容安全 评估基准
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部