ICLR 2025 | 场景感知的多维度大模型评估器（微信文章未删减版）

正文

本文提出SaMer，一种场景感知的多维度评估器，可对大模型生成的响应进行细粒度、可解释的评估。SaMer动态识别并优先考虑不同query场景的关键维度，相比固定维度方法，更具情境敏感性。实验表明，SaMer在单一评分与成对比较任务上优于现有基准，并通过维度级得分和权重提供透明评估。

论文题目：
SaMer: A Scenario-aware Multi-dimensional Evaluator for Large Language Models
论文链接：
https://openreview.net/forum?id=aBnVU5DL3I
代码链接：
https://github.com/Irving-Feng/SaMer/

一、引言

在开放式的自然语言生成任务中，评估大型语言模型（LLMs）的响应质量是一项重大挑战，主要原因在于“质量”的主观性和多维性。现有的LLM评估方法大多采用固定维度的评估标准，无法根据具体场景灵活调整，导致难以满足不同类型问题的需求。

为了解决这一问题，我们提出了SaMer，一个场景感知的多维度评估器，旨在通过自动识别与用户query相关的评估维度，动态调整评估标准，以适应不同场景的需求。我们首先构建了一个大规模细粒度偏好数据集，涵盖多个真实场景及其特定的评估维度。然后，我们设计了包含文本嵌入模型与三个专用模块的模型架构，用于维度预测、质量评分和权重融合。最后，通过一个多步骤训练阶段，SaMer可以提供准确性高、解释性强、细粒度的评估。

实验结果表明，SaMer在8个单独评分和成对比较benchmark上的表现均优于现有基线方法，展现出其在多样化评估任务中的鲁棒性和适应性。此外，SaMer的细粒度和场景感知能力为LLM的响应评估提供了更高的透明度和灵活性，支持更广泛的实际应用。

二、数据构建

如图所示，我们通过定义场景和评估维度、收集pairwise偏好数据、标注细粒度偏好等三个步骤构建了一个包含广泛场景的细粒度偏好数据集。

1. 场景和评估维度定义

场景：我们从人类需求的角度定义了 36 种情景，根据马斯洛需求理论的层次结构将它们分为五种主要类型：安全、社会、认知、审美和自我实现需求。我们从现有工作中总结了42个评估常用维度，聘请三位有丰富经验的研究生为每个场景所需的评估维度进行标注。

2. pairwise偏好数据集构建

我们从多个开源数据集获取了种子数据，具体统计值见下表：

然后，我们训练了一个场景分类器，通过输入的query，场景分类器将种子数据进行场景分类。最后，我们为每个场景采样2K~5K的数据，使得所有场景的数据比例相似。这一步共获得135,402条样本。

3. 细粒度偏好数据标注

基于场景标签和场景的特定评估维度，我们利用GPT-4o来执行细粒度的偏好注释。对于每个样本，考虑到LLM执行成对比较比单实例评估更可靠，我们指示 GPT-4o 只关注指定的维度，仔细比较两个模型生成的响应并选择更好的一个或宣布平局。

三、模型与训练

如图所示，模型的架构与训练目标共包含三个部分：

1. 通过多标签分类进行维度预测

我们首先致力于让SaMer自适应地预测每个输入query应该考虑哪些维度。这可以建模为一个多标签分类任务，即从42个维度标签中选择个所需维度。我们构建了一个42维的MLP作为维度预测层，用于预测维度标签。我们使用ZLPR (Zero-bounded Log-sum-exp & Pairwise Rank-based)损失训练。

2. 通过偏好学习进行多维评分

我们然后利用构建的细粒度偏好数据实现多维度评分。具体来说，对于每个特定维度，我们有一个排名，例如代表回复A好于B。我们构建了一个42维的MLP作为评分层，用于为各个维度打分，并使用ranking loss进行训练。特别地，我们mask了每个样本的无关维度，只训练所需维度。

3. 通过权重融合进行综合评分

要获得总体评估分数，一种简单的方法是线性组合所有维度分数，但这忽略了每个维度的贡献在不同的评估场景中会有所不同的事实。所以，我们加入了权重预测层，用于预测每个维度的权重，然后对每个维度的分数进行加权平均。我们使用ranking loss进行训练，并冻结了和的参数。

最后，我们将上述三个模块插入到一个冻结的预训练LLM（即，ArmoRM，一个基于Llama3-8B的奖励模型）后。由LLM提供文本编码后，分别由三个MLP层预测维度、评分和权重，最后进行加权平均得到最终的评分。

四、实验分析

1. 单响应评分

我们在Vicuna Bench、FLASK Eval、Feedback Bench上评估了SaMer对单个响应输出的质量评分与人类标注之间的相关性。结果表明，SaMer在三个benchmark上表现出显著的改进，特别是在FLASK Eval中。值得注意的是，SaMer的表现与专有模型（包括GPT-4o/4o-mini和Claude3.5-Sonnet）相当，甚至超过了这些模型。不过，可以观察到大多数模型在Vicuna Bench和FLASK上的相关系数并未超过0.5，这表明这些基准的挑战性以及将模型评估与人类评分对齐的复杂性。

2. 成对比较

在成对比较任务中，SaMer在15个任务中取得了9个任务最佳的表现，并在剩余的6个任务中在开源模型中排名第二。这在一定程度上可以归因于强大的ArmoRM backbone网络（它在多个任务中也取得了领先的结果）。然而，正如SaMer在AlpacaEval上的显著改进，我们强调了我们策略足够有效。尽管专有模型在这些评估中通常优于所有开源模型，SaMer通过在多个任务中接近专有模型的表现，展示了其竞争力，突显了其强大的适应性。

3. 细粒度成对比较

在细粒度比较任务中，结果显示大多数评估器的维度级偏好比较准确率通常低于整体准确率，这突显了在特定维度上准确评估响应的挑战。

一个有趣的观察是，与其7B版本相比，Llama-2-13B-Chat的表现下降，表明增加模型参数并不一定会带来更好的细粒度评估能力。相比之下，SaMer取得了显著的改进，维度级准确率提高了10.7，整体准确率提高了15.7，较Llama-3-8B-Inst（SaMer的原始backbone）而言。此外，与专有模型相比，SaMer在性能上超越了GPT-4o-mini和Claude-3.5Sonnet。这个结果突显了我们训练方法在提升多维度、情境感知评估方面的强大和有效性。

此外，SaMer展示了场景感知的适应性，能够对于可能没有明确场景标签的query有效地选择适当的评估维度。上图展示了SaMer在三种不同情境下分配的权重：创意写作、数学推理和法律文件写作。这些权重指示了每个维度在评估过程中的相对重要性。在创意写作中，SaMer 将创造力维度赋予最高重要性，其次是逻辑、相关性、无害性和风格，这与创意写作的基本属性密切相关。相反，在数学推理中，重点转向推理过程和结果，逻辑、准确性、清晰度和逐步解释成为主要维度。在评估法律文件写作情境时，逻辑被确定为最关键的维度，其次是无害性和清晰度，反映了法律写作的独特要求。

五、总结

在这项工作中，我们提出了SaMer，一种场景感知的多维度评估器，旨在提供对大型语言模型生成的响应的细粒度和可解释的评估。通过动态识别和优先考虑不同query场景的相关评估维度，SaMer能够相比传统的固定维度方法提供更细致和具有情境敏感性的评估。在单一评分和成对比较基准上的广泛实验验证了该模型的适应性，结果显示SaMer在性能上超过了现有基准，同时通过详细的维度级得分和权重提供透明且可解释的评估。

作者：冯科华
来源：公众号【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文