看这个视频之前我直观上以为应该让LLM帮忙打1-100的分数，但-20250224235650（微信文章未删减版）

正文

2025-02-24 23:56
本条微博链接

看这个视频之前我直观上以为应该让LLM帮忙打1-100的分数，但实际上LLM更适合做分类的事情，比如评估的答案"对"或者"不对"。LLM很难理解1-100的分数值代表什么，特别是每次的评估过程还是单独执行的。上一次LLM打出的58分，和下一次LLM打出的59分，很难说谁更好。

吴恩达的《评估AI 代理》（

网页链接）中介绍了 LLM as a Judge：大模型评估AI Agent，3分钟精华版带你了解最基本的概念和使用原则↓

定义与原理：

LLM as a Judge（大模型评估大AI Agent）是指利用大型语言模型（LLM）的高级文本理解和生成能力，来评估、判断或决策特定任务或问题，类似于一个裁判在竞赛中的作用。其核心是通过一个LLM对AI Agent的过程和输出进行评估，从而实现高效、低成本且一致的评估。

优势：

1. 高效性：LLM可以快速处理大量数据，比人类评估更高效。
2. 一致性：LLM能够保持一致的评估标准，减少人类评估中的主观性。
3. 可扩展性：适用于大规模评估任务，特别是在需要快速反馈的场景中。

#ai创造营##deepseek##科技#

黄建同学的微博视频