llm-as-a-judge

#llm-as-a-judge

评判电路

arXiv cs.CL ↗ · 22小时前缓存

本文研究了LLM-as-a-judge的内部机制，发现模型在中期到后期的多层感知机（MLP）中共享一个稀疏的潜在评估器子图，该子图处理抽象评判，而格式特定的终端分支将评判映射到输出令牌，揭示了格式导致的不一致性的原因。

0 人收藏 0 人点赞

#llm-as-a-judge

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

arXiv cs.CL ↗ · 6天前缓存

This article introduces Magis-Bench, a benchmark for evaluating large language models on magistrate-level legal tasks such as judicial reasoning and sentence drafting, using data from Brazilian judicial exams.

0 人收藏 0 人点赞

#llm-as-a-judge

@ArizePhoenix：谁来评判评估者？当你使用LLM作为评判者时，你正在信任一个模型来决定你的代理、工作流……

X AI KOLs Following ↗ · 2026-05-07

本文讨论了使用Arize Phoenix调试和评估LLM评判者所面临的挑战，Arize Phoenix通过OpenTelemetry追踪评估者运行过程，以检查决策逻辑、成本和潜在偏差。

0 人收藏 0 人点赞

llm-as-a-judge

评判电路

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

@ArizePhoenix：谁来评判评估者？当你使用LLM作为评判者时，你正在信任一个模型来决定你的代理、工作流……

提交意见反馈