format-consistency

#format-consistency

评判电路

arXiv cs.CL ↗ · 22小时前缓存

本文研究了LLM-as-a-judge的内部机制，发现模型在中期到后期的多层感知机（MLP）中共享一个稀疏的潜在评估器子图，该子图处理抽象评判，而格式特定的终端分支将评判映射到输出令牌，揭示了格式导致的不一致性的原因。

0 人收藏 0 人点赞