elicitation

#elicitation

自我评估已然存在：用极少数据激发基础大语言模型中的潜在评判校准

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

本文介绍了自我评估激发（SEE）方法，该方法通过校准耦合的强化学习和掩码蒸馏，用极少数据激发基础大语言模型中的潜在评判校准，在保持答案质量的同时提升了跨基准的校准效果。

0 人收藏 0 人点赞

#elicitation

arXiv cs.CL ↗ · 2026-05-19 缓存

本文提出了一种方法，利用较弱模型提供的错配错误草稿，通过GRPO在较强学习器中引发更优推理，在Mathstral-7B上的MATH-500和AIME基准测试中取得了最先进的结果。

0 人收藏 0 人点赞