elicitation

标签

Cards List
#elicitation

自我评估已然存在:用极少数据激发基础大语言模型中的潜在评判校准

Hugging Face Daily Papers · 2026-06-03 缓存

本文介绍了自我评估激发(SEE)方法,该方法通过校准耦合的强化学习和掩码蒸馏,用极少数据激发基础大语言模型中的潜在评判校准,在保持答案质量的同时提升了跨基准的校准效果。

0 人收藏 0 人点赞
#elicitation

通过错配的错误草稿实现弱到强诱发

arXiv cs.CL · 2026-05-19 缓存

本文提出了一种方法,利用较弱模型提供的错配错误草稿,通过GRPO在较强学习器中引发更优推理,在Mathstral-7B上的MATH-500和AIME基准测试中取得了最先进的结果。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈