weak-to-strong

标签

Cards List
#weak-to-strong

弱批评者造就强学习者:面向可扩展监督的在线策略批评蒸馏

arXiv cs.AI · 2026-06-02 缓存

提出使用弱模型作为批评者的在线策略批评蒸馏(OPCD),为强模型提供修正方向,从而增强推理能力和对齐,无需弱模型解决任务。

0 人收藏 0 人点赞
#weak-to-strong

通过错配的错误草稿实现弱到强诱发

arXiv cs.CL · 2026-05-19 缓存

本文提出了一种方法,利用较弱模型提供的错配错误草稿,通过GRPO在较强学习器中引发更优推理,在Mathstral-7B上的MATH-500和AIME基准测试中取得了最先进的结果。

0 人收藏 0 人点赞
#weak-to-strong

@dair_ai: 值得一读的新论文。GPT-5.4 nano 加上 critic-comparator 编排循环在 SWE-bench Verified 上达到 76.4%,匹配…

X AI KOLs Following · 2026-05-18 缓存

一篇新论文表明,使用一个弱模型,通过 k=8 个提议和 critic-comparator 选择循环,可以在 SWE-bench Verified 上匹配前沿模型的性能,达到 76.4% 的准确率。关键见解是,正确的补丁通常已经存在于弱模型的前 k 个候选补丁中,挑战在于如何利用执行验证进行有效选择。

0 人收藏 0 人点赞
#weak-to-strong

@AnthropicAI: Anthropic Fellows 的最新研究:开发自动化对齐研究员。我们进行了一项实验,以了解 Cla…

X AI KOLs · 2026-04-14

Anthropic Fellows 的研究展示了一项使用 Claude Opus 4.6 加速对齐研究的实验,该研究关注弱到强监督,探索较弱的 AI 模型是否能在训练过程中有效监督较强的模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈