标签
VeriEvol是一个新颖的框架,用于在视觉数学推理中扩展强化学习,通过一个双轴方法来确保可靠的奖励标签,该双轴方法将提示难度与答案可靠性分离,使用进化算子和假设检验验证。它在五个基准的视觉数学测试集上取得了显著的准确率提升。
本文发现,经过过滤和标注流水线处理的自我中心人类视频,在预训练具身基础模型时可以超越遥操作真实机器人数据,在真实机器人任务上实现了更低的验证损失和更高的成功率。
文章质疑为何OpenAI和Anthropic等前沿AI实验室不公开其训练数据规模,暗示模型性能提升可能源于数据量而非真正的智能。
本文提出,真实数据扩展规律受潜在预测贡献谱的渐进覆盖支配,而非仅由词元频率尾部决定,并利用文本语料的后缀自动机表示提供了经验证据。
FrontierSmith 是一个系统,能够从封闭式任务中规模化地合成开放式编程问题。它生成、过滤并构建训练环境;使用其数据训练的模型在表现上优于使用人类策划的开放式数据训练的模型。