标签
SPEAR 是一个代码增强的智能体提示优化器,它利用 Python 沙箱进行结构错误分析,在包括工业裁判任务、BBH 和 GSM8K 在内的多个 LLM 评估套件上取得了最先进的性能。
提出了一种名为GuardedRepair的框架,用于对LLM数学推理进行事后替换,通过选择性替换和安全防护来修复错误,同时最小化对正确推理轨迹的损害。在GSM8K上,该方法在未破坏正确答案的情况下,将准确率从95.60%提升至96.89%。
本文发现了一种‘位置复制’捷径:小型语言模型通过复制答案分隔符前的最后一个数字来回答算术问题,绕过了实际推理。该效应解释了为何打乱CoT步骤仍能保持性能;在GSM8K上,它占1-3B模型教师强制准确率的89-92%。
HRM-Text 引入了一种分层循环模型,将计算解耦为慢速和快速层级,使得仅使用400亿个token和1500美元预算即可从头开始高效预训练,实现了与更大模型竞争的性能。
OpenAI 训练了一个使用验证器的系统来解决小学数学应用题,准确率达到儿童水平的 90%,性能几乎是微调后的 GPT-3 的两倍。该方法通过训练验证器来评估候选解决方案并选择最佳方案,解决了语言模型在多步推理中的弱点。