@lateinteraction: 非常酷的工作!!
摘要
Guowei Xu 讨论了 Best-of-N 和树搜索方法在 LLMs 处理困难推理问题时的局限性,指出验证信号稀疏且候选答案仍处于模型的分布范围内。
非常酷的工作!!
查看缓存全文
缓存时间: 2026/05/30 18:43
非常酷的工作!!
Guowei Xu (@Kevin_GuoweiXu): 🚀 在直接生成很少产生正确答案的困难推理问题上,LLM 在后训练和推理过程中应如何采样?
Best-of-N(例如 GRPO)和树搜索共有两个局限性: 🔻 验证信号稀疏 🔻 候选答案仍限于模型自身的
相似文章
@Kevin_GuoweiXu: 在训练后和推理阶段,对于直接 rollout 很少产生正确答案的困难推理问题,LLM 应如何采样?…
介绍了 BES(双向进化搜索),这是一种面向 LLM 的搜索框架,它将前向候选进化与后向目标分解相结合,以改进在训练后和推理阶段对困难推理问题的采样。
从零阶选择到二阶判断:组合硬化暴露前沿大语言模型的组合性缺陷
本文介绍了 LogiHard,这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架,展示了模型在逻辑推理任务中准确率的显著下降。
从LLM推理轨迹中提取搜索树揭示了其规划中的短视现象
本研究分析了大语言模型(LLM)在“四子连珠”游戏中的推理轨迹,发现LLM表现出短视规划特征:其表现主要取决于浅层的搜索广度,而非深层的预判能力,这与人类专家的规划方式截然不同。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。