@lateinteraction: 非常酷的工作！！

X AI KOLs Timeline 2026/05/29 18:16 新闻

llm reasoning post-training inference sampling tree-search grpo

摘要

Guowei Xu 讨论了 Best-of-N 和树搜索方法在 LLMs 处理困难推理问题时的局限性，指出验证信号稀疏且候选答案仍处于模型的分布范围内。

非常酷的工作！！

查看原文

查看缓存全文

缓存时间: 2026/05/30 18:43

非常酷的工作！！

Guowei Xu (@Kevin_GuoweiXu): 🚀 在直接生成很少产生正确答案的困难推理问题上，LLM 在后训练和推理过程中应如何采样？

Best-of-N（例如 GRPO）和树搜索共有两个局限性： 🔻 验证信号稀疏 🔻 候选答案仍限于模型自身的

相似文章

X AI KOLs Timeline

介绍了 BES（双向进化搜索），这是一种面向 LLM 的搜索框架，它将前向候选进化与后向目标分解相结合，以改进在训练后和推理阶段对困难推理问题的采样。

X AI KOLs Timeline

本综述全面概述了LLM中的隐式推理，探讨了在连续隐藏状态中执行多步推理且无需显式token级监督的方法。

arXiv cs.CL

本文介绍了 LogiHard，这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架，展示了模型在逻辑推理任务中准确率的显著下降。

arXiv cs.AI

本研究分析了大语言模型（LLM）在“四子连珠”游戏中的推理轨迹，发现LLM表现出短视规划特征：其表现主要取决于浅层的搜索广度，而非深层的预判能力，这与人类专家的规划方式截然不同。

OpenAI Blog

OpenAI 发布了一篇文章，通过密码破译示例探索大语言模型的推理技术，展示了语言模型的逐步问题求解和模式识别能力。