@Phoenixyin13: 这是我最重要的信息转发之一。 这篇论文的第一作者是我极为钦佩的人,也是我的好朋友,来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu,现在他在@Harvard 进行人工智能大模型的科研工作。 Guowei这篇论文精准击中了目前…
摘要
转发介绍一篇由清华姚班毕业生Guowei Xu(目前在哈佛)撰写的论文,该论文精准指出了LLM搜索的两个致命瓶颈:稀疏验证和候选局限,对提升推理能力有重要意义。
查看缓存全文
缓存时间: 2026/05/29 07:59
这是我最重要的信息转发之一。
这篇论文的第一作者是我极为钦佩的人,也是我的好朋友,来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu,现在他在@Harvard 进行人工智能大模型的科研工作。
Guowei这篇论文精准击中了目前LLM搜索的两个致命瓶颈: ① 只有最后一步对错的sparse verification ② https://t.co/zzUqckORQv
Guowei Xu (@Kevin_GuoweiXu): 🚀 How should LLMs sample on hard reasoning problems during post-training and inference where direct rollouts rarely produce a correct answer?
Best-of-N (e.g., GRPO) and tree search share two limitations: 🔻 Verification signals are sparse 🔻 Candidates stay within the model’s
相似文章
@berryxia: 这个团队的研究也是有点反常识,对于LLM的研究调度也是有点不一样的研究。 一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。 反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGP…
一个开源团队发现通过剥夺深度研究系统中调度器的搜索权限,迫使它进行高阶战略思考,从而让Onyx在DeepResearch Bench上超越Claude和ChatGPT,成为最强的开源深度研究员。
@lateinteraction: 非常酷的工作!!
Guowei Xu 讨论了 Best-of-N 和树搜索方法在 LLMs 处理困难推理问题时的局限性,指出验证信号稀疏且候选答案仍处于模型的分布范围内。
@berryxia: 讲真,这种言论只有真正牛的人才敢说啊! 本科生就可以来完成LLM的数学训练! Terence Tao 最近在访谈里把 LLM 最核心的谜题直接说透了。 这位 Fields Medal 得主、数学界最高荣誉,被称作数学界诺贝尔奖,当代最顶尖…
Terence Tao 指出当前 LLM 背后的数学其实很简单,但真正的谜题在于自然语言数据的中间地带导致模型行为不可预测。
@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理,而 CUDA Graph 是 vLLM server 的一个核心部分,直接关系到 GPU 利用率。 可以一起发到知乎和 X 上,用 LLM 翻译一下就好,好文章应该让更多人看到。 Every A…
A tweet advocating that every AI researcher should understand inference acceleration and highlighting CUDA Graph as a core component of the vLLM server for GPU efficiency.
@grapeot: LLM 推理系统到底是怎么跑的?SGLang Omni 团队最近公开了一篇很少见的文章——把一个顶级推理系统团队的完整决策链路摊在明面上。我顺着原文梳理了一篇科普,从自回归decode、KV cache、continuous batchi…
本文基于SGLang Omni团队的内部决策文章,从自回归解码、KV缓存、连续批处理等基础概念出发,深入浅出地介绍了LLM推理系统的运作原理。