@Phoenixyin13: 这是我最重要的信息转发之一。 这篇论文的第一作者是我极为钦佩的人,也是我的好朋友,来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu,现在他在@Harvard 进行人工智能大模型的科研工作。 Guowei这篇论文精准击中了目前…

X AI KOLs Timeline 论文

摘要

转发介绍一篇由清华姚班毕业生Guowei Xu(目前在哈佛)撰写的论文,该论文精准指出了LLM搜索的两个致命瓶颈:稀疏验证和候选局限,对提升推理能力有重要意义。

这是我最重要的信息转发之一。 这篇论文的第一作者是我极为钦佩的人,也是我的好朋友,来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu,现在他在@Harvard 进行人工智能大模型的科研工作。 Guowei这篇论文精准击中了目前LLM搜索的两个致命瓶颈: ① 只有最后一步对错的sparse verification ② https://t.co/zzUqckORQv
查看原文
查看缓存全文

缓存时间: 2026/05/29 07:59

这是我最重要的信息转发之一。

这篇论文的第一作者是我极为钦佩的人,也是我的好朋友,来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu,现在他在@Harvard 进行人工智能大模型的科研工作。

Guowei这篇论文精准击中了目前LLM搜索的两个致命瓶颈: ① 只有最后一步对错的sparse verification ② https://t.co/zzUqckORQv

Guowei Xu (@Kevin_GuoweiXu): 🚀 How should LLMs sample on hard reasoning problems during post-training and inference where direct rollouts rarely produce a correct answer?

Best-of-N (e.g., GRPO) and tree search share two limitations: 🔻 Verification signals are sparse 🔻 Candidates stay within the model’s

相似文章

@berryxia: 这个团队的研究也是有点反常识,对于LLM的研究调度也是有点不一样的研究。 一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。 反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGP…

X AI KOLs Timeline

一个开源团队发现通过剥夺深度研究系统中调度器的搜索权限,迫使它进行高阶战略思考,从而让Onyx在DeepResearch Bench上超越Claude和ChatGPT,成为最强的开源深度研究员。

@lateinteraction: 非常酷的工作!!

X AI KOLs Timeline

Guowei Xu 讨论了 Best-of-N 和树搜索方法在 LLMs 处理困难推理问题时的局限性,指出验证信号稀疏且候选答案仍处于模型的分布范围内。