大型语言模型能否重塑基础算法?

Hugging Face Daily Papers 论文

摘要

# 论文页面 - 大型语言模型能否重塑基础算法? 来源:[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后,它们还能从零重塑 Dijkstra、Euclid 等基础算法吗?** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域:先用“反学习”把目标算法从模型中抹去,再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。

LLM 已展现出推动科学发现的巨大潜力,但能否实现“从 0 到 1”的基础创新仍是开放问题。本研究聚焦一个前提:LLM 能否重塑计算机科学中的基础算法?我们提出“先忘再创”(Unlearn-and-Reinvent) 流水线:先用 LLM 反学习技术把特定基础算法(如 Dijkstra 或 Euclid 算法)从预训练知识中抹除,再在受控环境中检验模型能否自行重新发明。为高效反学习,我们采用基于 GRPO 的 on-policy 方法。 在 10 个目标算法、3 个强开源权重模型、3 级提示的实验里,我们发现: 1) 最强模型 Qwen3-4B-Thinking-2507 在无提示时成功重塑 50% 算法,提示等级 1 达 70%,提示等级 2 达 90%; 2) 少量高层提示可提升成功率,但即使给出逐步提示,复杂算法仍可能失败; 3) 测试时强化学习能在提示等级 2 下成功重塑 Strassen 算法。 通过输出轨迹分析与消融实验,我们发现重塑阶段的生成式验证器对维持模型推理强度至关重要,可避免“思维塌陷”现象。这些结果揭示了 LLM 创新思维的潜力与当下边界。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:21

论文页面 - 大语言模型能否重新发明基础算法?

来源:https://huggingface.co/papers/2604.05716

在我们让大模型“忘掉”之后,它们还能重新发明基础算法吗? 我们 loosely 地把哈萨比斯的“爱因斯坦测试”搬到算法领域:针对每个目标算法(Dijkstra、欧几里得等),先通过“反学习”把它从 LLM 里抹掉,再测试模型能否从零开始重新发明。

最新研究表明,LLM 能发现新算法并完成高阶科研。但它们能否更进一步——发明那些似乎需要更大创造性跳跃的基础算法?我们提出 Unlearn-and-Reinvent 流水线来研究这一问题。

⭐ 在 3 个强开源权重模型上测试,包括 Qwen3-4B-Thinking-2507、Qwen3-4B-Instruct-2507 和 Ministral-3-14B-Reasoning-2512
⭐ 模型似乎能在“反学习”后重新发明具有直观贪心/分治结构的算法(如 Dijkstra、欧几里得)
⭐ 需要非显然数据结构或反直觉不变量的算法(KMP、Manacher、Strassen)在所有受测模型上均未成功
📌 更多发现:除了核心再发明任务,我们还表明测试时 RL 可进一步提升再发明表现;同时,我们识别出一种名为“思维坍缩”的失效模式——模型输出在多次再发明尝试中越来越短,并证明生成式验证器能有效缓解该问题。

🤖 亲自试试——和“忘掉”了 Dijkstra 算法的模型聊天:https://huggingface.co/spaces/jzhao1122/qwen3-thinking-dijkstra
📄 论文:https://arxiv.org/abs/2604.05716
💻 代码与模型:https://huggingface.co/algo-reinvention

相似文章

原生可遗忘的大语言模型

arXiv cs.LG

该论文提出了NULLs(原生可遗忘的大语言模型),这是一种模型类别,它将特定来源的贡献隔离到稀疏激活的sinks中,同时共享骨干神经元,从而无需重新训练即可干净地遗忘单个数据源,并保持通用语言能力。

模型遗忘目标因语言功能不同而异

arXiv cs.CL

本文认为,LLM中的遗忘应依赖于目标,提出了一种基于余弦的元学习RMU变体用于危险知识遗忘,以及一种结合探针方向的多层目标用于毒性遗忘,在四个7-8B模型上取得了显著效果。

大型语言模型是否适用于图计算?进展与展望

arXiv cs.CL

本综述回顾了大型语言模型在图计算中的应用,将其分为两种范式:LLM作为执行器和LLM作为规划器。研究发现,LLM在简单任务上表现良好,但在大规模精确计算方面不可靠,并提出了未来方向。

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。