Levi：在本地 QWEN 30B 上运行 AlphaEvolve

Reddit r/LocalLLaMA 2026/06/08 16:11 工具

open-source code-optimization prompt-optimization local-llm alpha-evolve search-architecture cost-effective

摘要

LEVI 是一个开源的类 AlphaEvolve 系统，可在本地 Qwen3-30B 上运行，提供代码和提示优化，成本降低高达 35 倍，性能优于现有框架。

大家好，我是 r/LocalLLaMA 的成员，想分享一些让我兴奋的东西。一年多来，我一直对 AlphaEvolve 及其成果着迷，但要运行这些开源框架，成本很快就会变得高昂。我实在无法承受每次尝试新东西都要调用数百次 GPT-5 或 Claude Opus，而且我希望能够跨各种领域多次运行它。如果能以更低的成本获得类似的能力，并且性能还更好呢？过去半年左右，我一直在开发 LEVI，这是一个开源的类 AlphaEvolve 系统，性能优于现有开源框架，而成本仅为它们的一小部分（最高可降低 35 倍）。我主要使用自托管的 Qwen3-30B-A3B 运行它，但它也适用于托管 API 或 Claude Code / Codex 订阅——只要你能访问这些都可以。LEVI 有两个我觉得最能发挥作用的版本：代码优化和提示优化（数学方面抱歉，路径不那么直接，但可以通过代码途径实现）。LEVI 的核心论点是：有了合适的搜索架构，较小的模型可以替代或超越较大的模型。这意味着将大部分工作交给较小模型在经济上更划算。这就是全部要点。在实践中实现它是个不同的问题，但如果你忘了这篇文章的所有其他内容，这就是我想传达的唯一信息。LEVI 通过三种方式实现：1. 从一开始就投资于解决方案的多样性，并保持维护。我们不想收敛到同一个解决方案，尤其是在有较小模型参与的情况下，然后不得不依赖大模型来把我们拉出低谷。2. 在较大和较小模型之间进行更智能的路由（大多数突变不需要触及前沿模型）。3. 对于提示优化，并非每次 rollout 都同等重要，因此构建一个代理子集来近似完整得分。我已在 ADRS（系统基准测试）套件中的系统问题上测试了 LEVI：MoE 专家并行负载均衡问题（EPLB，即 DeepSeek 开源的那个）、数据库事务调度、LLM 驱动的 SQL 和 Spot 实例调度。在我测试的几乎所有问题上，LEVI 都优于现有框架，同时持续使用更小的预算（最高可降低 7 倍成本）。更清晰的对比是：当所有框架使用相同的单个 Qwen3-30B-A3B 和相同的评估预算时，LEVI 仍然获胜，使用最多 12 倍更少的评估次数就达到其他框架的得分，因此收益来自搜索架构而非更大的模型。对于提示优化，在 IFBench 和 HotpotQA 等问题上，LEVI 在不到一半的 rollout 次数下就达到了与 GEPA 相似或更好的得分。在基础设施方面，考虑到这个子可能关心：我使用 vLLM 在 TPU 上自托管了 Qwen3-30B，利用 Google 的 TPU 研究云（TRC）赠款的免费计算，只是将其暴露为一个普通的 OpenAI 兼容端点。很高兴回答任何问题或听取建议。如果你有意外或小众的领域想应用这类系统，我很乐意倾听。技术博客：[https://ttanv.github.io/levi/](https://ttanv.github.io/levi/) GitHub：[https://github.com/ttanv/levi](https://github.com/ttanv/levi)

查看原文

Levi：在本地 QWEN 30B 上运行 AlphaEvolve

相似文章

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

Qwen 3.6 35B A3B 的热度绝非虚名！

本地运行 Qwen3.6-35B-A3B 作为编码 Agent：我的完整部署与可用配置

“Browser OS”由Qwen 3.6 35B实现：这是我从本地模型获得的最佳结果

试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode，真不敢相信居然能用

提交意见反馈