Levi:在本地 QWEN 30B 上运行 AlphaEvolve

Reddit r/LocalLLaMA 工具

摘要

LEVI 是一个开源的类 AlphaEvolve 系统,可在本地 Qwen3-30B 上运行,提供代码和提示优化,成本降低高达 35 倍,性能优于现有框架。

大家好,我是 r/LocalLLaMA 的成员,想分享一些让我兴奋的东西。一年多来,我一直对 AlphaEvolve 及其成果着迷,但要运行这些开源框架,成本很快就会变得高昂。我实在无法承受每次尝试新东西都要调用数百次 GPT-5 或 Claude Opus,而且我希望能够跨各种领域多次运行它。如果能以更低的成本获得类似的能力,并且性能还更好呢?过去半年左右,我一直在开发 LEVI,这是一个开源的类 AlphaEvolve 系统,性能优于现有开源框架,而成本仅为它们的一小部分(最高可降低 35 倍)。我主要使用自托管的 Qwen3-30B-A3B 运行它,但它也适用于托管 API 或 Claude Code / Codex 订阅——只要你能访问这些都可以。LEVI 有两个我觉得最能发挥作用的版本:代码优化和提示优化(数学方面抱歉,路径不那么直接,但可以通过代码途径实现)。LEVI 的核心论点是:有了合适的搜索架构,较小的模型可以替代或超越较大的模型。这意味着将大部分工作交给较小模型在经济上更划算。这就是全部要点。在实践中实现它是个不同的问题,但如果你忘了这篇文章的所有其他内容,这就是我想传达的唯一信息。LEVI 通过三种方式实现:1. 从一开始就投资于解决方案的多样性,并保持维护。我们不想收敛到同一个解决方案,尤其是在有较小模型参与的情况下,然后不得不依赖大模型来把我们拉出低谷。2. 在较大和较小模型之间进行更智能的路由(大多数突变不需要触及前沿模型)。3. 对于提示优化,并非每次 rollout 都同等重要,因此构建一个代理子集来近似完整得分。我已在 ADRS(系统基准测试)套件中的系统问题上测试了 LEVI:MoE 专家并行负载均衡问题(EPLB,即 DeepSeek 开源的那个)、数据库事务调度、LLM 驱动的 SQL 和 Spot 实例调度。在我测试的几乎所有问题上,LEVI 都优于现有框架,同时持续使用更小的预算(最高可降低 7 倍成本)。更清晰的对比是:当所有框架使用相同的单个 Qwen3-30B-A3B 和相同的评估预算时,LEVI 仍然获胜,使用最多 12 倍更少的评估次数就达到其他框架的得分,因此收益来自搜索架构而非更大的模型。对于提示优化,在 IFBench 和 HotpotQA 等问题上,LEVI 在不到一半的 rollout 次数下就达到了与 GEPA 相似或更好的得分。在基础设施方面,考虑到这个子可能关心:我使用 vLLM 在 TPU 上自托管了 Qwen3-30B,利用 Google 的 TPU 研究云(TRC)赠款的免费计算,只是将其暴露为一个普通的 OpenAI 兼容端点。很高兴回答任何问题或听取建议。如果你有意外或小众的领域想应用这类系统,我很乐意倾听。技术博客:[https://ttanv.github.io/levi/](https://ttanv.github.io/levi/) GitHub:[https://github.com/ttanv/levi](https://github.com/ttanv/levi)
查看原文

相似文章

Qwen 3.6 35B A3B 的热度绝非虚名!

Reddit r/LocalLLaMA

作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。