@analogalok:我刚刚在8GB RTX 4060上完全本地运行了Gemma 4 26B A4B MoE模型,搭配Hermes智能体,现在它正在回测交易策略……
摘要
一位开发者展示了在8GB RTX 4060上本地运行Gemma 4 26B MoE模型,结合Hermes智能体,完全自动化回测交易策略,凸显了本地LLM作为自主智能体的日益增强的能力。
查看缓存全文
缓存时间: 2026/06/23 15:51
我刚刚在 8GB RTX 4060 上,用 Hermes agent 完整本地跑起了 Gemma 4 26B A4B MoE 模型,它现在正端到端回测交易策略,完全无需人工干预。
如果你是交易员或在华尔街工作,可千万别错过这个。
没错。全自动化。无云端。除了市场数据之外,没有调用任何 API。
我是这么做的:
设置:
- 模型:Gemma 4 26B-A4B QAT (MoE),Q4_K_XL Unsloth 量化版(链接见评论区)
- 推理引擎:llama.cpp(由 @no_stp_on_snek 制作的 turboquant 分支,链接见评论区)
- 硬件:RTX 4060,仅 8GB VRAM + 16GB RAM(同时还开着 50 个 Chrome 标签页)
- 上下文长度:64K
llama.cpp turboquant 启动参数: -m gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf -c 64000 –cache-type-k q8_0 –cache-type-v turbo3 –port 8080
turboquant 有助于在交互式会话中实现高 prefill 和高解码吞吐量。
使用 Hermes agent 时的吞吐量: 解码:25+ tokens/秒 prefill:250+ tokens/秒
然后我给 agent 分配了一个任务:
回测一个策略:
- 当 RSI 上穿 30 时买入
- 在盈利 +2% 或止损 -1% 时卖出
- 不允许重叠持仓
- 使用 yfinance 获取谷歌股票数据
- 生成带 K 线图及信号的完整 HTML 报告
接下来发生的事情太不可思议了。它不仅仅写了代码,而是自主完成了整个工作流程:
- 审计环境(pip list、依赖检查)
- 遇到 ModuleNotFoundError,多个 Python 安装冲突
- 运行
where python来映射系统中所有解释器 - 手动选择正确的 Python 3.13 路径并重新运行脚本
- 编写了一个干净的状态机回测器(严格无重叠交易逻辑)
- 修复了一个会导致脚本崩溃的 yfinance MultiIndex 小特性
- 使用 Plotly 构建了带买卖标记的 K 线 + RSI 图表
- 计算了胜率、盈亏和汇总统计
- 导出了一个精美的单文件 HTML 报告。报告见视频末尾或评论区。
最大收获:本地 LLM 早已不仅仅是“聊天助手”。它们能调试自己的环境、编写生产级代码,并在消费级硬件上交付完整的成品,而 API 成本为零。
如果你现在还认为本地模型是“玩具”,那你已经落伍了。
这还只是个开始。
Hermes agent 刚刚在 OpenRouter 上单日突破了 1 万亿 token。想想现在正在发生的 token 生成规模吧。
免责声明:这不是投资建议。在做任何交易决策之前,请咨询专业人士。
Teknium 🪽 (@Teknium): 等等,我们在 OpenRouter 上第一次单日突破了 1T token :O
请继续为这个我参与过的最棒的项目做贡献,帮助 Hermes Agent 成为地球上最好的软件栈!感谢贡献者们🍻🍻
相似文章
@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE,支持250k上下文。如果你有8GB显存显卡,停下你正在做的事……
Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志,在8GB显存上运行Gemma 4 26B MoE,实现了250k上下文下20 token/秒的速度,这标志着廉价本地AI的一个重要里程碑。
@VincentLogic: 一台 8GB 显存的入门笔记本 现在可以跑一个完全自主的 AI Agent 方法:Gemma 4 26B + Hermes Desktop 本地跑 26B 模型,8GB 显存 + 16GB 内存就够 接上 Hermes 之后它能做什么: …
介绍使用 Gemma 4 26B 模型与 Hermes Desktop 工具在 8GB 显存入门笔记本上运行完全自主的 AI Agent,实现本地文件操作、代码修改、网页浏览等功能,显著降低了本地 Agent 的门槛。
@svpino:在本地电脑上跑 Hermes 微调版 Gemma 4 或 Qwen 3.5,简直是最佳组合,不试真的会后悔……
开发者称,Hermes 微调版 Gemma 4 与 Qwen 3.5 在本地大模型性能上表现最佳,足以媲美付费 BigAI 模型。
@analogalok:我的8GB显存游戏本肯定会恨我这么做,但我还是做了。跑了一个31B稠密模型(Gemma 4…
用户在8GB显存的游戏本上,使用llama.cpp配合MTP推测解码,以约3 tokens/s的速度运行了Gemma 4 31B稠密模型,展示了在消费级硬件上运行31B稠密模型的可行性,并提出了智能体工作流程:快速MoE模型将困难任务路由给这个较慢的稠密模型。
在MLX中使用turboquant(及自定义内核)运行Gemma4 26b MoE
一位开发者成功在Apple MacBook Air M5上使用MLX、turboquant和自定义内核运行了Gemma4 26b MoE,实现了比llama.cpp更快的提示处理和生成速度,且内存占用更低。实现方式包括本地部署说明。