@analogalok：我刚刚在8GB RTX 4060上完全本地运行了Gemma 4 26B A4B MoE模型，搭配Hermes智能体，现在它正在回测交易策略……

X AI KOLs Following 2026/06/23 14:09 新闻

local-llm gemma-4 moe hermes-agent automation backtesting trading

摘要

一位开发者展示了在8GB RTX 4060上本地运行Gemma 4 26B MoE模型，结合Hermes智能体，完全自动化回测交易策略，凸显了本地LLM作为自主智能体的日益增强的能力。

我刚刚在8GB RTX 4060上完全本地运行了Gemma 4 26B A4B MoE模型，搭配Hermes智能体，它现在端到端地回测交易策略，全程无需人工干预。如果你是一名交易员或在华尔街工作，你绝不能错过这个。是的，完全自动化。无需云端。除了市场数据外，无需任何API。 # 以下是具体操作：设置： - 模型：Gemma 4 26B-A4B QAT (MoE)，Q4_K_XL Unsloth量化版（链接见评论） - 推理引擎：llama.cpp（turboquant分支，由@no_stp_on_snek提供，链接见评论） - 硬件：RTX 4060，8GB显存 + 仅16GB内存（同时开着50个Chrome标签页） - 上下文长度：64K llama.cpp turboquant参数： -m gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf -c 64000 --cache-type-k q8_0 --cache-type-v turbo3 --port 8080 turboquant有助于在交互会话中实现高预填充和解码吞吐量。搭配Hermes智能体时的吞吐量：解码：25+ tokens/秒预填充：250+ tokens/秒 # 然后我给智能体分配了一个任务：回测一个策略： - 当RSI上穿30时买入 - 盈利+2%或止损-1%时卖出 - 不允许重叠持仓 - 使用yfinance获取谷歌股票数据 - 生成包含K线图及信号的完整HTML报告接下来发生的事情令人惊叹。它不仅编写了代码，还自主运行了整个工作流：审计环境（pip list、依赖检查）遇到ModuleNotFoundError，多个Python安装版本冲突运行where python映射系统上所有解释器路径手动选择正确的Python 3.13路径并重新运行脚本编写了一个干净的状态机回测器（严格无重叠交易逻辑）修补了yfinance的MultiIndex怪癖，否则脚本会崩溃构建了带买卖标记的Plotly K线图和RSI图表计算了胜率、盈亏和汇总统计导出了一个精美的单文件HTML报告。查看视频结尾或评论中的报告。最大收获：本地LLM不再只是“聊天助手”。它们在消费级硬件上调试环境、编写生产代码并交付成品，且API成本为零。如果你还在称本地模型为“玩具”，你已经落后了。这仅仅是个开始。 Hermes智能体在OpenRouter上单日处理量已超过1万亿个token。想想当前生成的token总规模吧。免责声明：这不是财务建议。在做出任何交易决策前，请咨询专业人士。

查看原文

查看缓存全文

缓存时间: 2026/06/23 15:51

我刚刚在 8GB RTX 4060 上，用 Hermes agent 完整本地跑起了 Gemma 4 26B A4B MoE 模型，它现在正端到端回测交易策略，完全无需人工干预。

如果你是交易员或在华尔街工作，可千万别错过这个。

没错。全自动化。无云端。除了市场数据之外，没有调用任何 API。

我是这么做的：

设置：

模型：Gemma 4 26B-A4B QAT (MoE)，Q4_K_XL Unsloth 量化版（链接见评论区）
推理引擎：llama.cpp（由 @no_stp_on_snek 制作的 turboquant 分支，链接见评论区）
硬件：RTX 4060，仅 8GB VRAM + 16GB RAM（同时还开着 50 个 Chrome 标签页）
上下文长度：64K

llama.cpp turboquant 启动参数： -m gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf -c 64000 –cache-type-k q8_0 –cache-type-v turbo3 –port 8080

turboquant 有助于在交互式会话中实现高 prefill 和高解码吞吐量。

使用 Hermes agent 时的吞吐量：解码：25+ tokens/秒 prefill：250+ tokens/秒

然后我给 agent 分配了一个任务：

回测一个策略：

当 RSI 上穿 30 时买入
在盈利 +2% 或止损 -1% 时卖出
不允许重叠持仓
使用 yfinance 获取谷歌股票数据
生成带 K 线图及信号的完整 HTML 报告

接下来发生的事情太不可思议了。它不仅仅写了代码，而是自主完成了整个工作流程：

审计环境（pip list、依赖检查）
遇到 ModuleNotFoundError，多个 Python 安装冲突
运行 where python 来映射系统中所有解释器
手动选择正确的 Python 3.13 路径并重新运行脚本
编写了一个干净的状态机回测器（严格无重叠交易逻辑）
修复了一个会导致脚本崩溃的 yfinance MultiIndex 小特性
使用 Plotly 构建了带买卖标记的 K 线 + RSI 图表
计算了胜率、盈亏和汇总统计
导出了一个精美的单文件 HTML 报告。报告见视频末尾或评论区。

最大收获：本地 LLM 早已不仅仅是“聊天助手”。它们能调试自己的环境、编写生产级代码，并在消费级硬件上交付完整的成品，而 API 成本为零。

如果你现在还认为本地模型是“玩具”，那你已经落伍了。

这还只是个开始。

Hermes agent 刚刚在 OpenRouter 上单日突破了 1 万亿 token。想想现在正在发生的 token 生成规模吧。

免责声明：这不是投资建议。在做任何交易决策之前，请咨询专业人士。

Teknium 🪽 (@Teknium)： 等等，我们在 OpenRouter 上第一次单日突破了 1T token :O

请继续为这个我参与过的最棒的项目做贡献，帮助 Hermes Agent 成为地球上最好的软件栈！感谢贡献者们🍻🍻

相似文章

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文。如果你有8GB显存显卡，停下你正在做的事……

X AI KOLs Timeline

Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志，在8GB显存上运行Gemma 4 26B MoE，实现了250k上下文下20 token/秒的速度，这标志着廉价本地AI的一个重要里程碑。

@VincentLogic: 一台 8GB 显存的入门笔记本现在可以跑一个完全自主的 AI Agent 方法：Gemma 4 26B + Hermes Desktop 本地跑 26B 模型，8GB 显存 + 16GB 内存就够接上 Hermes 之后它能做什么： …

X AI KOLs Timeline

介绍使用 Gemma 4 26B 模型与 Hermes Desktop 工具在 8GB 显存入门笔记本上运行完全自主的 AI Agent，实现本地文件操作、代码修改、网页浏览等功能，显著降低了本地 Agent 的门槛。

@analogalok：我刚刚在8GB RTX 4060上完全本地运行了Gemma 4 26B A4B MoE模型，搭配Hermes智能体，现在它正在回测交易策略……

我是这么做的：

然后我给 agent 分配了一个任务：

相似文章

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文。如果你有8GB显存显卡，停下你正在做的事……

@VincentLogic: 一台 8GB 显存的入门笔记本现在可以跑一个完全自主的 AI Agent 方法：Gemma 4 26B + Hermes Desktop 本地跑 26B 模型，8GB 显存 + 16GB 内存就够接上 Hermes 之后它能做什么： …

@svpino：在本地电脑上跑 Hermes 微调版 Gemma 4 或 Qwen 3.5，简直是最佳组合，不试真的会后悔……

@analogalok：我的8GB显存游戏本肯定会恨我这么做，但我还是做了。跑了一个31B稠密模型（Gemma 4…

在MLX中使用turboquant（及自定义内核）运行Gemma4 26b MoE

提交意见反馈

我是这么做的：

然后我给 agent 分配了一个任务：

相似文章

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文。如果你有8GB显存显卡，停下你正在做的事……

@VincentLogic: 一台 8GB 显存的入门笔记本 现在可以跑一个完全自主的 AI Agent 方法：Gemma 4 26B + Hermes Desktop 本地跑 26B 模型，8GB 显存 + 16GB 内存就够 接上 Hermes 之后它能做什么： …

@svpino：在本地电脑上跑 Hermes 微调版 Gemma 4 或 Qwen 3.5，简直是最佳组合，不试真的会后悔……

@analogalok：我的8GB显存游戏本肯定会恨我这么做，但我还是做了。跑了一个31B稠密模型（Gemma 4…

在MLX中使用turboquant（及自定义内核）运行Gemma4 26b MoE

提交意见反馈

@VincentLogic: 一台 8GB 显存的入门笔记本现在可以跑一个完全自主的 AI Agent 方法：Gemma 4 26B + Hermes Desktop 本地跑 26B 模型，8GB 显存 + 16GB 内存就够接上 Hermes 之后它能做什么： …