@aiDotEngineer: Your Agent Can Now Train Models The argument from @mervenoyann: open source models have caught up. GLM 5.1 is leading t…

X AI KOLs Following News

Summary

The talk by @mervenoyann demonstrates that open source models like GLM 5.1 have caught up to closed models, and shows how Hugging Face's ecosystem enables agents to train models, run inference, and build workflows.

Your Agent Can Now Train Models The argument from @mervenoyann: open source models have caught up. GLM 5.1 is leading the Artificial Analysis intelligence index over closed models, and the gap is closing with every release cycle. Weight access means you can quantize, fine tune, and deploy to edge devices without data leaving your infrastructure. https://youtube.com/watch?v=OV56RddyFuU… The talk covers the Hugging Face ecosystem built for agentic work: inference providers with tool use routing, benchmark datasets for filtering by SWE bench scores on Hub, a traces repository type for storing agent sessions, and skills that plug into coding agents. The closer is a live demo: she asks Claude Code to fine tune a vision language model on a dataset by name. The agent calculates VRAM requirements, picks an instance, and kicks off the job. What used to be a day of napkin math is now a prompt.
Original Article
View Cached Full Text

Cached at: 05/13/26, 06:25 PM

Your Agent Can Now Train Models The argument from @mervenoyann: open source models have caught up. GLM 5.1 is leading the Artificial Analysis intelligence index over closed models, and the gap is closing with every release cycle. Weight access means you can quantize, fine tune, and deploy to edge devices without data leaving your infrastructure. https://youtube.com/watch?v=OV56RddyFuU… The talk covers the Hugging Face ecosystem built for agentic work: inference providers with tool use routing, benchmark datasets for filtering by SWE bench scores on Hub, a traces repository type for storing agent sessions, and skills that plug into coding agents. The closer is a live demo: she asks Claude Code to fine tune a vision language model on a dataset by name. The agent calculates VRAM requirements, picks an instance, and kicks off the job. What used to be a day of napkin math is now a prompt.


TL;DR

Hugging Face 开源团队展示了开放模型已全面追平闭源模型,智能体现在可以直接利用 Hubbing Face Hub 训练模型、运行推理,并通过 MCP 服务器、技能和追踪数据集等工具,轻松构建本地或远程的 AI 工作流。

开源模型的现状与优势

在机器学习领域,开源是决定性的驱动力。模型分为几种类型:

  • 开放权重模型:采用非商业许可,仅开放权重。
  • 开源模型:使用可商业许可,如 DeepSeek 的 MIT 许可或 Apache 2.0。
  • 更开放的模型:连代码都完全开放。

完全开放的好处在于:你不需要担心云服务商隐藏的性能下降问题,一切透明。同时,你可以自由地缩小、量化或微调模型,并安全地部署到边缘设备或浏览器,数据不会外泄——这在当前安全环境下尤为重要。

几年前有人认为开源模型不如闭源模型,但事实并非如此。最新发布的 GLM 5.1 在多项基准上彻底超越了闭源模型,甚至我本人正在编程中使用它。Artificial Analysis Intelligence Index 显示,绿色(开放模型)已全面赶上黑色(闭源模型),而且随着后续模型发布,差距会进一步拉开。

Hugging Face Hub:智能体生态系统的核心

所有开源发布都通过 Hugging Face Hub 进行。Hub 目前托管了近 300 万个模型、大量数据集和 Space(AI 应用商店)。在模型页面筛选“智能体”时,绝大多数是热门模型,主要包括:

  • 视觉语言模型(VLM):可作为基于截图操作的计算机智能体,知道点击哪里。
  • 大语言模型(LLM):许多模型在发布当天就获得视觉能力,如 Gemma 4(全能模型/智能体)、Qwen2.5-VL、Kimi 2.5 等。

运行这些模型极其简单:使用 VLM ML 或 llama.cpp 服务器,只需几行代码。过去这很麻烦,现在完全不是问题。

为了比较开放模型,Hub 推出了 “基准数据集” 功能。在数据集页面的左侧底部点击“基准”,即可查看流行基准(如 SWE-bench Pro、Humanity’s Last Exam、AIME)的排名。例如在 SWE-bench 上,GLM 5.1 目前位居榜首,帮助用户从 300 万个模型中选择。

如果你只想“感受”模型,Hugging Face 的 “推理提供者” 服务会将最优模型路由至最快/最便宜的提供商(Groq、Cerebras 等),并支持“工具使用”列,方便为智能体用例挑选模型。

本地编程智能体的选择

多种本地编程智能体可供选择:

  • Pie:设置超级简单,可将 llama.cpp 提供的本地模型直接消费,也可与远程推理提供者配合。
  • llama-agent:内置于 llama.cpp 的二进制文件,直接执行并给出 Hugging Face Hub ID 即可启动模型。

Hermes Agent:推荐与开放模型搭配

我最喜欢的工具之一是 Hermes Agent。它比开源 Claw 更进一步,涉及内存管理,上手简单。可以本地使用,也可与 Hugging Face 推理提供者配合。安装向导会处理一切,你只需提供密钥,即可集成到 Slack、WhatsApp 等应用中。

我强烈推荐使用 GLM 5.1 作为开放模型。例如,我初始整合 Slack 失败后,让 GLM 5.1 用 Hermes Agent 自行修复,它成功完成了。GLM 5.1 是非常优秀的模型,我也期待搭配 Gemma 4,同时周末传闻的 Minimax 模型也值得尝试。

智能体追踪数据集(Traces)

Hugging Face Hub 新增了名为 “Traces” 的数据集存储类型,用于存放 Codex、Cloud Code 或 Pie 的追踪数据。在数据集查看器中点击“Traces”列,会弹出解析优雅的界面,方便浏览数据,甚至可基于此训练模型。推送追踪只需从对应路径上传会话,我们很可能很快会为 Traces 提供 Hermes Agent 支持。

技能:让智能体训练模型

Hugging Face 技能(Skills)允许智能体训练、推理、探索数据集或使用 AI 应用。主要包括:

  • Hugging Face CLI 技能:智能体可管理仓库、运行任务、启动演示等。通过搜索“HF skills”可找到相关命令。
  • LLM 训练技能:不仅支持 LLM,也支持视觉语言模型。只需告诉模型“在这个数据集上训练这个模型”,它就会远程或本地启动训练任务。
  • Gradio 技能:构建演示应用。
  • Hugging Face 数据集技能:通过数据集查看器 API 探索数据集。
  • 更多集成,如 Cloud 和 Gemini。

实际操作示例:我让 Cloud Code 训练 Qwen2.5-VL 在 LLaVA-Instruct-Mix(视觉语言数据集)上。智能体会自动计算所需 VRAM,询问验证集比例等,然后启动任务。最后在 Hub 上找到训练好的模型。这不再局限于 LLM 和 VLM,已扩展到目标检测或分割模型的训练,通过简单的命令即可处理。

MCP 服务器的集成

Hugging Face 通过 MCP 服务器将 Hub 连接到你的 LLM,提供模型、数据集、Space 以及任务搜索、Space 语义搜索等功能。Space 就像 AI 应用商店,上面有大量应用。新的 Jobs 功能允许启动一次性任务,按运行时间付费,并且可通过 MCP 查询。

例如,我让模型生成一张“用纱线做成的果仁蜜饼”的图片,模型调用 Hugging Face 的 Qwen-Image 远程图像生成模型并返回结果。若要使用更多 Space,需在 MCP 中启用“动态 Space”(实验性)。

实践案例:OCR 处理 3 万篇论文

我的同事 Neils 构建了一个实用的工作流:利用开放 OCR 模型和 Jobs,对 Hugging Face Hub 上的 AI 论文进行 OCR。步骤包括:

  1. 挑选便宜且性能好的 OCR 模型(例如 Chandra,但实际应参考 OCR Bench 的排名)。
  2. 让 LLM 通过技能(如“哪个模型最适合 OCR 微调?”)得到建议,并编写处理脚本。
  3. 智能体自动估算实例资源,计算运行成本,在 Hugging Face 基础设施上启动任务。
  4. 使用新发布的 Buckets 产品(类似 S3 Bucket,更便宜更快)存储结果。

整个过程无需手动估算资源,智能体处理一切。


Source: https://www.youtube.com/watch?v=OV56RddyFuU (YouTube)

Similar Articles

zai-org/GLM-5.1

Hugging Face Models Trending

GLM-5.1 is a next-generation flagship AI model optimized for agentic engineering with significantly stronger coding capabilities, achieving state-of-the-art performance on SWE-Bench Pro and demonstrating superior long-horizon task handling through extended iteration and tool use.