@aiDotEngineer: 您的智能体现在可以训练模型。来自@mervenoyann 的观点:开源模型已经迎头赶上。GLM 5.1 在人工智能分析指数上领先……

X AI KOLs Following 新闻

摘要

@mervenoyann 的演讲展示了开源模型(如 GLM 5.1)已赶上闭源模型,并说明了 Hugging Face 生态系统如何让智能体训练模型、执行推理和构建工作流。

您的智能体现在可以训练模型。来自@mervenoyann 的观点:开源模型已经迎头赶上。GLM 5.1 在人工智能分析指数上领先于闭源模型,并且差距在每个发布周期中都在缩小。权重访问意味着您可以在不将数据移出基础设施的情况下,对模型进行量化、微调并部署到边缘设备。 https://youtube.com/watch?v=OV56RddyFuU… 该演讲涵盖了为智能体工作构建的 Hugging Face 生态系统:支持工具使用路由的推理提供商、用于根据 Hub 上的 SWE bench 分数筛选数据集的基准数据集、用于存储智能体会话的追踪仓库类型,以及可插入编码智能体的技能。 结尾是一个现场演示:她要求 Claude Code 根据数据集名称微调一个视觉语言模型。智能体计算 VRAM 需求,选择一个实例,并启动任务。过去需要花一天时间进行粗略计算的工作,现在只需一个提示。
查看原文
查看缓存全文

缓存时间: 2026/05/13 18:25

你的智能体现在可以训练模型了。@mervenoyann 的观点:开源模型已经迎头赶上。GLM 5.1 在 Artificial Analysis 智能指数上领先闭源模型,并且差距在每个发布周期都在缩小。获得权重意味着你可以对模型进行量化、微调,并部署到边缘设备,而数据无需离开你的基础设施。https://youtube.com/watch?v=OV56RddyFuU… 这场演讲介绍了为智能体工作构建的 Hugging Face 生态系统:支持工具使用路由的推理提供商、用于根据 Hub 上 SWE bench 分数筛选的基准数据集、用于存储智能体会话的追踪仓库类型,以及可插入编码智能体的技能。压轴是现场演示:她让 Claude Code 按名称在一个数据集上微调视觉语言模型。智能体计算 VRAM 需求,选择一个实例,然后启动任务。过去需要一整天估算的工作,现在只需一个提示。


TL;DR

Hugging Face 开源团队展示了开放模型已全面追平闭源模型,智能体现在可以直接利用 Hugging Face Hub 训练模型、运行推理,并通过 MCP 服务器、技能和追踪数据集等工具,轻松构建本地或远程的 AI 工作流。

开源模型的现状与优势

在机器学习领域,开源是决定性的驱动力。模型分为几种类型:

  • 开放权重模型:采用非商业许可,仅开放权重。
  • 开源模型:使用可商业许可,如 DeepSeek 的 MIT 许可或 Apache 2.0。
  • 更开放的模型:连代码都完全开放。

完全开放的好处在于:你不需要担心云服务商隐藏的性能下降问题,一切透明。同时,你可以自由地缩小、量化或微调模型,并安全地部署到边缘设备或浏览器,数据不会外泄——这在当前安全环境下尤为重要。

几年前有人认为开源模型不如闭源模型,但事实并非如此。最新发布的 GLM 5.1 在多项基准上彻底超越了闭源模型,甚至我本人正在编程中使用它。Artificial Analysis Intelligence Index 显示,绿色(开放模型)已全面赶上黑色(闭源模型),而且随着后续模型发布,差距会进一步拉开。

Hugging Face Hub:智能体生态系统的核心

所有开源发布都通过 Hugging Face Hub 进行。Hub 目前托管了近 300 万个模型、大量数据集和 Space(AI 应用商店)。在模型页面筛选“智能体”时,绝大多数是热门模型,主要包括:

  • 视觉语言模型(VLM):可作为基于截图操作的计算机智能体,知道点击哪里。
  • 大语言模型(LLM):许多模型在发布当天就获得视觉能力,如 Gemma 4(全能模型/智能体)、Qwen2.5-VL、Kimi 2.5 等。

运行这些模型极其简单:使用 VLM ML 或 llama.cpp 服务器,只需几行代码。过去这很麻烦,现在完全不是问题。

为了比较开放模型,Hub 推出了 “基准数据集” 功能。在数据集页面的左侧底部点击“基准”,即可查看流行基准(如 SWE-bench Pro、Humanity’s Last Exam、AIME)的排名。例如在 SWE-bench 上,GLM 5.1 目前位居榜首,帮助用户从 300 万个模型中选择。

如果你只想“感受”模型,Hugging Face 的 “推理提供者” 服务会将最优模型路由至最快/最便宜的提供商(Groq、Cerebras 等),并支持“工具使用”列,方便为智能体用例挑选模型。

本地编程智能体的选择

多种本地编程智能体可供选择:

  • Pie:设置超级简单,可将 llama.cpp 提供的本地模型直接消费,也可与远程推理提供者配合。
  • llama-agent:内置于 llama.cpp 的二进制文件,直接执行并给出 Hugging Face Hub ID 即可启动模型。

Hermes Agent:推荐与开放模型搭配

我最喜欢的工具之一是 Hermes Agent。它比开源 Claw 更进一步,涉及内存管理,上手简单。可以本地使用,也可与 Hugging Face 推理提供者配合。安装向导会处理一切,你只需提供密钥,即可集成到 Slack、WhatsApp 等应用中。

我强烈推荐使用 GLM 5.1 作为开放模型。例如,我初始整合 Slack 失败后,让 GLM 5.1 用 Hermes Agent 自行修复,它成功完成了。GLM 5.1 是非常优秀的模型,我也期待搭配 Gemma 4,同时周末传闻的 Minimax 模型也值得尝试。

智能体追踪数据集(Traces)

Hugging Face Hub 新增了名为 “Traces” 的数据集存储类型,用于存放 Codex、Cloud Code 或 Pie 的追踪数据。在数据集查看器中点击“Traces”列,会弹出解析优雅的界面,方便浏览数据,甚至可基于此训练模型。推送追踪只需从对应路径上传会话,我们很可能很快会为 Traces 提供 Hermes Agent 支持。

技能:让智能体训练模型

Hugging Face 技能(Skills)允许智能体训练、推理、探索数据集或使用 AI 应用。主要包括:

  • Hugging Face CLI 技能:智能体可管理仓库、运行任务、启动演示等。通过搜索“HF skills”可找到相关命令。
  • LLM 训练技能:不仅支持 LLM,也支持视觉语言模型。只需告诉模型“在这个数据集上训练这个模型”,它就会远程或本地启动训练任务。
  • Gradio 技能:构建演示应用。
  • Hugging Face 数据集技能:通过数据集查看器 API 探索数据集。
  • 更多集成,如 Cloud 和 Gemini。

实际操作示例:我让 Cloud Code 训练 Qwen2.5-VL 在 LLaVA-Instruct-Mix(视觉语言数据集)上。智能体会自动计算所需 VRAM,询问验证集比例等,然后启动任务。最后在 Hub 上找到训练好的模型。这不再局限于 LLM 和 VLM,已扩展到目标检测或分割模型的训练,通过简单的命令即可处理。

MCP 服务器的集成

Hugging Face 通过 MCP 服务器将 Hub 连接到你的 LLM,提供模型、数据集、Space 以及任务搜索、Space 语义搜索等功能。Space 就像 AI 应用商店,上面有大量应用。新的 Jobs 功能允许启动一次性任务,按运行时间付费,并且可通过 MCP 查询。

例如,我让模型生成一张“用纱线做成的果仁蜜饼”的图片,模型调用 Hugging Face 的 Qwen-Image 远程图像生成模型并返回结果。若要使用更多 Space,需在 MCP 中启用“动态 Space”(实验性)。

实践案例:OCR 处理 3 万篇论文

我的同事 Neils 构建了一个实用的工作流:利用开放 OCR 模型和 Jobs,对 Hugging Face Hub 上的 AI 论文进行 OCR。步骤包括:

  1. 挑选便宜且性能好的 OCR 模型(例如 Chandra,但实际应参考 OCR Bench 的排名)。
  2. 让 LLM 通过技能(如“哪个模型最适合 OCR 微调?”)得到建议,并编写处理脚本。
  3. 智能体自动估算实例资源,计算运行成本,在 Hugging Face 基础设施上启动任务。
  4. 使用新发布的 Buckets 产品(类似 S3 Bucket,更便宜更快)存储结果。

整个过程无需手动估算资源,智能体处理一切。


Source: https://www.youtube.com/watch?v=OV56RddyFuU (YouTube)

相似文章

zai-org/GLM-5.1

Hugging Face Models Trending

GLM-5.1 是一款新一代旗舰AI模型,针对代理工程进行了优化,编码能力显著增强,在SWE-Bench Pro上达到了最先进性能,并通过扩展迭代和工具使用展示了卓越的长周期任务处理能力。