@aiDotEngineer: 您的智能体现在可以训练模型。来自@mervenoyann 的观点:开源模型已经迎头赶上。GLM 5.1 在人工智能分析指数上领先……
摘要
@mervenoyann 的演讲展示了开源模型(如 GLM 5.1)已赶上闭源模型,并说明了 Hugging Face 生态系统如何让智能体训练模型、执行推理和构建工作流。
查看缓存全文
缓存时间: 2026/05/13 18:25
你的智能体现在可以训练模型了。@mervenoyann 的观点:开源模型已经迎头赶上。GLM 5.1 在 Artificial Analysis 智能指数上领先闭源模型,并且差距在每个发布周期都在缩小。获得权重意味着你可以对模型进行量化、微调,并部署到边缘设备,而数据无需离开你的基础设施。https://youtube.com/watch?v=OV56RddyFuU… 这场演讲介绍了为智能体工作构建的 Hugging Face 生态系统:支持工具使用路由的推理提供商、用于根据 Hub 上 SWE bench 分数筛选的基准数据集、用于存储智能体会话的追踪仓库类型,以及可插入编码智能体的技能。压轴是现场演示:她让 Claude Code 按名称在一个数据集上微调视觉语言模型。智能体计算 VRAM 需求,选择一个实例,然后启动任务。过去需要一整天估算的工作,现在只需一个提示。
TL;DR
Hugging Face 开源团队展示了开放模型已全面追平闭源模型,智能体现在可以直接利用 Hugging Face Hub 训练模型、运行推理,并通过 MCP 服务器、技能和追踪数据集等工具,轻松构建本地或远程的 AI 工作流。
开源模型的现状与优势
在机器学习领域,开源是决定性的驱动力。模型分为几种类型:
- 开放权重模型:采用非商业许可,仅开放权重。
- 开源模型:使用可商业许可,如 DeepSeek 的 MIT 许可或 Apache 2.0。
- 更开放的模型:连代码都完全开放。
完全开放的好处在于:你不需要担心云服务商隐藏的性能下降问题,一切透明。同时,你可以自由地缩小、量化或微调模型,并安全地部署到边缘设备或浏览器,数据不会外泄——这在当前安全环境下尤为重要。
几年前有人认为开源模型不如闭源模型,但事实并非如此。最新发布的 GLM 5.1 在多项基准上彻底超越了闭源模型,甚至我本人正在编程中使用它。Artificial Analysis Intelligence Index 显示,绿色(开放模型)已全面赶上黑色(闭源模型),而且随着后续模型发布,差距会进一步拉开。
Hugging Face Hub:智能体生态系统的核心
所有开源发布都通过 Hugging Face Hub 进行。Hub 目前托管了近 300 万个模型、大量数据集和 Space(AI 应用商店)。在模型页面筛选“智能体”时,绝大多数是热门模型,主要包括:
- 视觉语言模型(VLM):可作为基于截图操作的计算机智能体,知道点击哪里。
- 大语言模型(LLM):许多模型在发布当天就获得视觉能力,如 Gemma 4(全能模型/智能体)、Qwen2.5-VL、Kimi 2.5 等。
运行这些模型极其简单:使用 VLM ML 或 llama.cpp 服务器,只需几行代码。过去这很麻烦,现在完全不是问题。
为了比较开放模型,Hub 推出了 “基准数据集” 功能。在数据集页面的左侧底部点击“基准”,即可查看流行基准(如 SWE-bench Pro、Humanity’s Last Exam、AIME)的排名。例如在 SWE-bench 上,GLM 5.1 目前位居榜首,帮助用户从 300 万个模型中选择。
如果你只想“感受”模型,Hugging Face 的 “推理提供者” 服务会将最优模型路由至最快/最便宜的提供商(Groq、Cerebras 等),并支持“工具使用”列,方便为智能体用例挑选模型。
本地编程智能体的选择
多种本地编程智能体可供选择:
- Pie:设置超级简单,可将 llama.cpp 提供的本地模型直接消费,也可与远程推理提供者配合。
- llama-agent:内置于 llama.cpp 的二进制文件,直接执行并给出 Hugging Face Hub ID 即可启动模型。
Hermes Agent:推荐与开放模型搭配
我最喜欢的工具之一是 Hermes Agent。它比开源 Claw 更进一步,涉及内存管理,上手简单。可以本地使用,也可与 Hugging Face 推理提供者配合。安装向导会处理一切,你只需提供密钥,即可集成到 Slack、WhatsApp 等应用中。
我强烈推荐使用 GLM 5.1 作为开放模型。例如,我初始整合 Slack 失败后,让 GLM 5.1 用 Hermes Agent 自行修复,它成功完成了。GLM 5.1 是非常优秀的模型,我也期待搭配 Gemma 4,同时周末传闻的 Minimax 模型也值得尝试。
智能体追踪数据集(Traces)
Hugging Face Hub 新增了名为 “Traces” 的数据集存储类型,用于存放 Codex、Cloud Code 或 Pie 的追踪数据。在数据集查看器中点击“Traces”列,会弹出解析优雅的界面,方便浏览数据,甚至可基于此训练模型。推送追踪只需从对应路径上传会话,我们很可能很快会为 Traces 提供 Hermes Agent 支持。
技能:让智能体训练模型
Hugging Face 技能(Skills)允许智能体训练、推理、探索数据集或使用 AI 应用。主要包括:
- Hugging Face CLI 技能:智能体可管理仓库、运行任务、启动演示等。通过搜索“HF skills”可找到相关命令。
- LLM 训练技能:不仅支持 LLM,也支持视觉语言模型。只需告诉模型“在这个数据集上训练这个模型”,它就会远程或本地启动训练任务。
- Gradio 技能:构建演示应用。
- Hugging Face 数据集技能:通过数据集查看器 API 探索数据集。
- 更多集成,如 Cloud 和 Gemini。
实际操作示例:我让 Cloud Code 训练 Qwen2.5-VL 在 LLaVA-Instruct-Mix(视觉语言数据集)上。智能体会自动计算所需 VRAM,询问验证集比例等,然后启动任务。最后在 Hub 上找到训练好的模型。这不再局限于 LLM 和 VLM,已扩展到目标检测或分割模型的训练,通过简单的命令即可处理。
MCP 服务器的集成
Hugging Face 通过 MCP 服务器将 Hub 连接到你的 LLM,提供模型、数据集、Space 以及任务搜索、Space 语义搜索等功能。Space 就像 AI 应用商店,上面有大量应用。新的 Jobs 功能允许启动一次性任务,按运行时间付费,并且可通过 MCP 查询。
例如,我让模型生成一张“用纱线做成的果仁蜜饼”的图片,模型调用 Hugging Face 的 Qwen-Image 远程图像生成模型并返回结果。若要使用更多 Space,需在 MCP 中启用“动态 Space”(实验性)。
实践案例:OCR 处理 3 万篇论文
我的同事 Neils 构建了一个实用的工作流:利用开放 OCR 模型和 Jobs,对 Hugging Face Hub 上的 AI 论文进行 OCR。步骤包括:
- 挑选便宜且性能好的 OCR 模型(例如 Chandra,但实际应参考 OCR Bench 的排名)。
- 让 LLM 通过技能(如“哪个模型最适合 OCR 微调?”)得到建议,并编写处理脚本。
- 智能体自动估算实例资源,计算运行成本,在 Hugging Face 基础设施上启动任务。
- 使用新发布的 Buckets 产品(类似 S3 Bucket,更便宜更快)存储结果。
整个过程无需手动估算资源,智能体处理一切。
Source: https://www.youtube.com/watch?v=OV56RddyFuU (YouTube)
相似文章
@aiDotEngineer:DeepMind 开源模型家族 Gemma https://youtube.com/watch?v=_gVFUEdhCyI… 在 Gemma 4 发布后首次公开演讲中…
Google DeepMind 的 Gemma 系列开源模型下载量已突破 5 亿次,被誉为“单位比特能力最高”的开源大语言模型。
@ClementDelangue:路由和后训练开源模型不仅能让你的系统更准确,还能显著提升速度并降低成本……
讨论路由和后训练开源模型如何在准确性、速度和成本上超越前沿模型。Harvey与Fireworks AI的合作表明,混合法律代理在质量和成本上均优于前沿模型。
zai-org/GLM-5.1
GLM-5.1 是一款新一代旗舰AI模型,针对代理工程进行了优化,编码能力显著增强,在SWE-Bench Pro上达到了最先进性能,并通过扩展迭代和工具使用展示了卓越的长周期任务处理能力。
Show HN: GoModel – 开源 Go 语言 AI 网关,体积仅为 LiteLLM 的 1/44
GoModel 是一款用 Go 编写的全新开源 AI 网关,提供统一的 OpenAI 兼容 API,支持多家模型提供商,宣称体积比 LiteLLM 小 44 倍。
@AnandButani:@huggingface 的 ml-intern 太疯狂了,只需一句高层提示(“打造最强科学推理模型”或“碾压医疗基准”)……
Hugging Face 开源的“ml-intern”智能体仅需一句高层提示,即可自动化完成后训练全流程:从文献调研、数据清洗到模型调优。