@victormustar: https://x.com/victormustar/status/2059264598407033062

X AI KOLs Following 2026/05/26 13:25 工具

zero-gpu hugging-face ai-agents autonomous-deployment talking-avatar open-source gradio

摘要

这篇文章描述了如何使用Hugging Face的ZeroGPU和一个编码代理，以有限的预算自主部署AI模型，特别是LongCat说话头像模型。

https://t.co/yaEgxD82X0

查看原文

查看缓存全文

缓存时间: 2026/05/26 14:54

给你的智能体配备 ZeroGPU，让它自主发布病毒式 AI 应用（使用 /goal）

我是如何在一次智能体会话中创建 LongCat-Video-Avatar 1.5 Space（运行在 ZeroGPU 上，比参考路径快 35%，MIT 许可模型）的。

Victor M@victormustar·5 月 24 日新：LongCat 刚刚发布了一个出色的开源说话头像模型（可能是 SOTA）+ MIT 许可

为它创建了一个 Hugging Face Space，非常令人印象深刻。可以用它构建很多很酷的产品：带人脸的人工智能导师、配音管道、说话头的编码智能体显示更多引用Victor M@victormustar·2024 年 4 月 8 日0:14制作一个检查我正在做什么的 AI 精灵，他狠狠地嘲讽我 442871.8K191K

关键：Hugging Face PRO 订阅给你的智能体提供了自己的 AI 实验室（一个实时的 ZeroGPU Space）以及每天 40 分钟的 Blackwell GPU 使用时间。设定目标，粘贴要点，然后走开。智能体会自主设计、部署、通过实时 API 测试、修复并发布。完全自主。

下面就是确切的配方。任何人都能做到。

你需要什么

Hugging Face PRO（每月 9 美元）：托管最多 10 个 ZeroGPU Spaces，每天 40 分钟 Blackwell（48 GB）使用时间，优先队列。超出配额后：如果需要，可以使用预付费信用额度，每 10 分钟 1 美元。
任何像样的编码智能体： Codex CLI、Claude Code、Cursor 等。推荐：支持 /goal（Codex CLI、Claude Code）的智能体，这样它就可以在许多轮次中自主地朝目标迭代。
你想要演示的模型： 本例中为 meituan-longcat/LongCat-Video-Avatar-1.5。

就是这样。没有基础设施，没有 Docker，没有 Kubernetes，没有 GPU 租赁，没有 Vercel 账单。你 git push，然后一个带有公共 URL 的卡片就会出现，运行在 Blackwell 上。

为什么 ZeroGPU 是关键

普通的云 GPU = 24/7 租赁，即使空闲也要付费。ZeroGPU = GPU 只在你的函数运行时附加，然后分离。你只需要装饰一个函数：

你每月 9 美元的费用允许人们免费使用你的 Space。访问者不需要 HF 账户。匿名用户每天有 2 分钟 GPU 时间，免费账户每天 5 分钟，PRO 用户每天 40 分钟。配额是他们的，不是你的。
你只在装饰调用期间消耗 GPU 时间。空闲 = 免费。
模型放在模块级别的 cuda 上（PyTorch CUDA 模拟在真实 GPU 附加之前处理）。
仅限 Gradio SDK；PyTorch 2.8+；Python 3.10 或 3.12。

这是互联网上最便宜的严肃计算资源，用于向广大受众发布演示。

配方

设置（一次性）：订阅 Hugging Face PRO（每月 9 美元）。这解锁了两件事：托管你自己的 ZeroGPU Spaces，以及每天 40 分钟的 ZeroGPU 配额（每 24 小时重置一次）。然后使用官方的一行命令安装 hf CLI 并登录：

将此内容粘贴到你的智能体中（Codex CLI 或 Claude Code，两者都支持 /goal）：

这就是整个启动过程。两个不太明显的行是“部署的 Space 就是你的 AI 实验室”和“通过调用实时 API 验证每一个更改”。它们共同授权智能体自主操作：它拥有部署循环，拥有验证，你无需介入其中。

gist 链接完成了其余的重任。它教会智能体：

构建很慢（1 到 15 分钟），读取日志是即时的 → 通过日志迭代，而不是猜测。
迭代阶梯：热重载 → 开发模式 SSH → 选择性上传 → 完全重建。
ZeroGPU 模式：模型放在模块级别的 cuda 上，@spaces.GPU 用于推理，动态 duration=callable，对于 ≥10B 的 LLM 使用 4 位 NF4。
验证意味着通过 gradio_client.Client 实际调用已部署的 API 并检查输出文件。
一旦你有了第一个实时版本，用一行命令来调整行为：“查看关于 xlarge 的 ZeroGPU 文档”、“缓存 Gradio 示例”、“将生成限制为 4 秒”。智能体集成每一个更改并继续前进。

智能体实际做了什么

在大约 2 小时内执行了 533 个 shell 命令。循环：hf spaces logs（×97），hf spaces info（×50），hf upload 选择性的（×18），hf spaces restart（×12），然后 gradio_client.Client(...).predict(...) 对每个更改计时实时 API。

发布：DBCache（来自 CacheDiT）缓存去噪步骤 [2, 4, 6]，生成速度提升 35%（186 秒 → 121 秒），Gradio 6.10 + 8 步 DMD2 INT8 DiT，cache_examples=True，cache_mode="lazy"（1.3 秒而不是 80 秒），示例使用 ElevenLabs 语音。当被问及 xlarge 时，它阅读了文档，揭示了权衡（2 倍配额，更长的队列，完整的 Blackwell），然后部署在上面。这是自主决策，而不是你在旁边照看。

最终标签：1,834,906 个令牌，大约 2 小时 2 分钟（GPU 仍然每月 9 美元）。

为什么这个堆栈目前击败了其他一切

每月 9 美元的固定托管费用。没有每次请求的意外账单。
ZeroGPU = 空闲免费。一个演示有 0 个用户或 1 万个用户成本相同。那些爆红的演示会在 Hugging Face 的基础设施上自动扩展。
开箱即用的公共 URL。https://huggingface.co/spaces/victor/LongCat-Video-Avatar-1.5 可分享、可嵌入、可被索引。
智能体原生循环。hf CLI + gradio_client + --follow logs 意味着智能体可以驱动整个编辑-部署-验证循环，无需人类参与。

社区会看到它。一个热门的 Space 会出现在 Hub 主页上。分发是内置的。

让我们开始：选择一个 SOTA 开源模型，给你的智能体提供 gist 和一个启动提示，然后发布。

@victormustar: https://x.com/victormustar/status/2059264598407033062

给你的智能体配备 ZeroGPU，让它自主发布病毒式 AI 应用（使用 /goal）

你需要什么

为什么 ZeroGPU 是关键

配方

智能体实际做了什么

为什么这个堆栈目前击败了其他一切

相似文章

@victormustar: 新消息：LongCat 刚刚发布了一个优秀的开源说话头像模型（可能是 SOTA）+ MIT 许可，制作了一个 Hugging F…

@RoundtableSpace：Hugging Face 用智能体把整个后训练团队自动化了。它会读论文、跑 GPU 实验、反复迭代……

使用 Unsloth 和 Hugging Face Jobs 免费训练 AI 模型

@SergioPaniego: https://x.com/SergioPaniego/status/2066498136273531363

@PrajwalTomar_: https://x.com/PrajwalTomar_/status/2069409824824316060

提交意见反馈