五个实验室,五种思维:基于小模型构建多模型金融剧(6分钟阅读)

TLDR AI 工具

摘要

关于构建多模型金融剧游戏的实地报告,其中每个代理运行在不同实验室的小模型上,展示了模型异构性的工程挑战和优势。

黑客马拉松的Thousand Token Wood v2游戏使用了来自OpenAI、NVIDIA、OpenBMB和Qwen的小模型,创造了多样化的代理行为。
查看原文
查看缓存全文

缓存时间: 2026/06/08 15:13

五套模型,五种思维:用小型模型构建多模型金融剧情

来源:https://huggingface.co/blog/build-small-hackathon/thousand-token-wood-sim-v2 返回文章列表 (https://huggingface.co/blog)

Lester Leong 的头像 (https://huggingface.co/AdmiralTaco)

  • 异质性本身就是产品,而非约束 (https://huggingface.co/blog/build-small-hackathon/thousand-token-wood-sim-v2#heterogeneity-is-the-product-not-a-constraint)
  • 信息不对称需要防火墙 (https://huggingface.co/blog/build-small-hackathon/thousand-token-wood-sim-v2#information-asymmetry-needs-a-firewall)
  • 记忆是廉价剧情,但需加以限制 (https://huggingface.co/blog/build-small-hackathon/thousand-token-wood-sim-v2#memory-is-cheap-drama-if-you-bound-it)
  • 实际发生了什么 (https://huggingface.co/blog/build-small-hackathon/thousand-token-wood-sim-v2#what-actually-happened)
  • 使用小型模型构建的经验教训 (https://huggingface.co/blog/build-small-hackathon/thousand-token-wood-sim-v2#takeaways-for-building-with-small-models)

第二场 Build Small 黑客松现场报告:当一个涌现经济体中的每个智能体都运行在不同实验室的小型模型上,而玩家则化身为幕后操控的金融家时,会发生什么。

千符森林的第一个版本是一个天气之神的沙盒:五只林地生物在同一个微调的 0.5B 模型上交易货物,你通过冲击来扰动世界,观察泡沫和崩盘的涌现。那是一个不错的玩具,但更像一个旁观而非参与的游戏。

v2 重新构建成了一个你可以操作的博弈。你是森林的庇护者,一位影子金融家:你放贷收息,耳语真假难辨的密报,做空市场,行贿,撮合联盟,同时有一位法官追捕你,因为你交易了你不该知道的信息。生物们会记住你如何对待它们,并暗中反击。最大的变化在引擎盖下:现在每个生物使用不同实验室的小型模型进行思考。这是工程报告。

异质性本身就是产品,而非约束

运行一个智能体委员会最显而易见的方法是使用单一模型、多种提示。v2 运行了四种模型:gpt-oss-20b(OpenAI)、MiniCPM3-4B(OpenBMB)、Nemotron-Mini-4B(NVIDIA),以及一个我自己微调的 Qwen 0.5B。其目的并非为了新奇而新奇。一个市场之所以有趣,是因为参与者真正不同,而四个实验室的模型,在不同数据上训练并采用不同的后处理方法,其差异程度几乎达到了小型模型的极致。猫头鹰囤积的方式与狐狸投机的模式不同。这个委员会是一场活生生的辩论,而非一段脚本。

在同一个平台上运行四个截然不同的模型,揭示了真正的教训:摩擦几乎全部在服务层,而非模型层。

  • 当前的 vLLM(0.22.1)在加载时会 JIT 编译内核,并需要 CUDA 工具包(nvcc)存在。精简的基础镜像不附带它,因此所有四个模型都因“找不到 nvcc”而失败,直到我将它们基于 CUDA 开发镜像。这不是 gpt-oss 的怪癖,而是该版本 vLLM 的普遍问题。一个镜像修复解除了所有障碍。
  • gpt-oss-20b 以其原生的 MXFP4 量化运行,在 24GB 的 L4 GPU 上还有余量,无需高端 GPU。它还使用一种通道格式,将答案包裹在分析前言中,因此消费者需要提取最终通道。
  • MiniCPM3 需要 trust_remote_code;Nemotron 加载干净。每个模型都有各自的小陷阱,但每个只需一行配置即可解决。

让四种异构模型变得可管理的关键原语,与 v1 中让单一模型变得可管理的原语相同:一个容错的 JSON 解析与修复层,所有模型的输出都流经该层。不同的分词器和格式化习惯会产生不同的畸形数据;解析器会丢弃无法修复的部分,模拟永远不会崩溃。构建好这一层后,添加一个模型只需一条配置项,而非一次重构。

信息不对称需要防火墙

v2 的剧情核心在于内幕消息。你可以向一个生物耳语一条消息,它可能是 “真实的”(对下一轮市场狂热走向的真实预测,是你真正的优势)或“虚假的”(诱饵)。根据真实消息行动并获利会增加你的热度;超过阈值,法官就会启动调查,最终导致罚款、资产冻结或流放。

为了让这成为一个真正的游戏,消息的真假必须对生物隐藏。它们看到谣言文本,但绝不能看到标记。这是一个安全属性,而非 UI 上的小点缀,而小型模型智能体让这一点变得尖锐:模型能重复出来的任何内容,就是你放在提示中的内容。因此,隐藏的标记完全放在提示之外(在玩家的账本上),在构造时就从公开事件记录中剥离,叙述者唯一总结的只有公开事件。一个测试会扫描每个生物每次回合的完整提示,查找被禁止的标记。这个测试是整个测试套件中最重要的一项。当你向智能体提供秘密信息时,请假设它会泄露,除非有测试证明它不会。

记忆是廉价剧情,但需加以限制

生物具有持久的关系:对庇护者以及彼此之间带有符号的情感,通过事件(你做空了我的庄稼,你还清了贷款,你让我与对手结盟)进行调整。一个变得敌对的生物会拒绝你的贷款,并给你更差的报价;结盟的生物会停止相互压价,表现得像一个卡特尔。

陷阱在于提示膨胀。原始历史会无限增长,小型模型会被淹没。解决方案是永远不要将历史放入提示:模型看到的是一行分桶摘要(“你对 Oona 感到温暖,对庇护者保持警惕”),仅包含最强的几种情感,源自整型情感值。笔记会为了痕迹而保留,但加以限制且从不展示。行为偏差部分是涌现的(摘要引导模型),部分是机械的(强烈敌对的生物会确定性地拒绝),因此它是可观察和可测试的,而非一种希望。

实际发生了什么

一次具有代表性的委员会运行,启用了完整的 v2 机制:

指标结果
委员会中的模型4 个实验室,均低于 32B 限制,运行在 Modal 上
微调 0.5B 的可靠性0% 自我购买,100% 有效出价(超越了其 3B 教师模型)
真实信息防火墙扫描每个提示,未发现任何消息隐藏标记泄露
内幕消息优势真实消息预置产生正收益;虚假消息则没有
热度到调查两次干净的可疑胜利跨越了法官的界限
崩溃一次追加保证金和贷款违约导致一个生物被放逐,一章后才回归

一次单一种子运行,贯穿了庇护者、信息战争、关系和杠杆的完整流程。

使用小型模型构建的经验教训

小型模型是可靠的格式生成器,但也是不可靠的推理器;你需要通过结构、提示和少量微调来弥补差距,而不是靠规模。一个异构的委员会比同质的更有趣,一旦服务层稳固,就只需配置成本。向智能体提供的秘密信息是一个防火墙问题,防火墙应属于数据流,由测试证明,而非一句提示指令。持久的记忆是让智能体感觉生动的最廉价方式,但前提是提示只看到一个有边界的摘要。

小型模型,大冒险。整个委员会代码已开放,运行轨迹也同样开放。

相似文章

消失的崩盘:五模型经济中的控制与涌现

Hugging Face Blog

一篇技术博客文章,描述了一个黑客马拉松项目,其中五个不同的小型AI模型运行一个模拟经济,揭示了与单一模型相比,使用异构智能体时涌现的市场行为有所不同,并且价格是智能体决策的残留物,而非可控的旋钮。