Tokenmaxxing 已死,Tokenmaxxing 永存

Hacker News Top 新闻

摘要

对 Meta 等公司的“tokenmaxxing”现象的分析,认为高管们故意鼓励浪费 AI token 使用以推动工具采用,这与意外管理不善的看法相反。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/28 16:58

# Agentics / Tech Things:Tokenmaxxing 已死,tokenmaxxing 万岁 来源:https://12gramsofcarbon.com/p/agentics-tech-things-tokenmaxxing 一般来说,如果你在某样东西上花了数万美元,你总希望看到点回报。某种*投资回报*。 当然,也不总是这样。我之前说过,面向消费者销售有点好笑,因为**他们喜欢把钱花在浪费时间或主动带来痛苦的事情上**(https://12gramsofcarbon.com/p/the-elegance-of-movement-in-silksong?utm_source=publication-search)。这也是如今赌博应用如此流行的部分原因。没错,我很乐意花 100 美元赌 Wemby 在倒立并用法语唱国歌的同时投进一个三分球。¹(https://12gramsofcarbon.com/p/agentics-tech-things-tokenmaxxing#footnote-1) 但对于企业呢?我几乎从未听过某位企业领袖说他们要烧一大笔钱,因为他们觉得很爽——至少不像那些鲸鱼用户会在《原神》抽卡上花几千块那样。想象一下,如果某位严肃的企业领袖,比如马克·扎克伯格,决定宣布 Meta 要烧钱。他*可以*这么做。他拥有投票权。但这会有点愚蠢,不是吗?我通常认为,如果你已经走到了运营真正庞大、真正重要的公司这一步,你大部分时间不会为了找乐子而做事,但有一个明显的例外。 如果你还没听说,tokenmaxxing 是(曾经是?)一种现象:高管们无意中鼓励员工在无用的任务上消耗大量 token。典型的例子——纯属巧合——是 Meta,它被彻底嘲讽,因为将绩效评估与每个人的 token 使用量挂钩。显然,*显然*这会导致人们只是把 token 浪费在无意义的事情上。我在 Meta 的一个朋友报告说,他们实际上只是让两个 agent 整天互相聊天,以提高她的 token 数量。 ![](https://substackcdn.com/image/fetch/$s_!rp_Y!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fd9ca712f-fd31-4c79-94b3-5a0ebe81bdb3_800x786.jpeg) 这是一个如此明显的结局,以至于许多人将其归结为“这些企业领袖真的很蠢,因为他们决定烧掉一大笔钱在 token 上,却不期望任何回报。” 我理解为什么这是一个诱人的观点,因为这多少有点像很多这些事情公开表现出来的样子。但我将做我最喜欢的事情——稍微反潮流一点。这并非是“高管们无意中鼓励员工在无用的任务上消耗大量 token。” 而是“高管们***有意***鼓励员工在无用的任务上消耗大量 token。” 我与许多团队合作,研究如何有效使用 AI。几个月前,有很多人非常抵制使用 AI 工具。高级人员,在组织内备受尊重的人。说服这些人使用工具非常困难。而当你成功说服他们时,他们常常会无意(或有意?)地以一种明显会导致奇怪或糟糕结果的方式使用工具。²(https://12gramsofcarbon.com/p/agentics-tech-things-tokenmaxxing#footnote-2) ![](https://substackcdn.com/image/fetch/$s_!Wdzv!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3a714073-b0f6-4c64-a796-036bdcffeb0d_736x396.png) 不仅仅是高级人员! 看待这种自上而下的 tokenmaxxing 政策的一种方式是,这是高管们用来打破僵局的一种手段。是的,这显然是一种粗暴的政策,但有时你需要用粗暴的力量来突破一堵墙。 当然,那是几个月前的情况,当时还存在着抵制者。现在几个月过去了,tokenmaxxing 政策达到了预期效果:每个人都在使用 AI 编程,至少用了一些。大多数团队还没有弄清楚如何构建自己的 Ramp Inspect 或 Stripe Minions(如果你也是,请联系我们——我们可以帮忙!),但基本上每个人至少都在侧边栏中使用 cursor。当然,这意味着 token 支出大幅上升。不幸的是,但可能并不意外,token 支出的增加正逢 OpenAI 和 Anthropic 试图上市。两家公司都限制了其订阅提供的“果汁”量,同时提高了 API 定价。Token 补贴正逐渐消失。 所以现在激励措施基本消失了,成本大幅上升,当然,团队开始取消他们的无限 token 支出政策。综上所述,tokenmaxxing 已死。 除非……也许并没有。 AI 工具的普遍承诺是,你可以让它们在无人监督的情况下运行,以完成真正困难且真正烦人但仍需完成的任务。大型代码迁移、每天早上研究所有竞争对手、跟上入站和出站的流量——这些都是人们大多讨厌做并希望 AI 来做的事情。 然而,直到最近,你还无法可靠地让 AI 长时间运行。如果你尝试过,你会注意到模型引入的小错误(包括幻觉)会自行发展,并最终不可逆转地嵌入项目中。在行业中,我们称之为“复合错误”。这不仅需要相当多的人工监督,而且*还*使 token 成本保持在低位,因为一开始让 agent 24/7 运行也没什么好处。比方说,如果那个东西只会毁掉你所有的辛勤工作,那么让你的电脑里的小恶魔过夜运行有什么意义呢?如果花更多的 token 会导致*更糟*的结果,你显然不会花更多的 token! 现在情况已不再如此。我们已经进入了一个不同的阶段,花更多的 token 通常会导致更好的结果。我们称之为“复合正确性”——花在纠正任务上的 token 越多,得到好结果的可能性就越大。我们在上次的 Agentics 线下聚会上讨论过这一点(https://agenticsnyc.com/events/may-2026-speaker-series.html): 复合正确性颠覆了计算方式。如果更多的 token 支出带来更好的结果,那么你会想花大量时间运行 token。这听起来当然就像 tokenmaxxing 对我来说!最初的 tokenmax 激励已经消失,但最终人们会意识到,一个新的、更强大的激励已经取而代之。 我们已经在网络安全领域看到了一些这种情况(https://www.dbreunig.com/2026/04/14/cybersecurity-is-proof-of-work-now.html): > 上周我们了解到 Anthropic 的 Mythos,这是一个新的 LLM,其“在计算机安全任务上的能力惊人(https://red.anthropic.com/2026/mythos-preview/)”,以至于 Anthropic 没有公开发布它。相反,**只有关键软件制造商获得了访问权限**(https://www.anthropic.com/glasswing),以便他们有时间加固系统。……这张图表暗示了一种有趣的安全经济学:**要加固一个系统,我们需要花费比攻击者利用漏洞更多的 token 来发现漏洞**。AISI 为每次尝试预算了 1 亿 token。那是每次 Mythos 尝试花费 12,500 美元,十次运行花费 12.5 万美元。令人担忧的是,所有给予 1 亿 token 预算的模型都没有显示出收益递减的迹象。“模型在测试的 token 预算范围内继续取得进展,”AISI 指出。如果只要继续投入资金,Mythos 就会持续发现漏洞,那么安全就简化为一个残酷的等式:**要加固一个系统,你需要花费比攻击者利用漏洞更多的 token 来发现漏洞**。你不会因为聪明而得分。你通过支付更多而获胜。这是一个呼应加密货币工作量证明系统(https://en.wikipedia.org/wiki/Proof_of_work)的系统,其成功与原始计算工作挂钩。这是一个**低温彩票**(https://x.com/lateinteraction/status/2042025859003920574):购买 token,你也许会找到一个漏洞。希望你比攻击者坚持得更久。 Fable 现在已经不幸消失了(https://12gramsofcarbon.com/p/tech-things-there-is-a-massive-shadow?utm_source=publication-search)。但其底层概念仍然存在。 这也是为什么人们突然对“循环”如此兴奋的部分原因。Claude Code 的创建者 Boris Cherny 上台说了“循环”,所有人都疯了。循环的基本思想是,你运行一个 agent 直到它完成任务,当它完成时,你只需重新启动相同的提示。通过一点巧思,你可以将一个相当复杂的规范拆分成多个部分,并让 agent 随时间的推移自动解决。无需人工监督。 这是新东西吗?不,并不是。循环概念实际上从去年七月就有了。它以前被称为“Ralph Wiggum 循环”,但随着行业的成熟,我们的幽默感也成熟了,“Ralph Wiggum”部分被去掉了。 r/TheSimpsons - 哪个场景或时刻让你对一个角色感到最痛苦的同情? (https://substackcdn.com/image/fetch/$s_!WZWz!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F597774da-0817-4f0f-9777-eeeb27fd7aff_260x194.jpeg) 有一些方法可以让循环工作,但很难。你必须大量思考如何提示 agent,这反过来需要对这些东西的工作原理有相当深入的熟悉。但现在,这很容易。复合正确性使它变得容易。你基本上可以按照你想要的任何方式提示 LLM,在第一次近似中,它在每次循环迭代中都会变得更好。 ![](https://substackcdn.com/image/fetch/$s_!C3-j!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F836f2c0a-fabd-46f5-93e1-320c9c19d2c3_632x293.png) 那么 tokenmaxxing 真的死了吗?也许是暂时的,但从长远来看,我不这么认为。处于最前沿的团队目前正在构建或已经构建了必要的 infrastructure 来让 agent 24/7 运行。大型公司意识到成本效益已再次发生转变只是时间问题。 这里真正的赢家是开放模型平台。Tokenmaxxing 顶级实验室永远无法经受任何 CFO 的审视。随着开放模型越来越好,简单地在循环中运行*那些*模型会变得更加流行。这正是 Rohan 上面演讲的核心论点。如果 Claude 每次迭代给你 1.1 倍的提升,而 GLM 5.2 每次迭代给你 1.05 倍的提升但成本低约 5 倍,那么你可以将第二个循环运行 5x 次,它会更好。 最后我想提到的是,一些荒谬的 token 支出源于对使用这些工具最佳方式的严重误解。在编程 agent 真正起飞之前(很大程度上要归功于像 Claude Code 这样更好的 harness),很多人都在构建自己的自定义 agent。那确实是正经工作!你必须像……对待软件一样思考这些东西。找出工具和提示是一门艺术,但其核心仍然是软件,即使它由像 Pydantic 或 Langchain 这样的“AI 原生”框架支持。 你不能把方形的钉子打进圆形的孔里。各地的高管们看到了这种构建 agent 的方式,心想“哦,这只是一个更灵活的 zapier 工作流”,然后要求构建能够完成一次性任务的‘agentic’数据处理管道,而不是用老式确定性代码构建相同的管道。“我需要做数据标注,所以我要构建一个数据标注 agent。”诸如此类。 现在,依赖 agent 来做这些事情已经比仅仅做一个工作流自动化要昂贵得多。但更大的问题是准确性:这些‘agent’从未真正起飞,因为它们永远不会像确定性管道那样准确。 如果你坚持使用 agent 但想降低幻觉等成本,你会怎么做?为什么,再构建一个 agent!一个‘质量检查’agent,或者类似的东西。如果那个 agent 给你错误怎么办?好吧,你再建一个!这样你现在就有了 3x 的 token 成本,好好享受吧! Tokenmaxxing 的故事,再次是关于 RoI 的。这个故事*不仅仅*发生在大型科技公司。它也以不太先进的规模发生在全国各地的公司——这些公司向由独立顾问构建的随机 agent 管道投入了数十亿美元,而这些管道不幸地从未真正很好地工作过。 请注意,这实际上是两种不同类型的 tokenmaxxing。 - 第一种是‘*为你的开发者*在 token 上花很多钱’。在这里,开发者使用像 Claude Code 这样的工具,想出如何运行循环,并使用大量 token 来做这件事。表面上看,这是对金钱的良好使用,因为它让工程师本身更有效率。 - 第二种是‘*为你的管道*在 token 上花很多钱’。在这里,开发者仍然在手动编写代码!他们用这些代码创建一次性 agent 来做非常具体的任务,通常是非确定性和脆弱的,而正是*那些*agent 吞噬了大量 token。只有当管道有效时,这才是一种对金钱的良好使用,但它们并不有效。 但在这里,我们也看到了转变。越来越多地,这种一次性的基于管道的工具,最好由针对特定任务进行皮肤化的通用平台来完成,而不是专门为那一个任务设计的“agent”。这里存在一些市场套利。一些买家还没有意识到通用 agent 已经变得非常好,所以他们会去找顾问,要求“为我构建一个 agent”,而顾问基本上会写一个技能文件,然后说“请付 200 万美元”。 ![](https://substackcdn.com/image/fetch/$s_!VilS!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7577753c-c85c-4337-8466-8cda39b6b6ea_1061x313.png) 幸运的是,这一切也都会过去。通用模型平台对于任何使用过它们的人来说显然是未来(如果你还没用过,再次,请联系我们!)而这,又会再一次导致市场这一部分的 tokenmaxxing 行为上升。 这一切的自然终点是“软件工厂”,或者更进一步,“黑暗工厂”——一个能自动生成代码、审查代码、修复 bug、编写测试等等而无需任何人工监督的代码库。人类只需输入一个规格说明,然后一个应用就出来了。StrongDM 的那帮人(https://www.strongdm.com/blog/the-strongdm-software-factory-building-software-with-ai)已经将其推到了最极端的程度,主张工程师应该以*每天花费 1000 美元 token*(https://simonwillison.net/2026/Feb/7/software-factory/)为目标。这几乎肯定是炒作,是长期趋势的一部分,即通过说离谱的话来获得关注和热度。我们有一个软件工厂,我们每月大约花 600 美元。但炒作和热度之所以出现,是因为尽管目前每个工程师在 token 上花费相当于一名高级谷歌工程师的薪资是荒谬的,但其中确实有一丝真相。花费荒谬金额在 token 上的激励是存在的,潜在的,等待着扩散。 旧物换新颜,已死之物永不灭。Tokenmaxxing 已死,但我们还没有看到 tokenmaxxing 的最后一面。 - GPT 5.6 发布了,算是吧。来自公告(https://openai.com/index/previewing-gpt-5-6-sol/):> 我们正在开始一个有限的预览,关

相似文章

Tokenmaxing已过时 - 节约型AI成新趋势

Reddit r/ArtificialInteligence

Tokenmaxing(无限AI令牌使用)的时代正在结束,因为企业面临高昂成本和生态破坏,取而代之的是tokenminimizing——注重效率并为任务选择合适的AI模型。