@dabit3: Tokenmaxxing 已死。大家都意识到用token使用量来衡量生产力是个糟糕的方法。那么接下来我们该怎么做……

X AI KOLs Following 2026/06/07 03:12 新闻

ai-productivity token-metrics output-measurement devin cognition adaptive-routing

摘要

讨论AI采用中从基于token的生产力指标转向产出、影响和价值衡量，重点介绍Cognition的解决方案：自适应路由、支出归因、自动化以及生产力保障。

Tokenmaxxing 已死。大家都意识到用token使用量来衡量生产力是个糟糕的方法。那么接下来我们该怎么做？ AI采用的下一阶段将基于可追溯的产出、影响和价值：你从每个代理会话中获得了多少实际价值？以下是我们@cognition解决这一问题的一些方法： 1. 自适应路由（Adaptive Routing）——一个智能模型路由器，能自动为每个任务选择最佳AI模型。（其他产品也开始采用这一功能） 2. 支出归因（Spend Attribution）——@cognition自动根据每个代理会话的实际工作内容（功能开发、Bug修复、迁移、测试）进行分类，并在合并的PR旁边向管理员展示每项工作的支出。你可以清晰地看到每一美元花在了哪里，以及它带来了什么结果。 3. 高级自动化（Advanced Automations）——将代理会话与那些已经消耗团队工程工时的关键事件连接起来：PagerDuty中的生产事故、失败的部署、收入关键服务的告警。每个触发器对应原本需要叫醒人工处理的工作，因此价值并非空谈，可以直接追溯到它所取代的工作。 4. AI生产力保障（AI Productivity Guarantee）——如果@DevinAI交付的工程价值低于你支付的费用，@cognition将资助你的使用，直到价值达标为止，企业客户最高可获得1000万美元的资助。这些只是我们正在实施和探索的部分领域，但更广泛的观点是：衡量AI价值的设计空间仍然很大。胜出的将是那些能够证明、积累并最大化实际影响力的团队。

查看原文

查看缓存全文

缓存时间: 2026/06/08 05:14

Token最大化已经行不通了。大家都意识到用 token 用量来衡量生产力是很糟糕的方式。那我们接下来该怎么做？

AI 应用的下一个阶段将基于可追溯的输出、影响和价值：你从每个 agent 会话中获得了多少实际价值？

以下是我们 @cognition 解决这个问题的部分方法：

自适应路由 - 一个智能模型路由器，能自动为每个任务选择最佳 AI 模型。（其他产品也开始采用这种方式）
支出归因 - @cognition 自动分类每个 agent 会话的实际工作（功能开发、bug 修复、迁移、测试），并在 PR 合并旁边向管理员展示每项工作背后的支出。你可以从每一分钱的支出直接追溯到它带来的成果。
高级自动化 - 将 agent 会话与那些本就需要团队投入工程时长的事件连接起来：PagerDuty 上的生产事故、失败的部署、关键收入服务的告警。每个触发器对应原本需要呼叫人类处理的工作，因此价值不是理论上的，可以直接追溯到它所替代的工作。
AI 生产力保障 - 如果 @DevinAI 交付的工程价值低于你的投入，@cognition 将资助你的使用直到它达到目标，企业客户最高可获 1000 万美元。

这些只是我们正在行动和探索的部分领域，但更广泛的观点是：衡量 AI 价值的设计空间仍然很大。胜出的将是那些能够证明、放大并运营出最大影响力的团队。

谢谢！我认为模型路由是那种，和模型本身一样，会随着时间推移越来越好，终有一天会非常出色的东西。

非常有趣，@dabit3！感谢分享！这确实打开了讨论的空间，看起来是正确方向，为团队点赞。

我只有一个问题。当你免费使用像 SWE 1.6 这样的模型或使用本地模型时，支出归因如何工作？

这种支出归因有意义吗？我的意思是，没有什么是真正免费的，对吧？所以非常想知道内部是如何处理的，以及是否可以分享？谢谢！

@dabit3: Tokenmaxxing 已死。大家都意识到用token使用量来衡量生产力是个糟糕的方法。那么接下来我们该怎么做……

相似文章

@sdianahu: tokenmaxxing 并不是‘花费更多 tokens’，而是相反：tokenmaxxing = 选择要最大化正确指标，然后让其他一切尽可能……

@aiDotEngineer：Tokenmaxxing、生产力与内部 AI 平台——@swyx 对话《The Pragmatic Engineer》编辑 @GergelyOrosz

@HaydnBelfield：听说tokenmaxxing实验和token排行榜的主要好处似乎是启发/探索性的…

@rohanpaul_ai: "并非所有令牌都生而平等，有一种方法可以看待令牌的价值。有两个关键因素影响令牌价值…"

Token消耗狂飙正成为一类生产事故。你如何为AI代理费用设置上限？

提交意见反馈