@morganlinton: 我向Teknium请教,他可能是世界上最聪明的智能体开发者之一,问他最近在工具调用加速方面做了什么……
摘要
Teknium分享了AI智能体中工具调用的最新性能改进,包括延迟导入、减少每轮对话47%的函数调用、以及延迟压缩可行性检查,并附有GitHub上可运行代码的链接。
查看缓存全文
缓存时间: 2026/05/21 17:36
我问了Teknium,他可能是世界上最聪明的智能体开发者之一,他最近为了加速工具调用都做了什么。
这是他分享的内容。远比一篇文章或演示文稿要好,都是真实可用的代码示例。
我的意思是,他算是出了名的10倍效率工程师,这样的人全球屈指可数,而且很少有人像Tek那样分享如此多的流程、代码和工作方式。
我们非常幸运。
相似文章
@akshay_pachaar: https://x.com/akshay_pachaar/status/2053166970166772052
The article discusses a shift in AI agent tool usage from the 'MCP vs CLI' debate to 'Code Mode,' where agents write code to dynamically import tools, significantly reducing context window usage. It highlights Anthropic's approach and Cloudflare's implementation, demonstrating a 98.7% reduction in token consumption for specific tasks.
@tunguz:这是一个重要原因。非LLM推理任务的时间只会增加。然而,工具…
一篇文章指出,现代自主编码中42%的时间用于基于CPU的工具使用,效率低下,这为重新设计面向AI代理的工具提供了巨大机遇。
当我最终对智能体的工具调用进行监控时,成本分解让我感到惊讶。几点经验教训。
作者分享了监控AI智能体工具调用的经验教训,揭示了像web_search这样的工具可能占支出的约50%,并强调了追踪p95延迟以及按工作流或客户归因成本的重要性,以避免意外。
@0xMovez:Anthropic产品负责人刚刚发布了一堂28分钟的大师课,讲解如何将智能体投入实际生产应用……
Anthropic产品负责人发布了一堂免费的28分钟大师课,讲解了如何将AI智能体投入生产,内容包括提示缓存、工具搜索、程序化工具调用、压缩和顾问策略。
@_avichawla: https://x.com/_avichawla/status/2063548691353629040
阐述了传统后端如何增加AI代理的token使用量,并展示了一种上下文工程方法,该方法无需更改模型或提示词即可将Claude Code会话成本降低2.5倍。