@tunguz:这是一个重要原因。非LLM推理任务的时间只会增加。然而,工具…
摘要
一篇文章指出,现代自主编码中42%的时间用于基于CPU的工具使用,效率低下,这为重新设计面向AI代理的工具提供了巨大机遇。
查看缓存全文
缓存时间: 2026/05/24 00:13
以下是一个重要原因。非LLM推理任务所耗费的时间只会不断增加。然而,这些AI系统所使用的工具非常低效,且是从头为CPU和人类使用场景构建的。这其中存在一个巨大的、未被开发的机遇:从一开始就以AI智能体为核心,大幅改进这些流程。
SemiAnalysis (@SemiAnalysis_): 事实警报🚨:在现代智能体编程中,42%的时间花费在CPU上,用于工具使用,例如编辑文件、运行Bash脚本、运行代码检查等。传统云计算经济的计费方式是按每CPU核心收费。而在智能体经济中,商业模式是按……
相似文章
LLM代理已经知道何时调用工具——甚至无需推理
本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。
超越LLM:为何可扩展的企业AI落地依赖于Agent逻辑
IBM Research探索了Agent逻辑——诸如知识图谱和程序分析等软件原语——如何引导基于LLM的Agent高效处理复杂的企业工作流,减少幻觉和成本,同时改善结果。
GLM 5.1 战略思考,数据中心反抗加剧,当有用的LLM变得无用时,人形机器人开始工作
Andrew Ng 讨论了编码代理如何以不同速度加速不同类型的软件工作,其中前端开发受益最大,研究受益最小。
AI智能体
分析高盛研究,对比AI智能体与人类在编码、支持和数据录入方面的成本,并预测token消耗增长及推理成本下降。讨论生产力提升、岗位替代及医疗健康领域的机遇。
面向低延迟多智能体工具调用的有状态推理架构
本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。