我的智能体太贵了!关于你的 LLM Token 消耗,你希望早知道什么?
摘要
一个关于运行 LLM 智能体成本高昂的讨论帖,用户分享抱怨并寻求关于追踪 Token 花费及提高效率的建议。
几乎每天我都在 Reddit 上看到不同社区的发帖抱怨 LLM 成本太高。我看到:
* 人们对账单感到惊讶
* 许多人没有简单的方法来追踪跨智能体的花费
* 其他人无法找出浪费钱的地方。
另一类常见的问题和帖子是关于如何让 LLM 更高效,无论是通过切换模型还是改进工作流程。我想知道:
*除 Token 和成本追踪外,关于智能体花费,你希望提前知道哪些事情?*
例如:
* 我的花费是否比其他有类似工作负载/活动的人更高?
* 如果我没有改变任何东西,为什么我的花费在上升?
* 高效的智能体工作流程是什么样的?我该如何改进?
在评论中告诉我吧。
相似文章
免费 LLM API
该服务每月通过 API 提供 10 亿免费 LLM tokens。
大语言模型搜索代理的推理时预算控制
本文提出了一种用于大语言模型(LLM)搜索代理的两阶段推理时预算控制方法,利用信息价值(VOI)分数在多跳问答过程中优化工具调用和 Token 分配。
@ArizePhoenix:谁来评判评估者?当你使用LLM作为评判者时,你正在信任一个模型来决定你的代理、工作流……
本文讨论了使用Arize Phoenix调试和评估LLM评判者所面临的挑战,Arize Phoenix通过OpenTelemetry追踪评估者运行过程,以检查决策逻辑、成本和潜在偏差。
GenericAgent:一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体(V1.0)
本文介绍了 GenericAgent,这是一种旨在最大化上下文信息密度的自我演进式大语言模型智能体系统。它通过分层记忆、可复用的标准操作流程(SOP)以及高效压缩技术,解决了长周期任务的局限性,在与领先智能体的对比中,以更少的 Token 消耗实现了更优的性能表现。
避免想太多与想太少:面向课程感知的LLM预算调度
BACR通过自适应token预算与课程感知调度,防止LLM在简单题上想太多、在难题上想太少,token用量降低34%,准确率最高提升8.3%。