逐步思考让准确率提升3%,但成本翻倍
摘要
一位开发者测试在客户支持AI助手中加入'逐步思考'提示,获得了3%的准确率提升,但延迟增加了40%,成本翻倍。结论是净效果为负面,并强调了衡量生产环境权衡的重要性。
我在客户支持助手的系统提示中添加了'think step by step'。准确率提升了3%。延迟增加了40%。每次查询的成本翻倍了。所以我可以得出结论:净效果是负面的。如果我不做这个实验,我可能会直接上线,因为单独看准确率提升很吸引人。但延迟和成本的影响除非你明确去测量,否则基本上是看不见的。好奇其他人是否发现某些提示工程最佳实践在生产环境测试时完全失败。你现在在优化哪些权衡——质量、延迟、成本、可靠性等?
相似文章
当我最终对智能体的工具调用进行监控时,成本分解让我感到惊讶。几点经验教训。
作者分享了监控AI智能体工具调用的经验教训,揭示了像web_search这样的工具可能占支出的约50%,并强调了追踪p95延迟以及按工作流或客户归因成本的重要性,以避免意外。
Salesforce运行自家AI Agents基准测试,你看到了吗?
讨论Salesforce的CRMArena-Pro基准测试,结果显示代理在单轮任务中成功率为58%,在多轮任务中骤降至35%;并给出实用建议:将代理工作流拆分为狭窄阶段,以减少错误累积。
@IntuitMachine:你的AI编程代理仅修复一个bug就烧掉2美元。你以为这是“廉价自动化”。以下是16,000次生产运行揭示的真相…
对AI编程代理成本的分析显示,代理工作流消耗的token数可达简单ChatGPT调用的3500倍,大部分浪费来自冗余的上下文加载。文章建议追踪重复的文件操作并使用高效模型降低成本。
我们不再让AI代理提前规划三步,可靠性迅速提升
一位实践者观察到,限制AI代理每次只规划一步而非多步,能显著提升涉及CRM和潜在客户资格认定的现实自动化工作流的可靠性,因为长期计划在外部状态变化时变得脆弱。
评估了一个RAG聊天机器人,最昂贵的模型表现最差。关于真正影响性能的因素的笔记。
对RAG客户支持聊天机器人的详细评估揭示:检索问题常被误认为是LLM问题,启发式评估器具有误导性,去重可提升质量,严格基于文档的约束会在帮助性和准确性之间取舍,而模型扫查可在提升性能的同时大幅降低成本。