标签
本文介绍了一种简单的模式,将AI智能体工具分为安全与危险两类,将发送邮件、删除文件等危险操作路由到人工审批节点,以防止意外执行。
将温度设置为0并不能保证智能体中的工具调用具有确定性,原因在于批处理推理会导致浮点数归约顺序发生变化,从而引发token翻转,并在负载下产生不同的动作。
Design Arena宣布推出Agentic Game Development,这是一种新的多文件、多轮评估,可访问资产目录、内置库(如Howler和Tween.js),并扩展了用于精灵生成和资产发现的工具调用。
Cursor 发布了自动审查模式,该模式允许代理以更少的批准提示执行工具调用,同时保持安全。
作者分享了监控AI智能体工具调用的经验教训,揭示了像web_search这样的工具可能占支出的约50%,并强调了追踪p95延迟以及按工作流或客户归因成本的重要性,以避免意外。
LLC 是 OpenWebUI 的轻量级替代品,用于运行本地大语言模型。最新 v0.6 版本新增了聊天转换器以导入 OpenWebUI 历史记录,以及支持用户自定义工具调用的功能。
一位运行多个代理的用户报告称,升级到GPT-5.5后,模型突然在执行工具调用方面能力下降,更倾向于给出建议而非实际执行,推测OpenAI可能在进行限流以管理负载。