标签
TextGen(前身为 text-generation-webui)已更新为 Windows、Linux 和 macOS 的原生、免安装桌面应用程序,提供增强的隐私保护、ik_llama.cpp 支持以及原生工具调用功能,作为 LM Studio 的开源替代方案。
文章介绍了由 Cactus-Compute 开发的 2600 万参数模型 Needle,该模型专为单次工具调用设计。文章主张将工具路由从推理中分离出来,作为一种结构化预测任务,以提高代理(agent)的效率并降低延迟。
本文认为,在以数据为中心的大语言模型智能体任务中,采用延迟重规划的全视野规划比逐步执行更为高效,在保持准确率的同时大幅减少了Token消耗。
本文介绍了 Switchcraft,这是首个专为智能体工具调用优化的 AI 模型路由器,旨在降低推理成本。通过使用轻量级的 DistilBERT 分类器,它在保持高工具使用准确性的同时,实现了显著的成本节约。
本文介绍了 MIST,这是一个用于训练多模态语音助手以控制智能家居中物联网(IoT)设备的合成数据集与框架。研究凸显了开放权重模型与闭源权重模型在处理复杂的基于语音的工具调用任务时,存在显著的性能差距。
这篇来自苹果的研究论文介绍了“强化智能体”(Reinforced Agent)方法,通过使用专门的审稿智能体在实时执行过程中修正工具调用错误,将评估纳入执行循环。它在 BFCL 和 τ²-Bench 等基准测试上展示了显著的准确性提升,而无需重新训练基础智能体。
Rhys Sullivan 正在构建 Executor,这是一个面向 AI 智能体的开源集成层,提供统一的工具目录,具备访问控制、破坏性操作审批流程,并支持 MCP、OpenAPI、GraphQL 等协议。它旨在标准化不同智能体(如 Cursor 和 Claude Code)之间的工具调用方式。
BioTool 引入了一个全面的生物医学工具调用数据集,包含34个工具和7,040个人工验证的查询-API对,使得经过微调的大型语言模型在生物医学工具使用上超越GPT-5.1,并显著提升答案质量。
斯坦福教授发布免费1小时讲座,系统讲解AI智能体、工具调用、多步工作流、规划与反思的核心原理。
IBM 发布 Granite-4.1-8B:Apache 2.0 许可的 80 亿参数长上下文 Instruct 模型,工具调用与多语言能力全面升级。
Moonshot开源发布了Kimi K2.6模型,支持单次会话4000次工具调用与300个子代理并行,在SWE-Bench Pro等多项基准上取得SOTA,并声称性能打平Claude Opus 4.6和GPT-5.4。
PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。
OpenAI 宣布为 Responses API 推出新工具和功能,包括对远程 Model Context Protocol (MCP) 服务器、图像生成、Code Interpreter 和改进的文件搜索功能的支持。此次更新还使 o3 和 o4-mini 模型能够在其思维链中直接调用工具,同时推出了后台运行和加密推理项目等新的企业功能。