标签
Rhys Sullivan 正在构建 Executor,这是一个面向 AI 智能体的开源集成层,提供统一的工具目录,具备访问控制、破坏性操作审批流程,并支持 MCP、OpenAPI、GraphQL 等协议。它旨在标准化不同智能体(如 Cursor 和 Claude Code)之间的工具调用方式。
BioTool 引入了一个全面的生物医学工具调用数据集,包含34个工具和7,040个人工验证的查询-API对,使得经过微调的大型语言模型在生物医学工具使用上超越GPT-5.1,并显著提升答案质量。
斯坦福教授发布免费1小时讲座,系统讲解AI智能体、工具调用、多步工作流、规划与反思的核心原理。
IBM 发布 Granite-4.1-8B:Apache 2.0 许可的 80 亿参数长上下文 Instruct 模型,工具调用与多语言能力全面升级。
Moonshot开源发布了Kimi K2.6模型,支持单次会话4000次工具调用与300个子代理并行,在SWE-Bench Pro等多项基准上取得SOTA,并声称性能打平Claude Opus 4.6和GPT-5.4。
PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。
OpenAI 宣布为 Responses API 推出新工具和功能,包括对远程 Model Context Protocol (MCP) 服务器、图像生成、Code Interpreter 和改进的文件搜索功能的支持。此次更新还使 o3 和 o4-mini 模型能够在其思维链中直接调用工具,同时推出了后台运行和加密推理项目等新的企业功能。