tool-calling

#tool-calling

TextGen 现已成为原生桌面应用，是 LM Studio（前身为 text-generation-webui）的开源替代方案。

Reddit r/LocalLLaMA ↗ · 4小时前

TextGen（前身为 text-generation-webui）已更新为 Windows、Linux 和 macOS 的原生、免安装桌面应用程序，提供增强的隐私保护、ik_llama.cpp 支持以及原生工具调用功能，作为 LM Studio 的开源替代方案。

0 人收藏 0 人点赞

#tool-calling

2600万参数工具路由器表明：工具调用应与推理分离

Reddit r/AI_Agents ↗ · 14小时前

文章介绍了由 Cactus-Compute 开发的 2600 万参数模型 Needle，该模型专为单次工具调用设计。文章主张将工具路由从推理中分离出来，作为一种结构化预测任务，以提高代理（agent）的效率并降低延迟。

0 人收藏 0 人点赞

#tool-calling

智能体是否需要逐步规划？重新思考以数据为中心的工具调用中的规划视野

arXiv cs.CL ↗ · 昨天缓存

本文认为，在以数据为中心的大语言模型智能体任务中，采用延迟重规划的全视野规划比逐步执行更为高效，在保持准确率的同时大幅减少了Token消耗。

0 人收藏 0 人点赞

#tool-calling

Switchcraft：用于智能体工具调用的 AI 模型路由

arXiv cs.AI ↗ · 2天前缓存

本文介绍了 Switchcraft，这是首个专为智能体工具调用优化的 AI 模型路由器，旨在降低推理成本。通过使用轻量级的 DistilBERT 分类器，它在保持高工具使用准确性的同时，实现了显著的成本节约。

0 人收藏 0 人点赞

#tool-calling

MIST：面向智能家居的多模态交互式语音工具调用对话助手

arXiv cs.CL ↗ · 2天前缓存

本文介绍了 MIST，这是一个用于训练多模态语音助手以控制智能家居中物联网（IoT）设备的合成数据集与框架。研究凸显了开放权重模型与闭源权重模型在处理复杂的基于语音的工具调用任务时，存在显著的性能差距。

0 人收藏 0 人点赞

#tool-calling

@omarsar0: 苹果的一篇很棒的论文。大多数对工具调用智能体的评估都发生在轨迹结束之后。但那时错误的调用早已发出。这篇新论文将评估移入执行循环中。一个专门的审稿智能体在执行前检查每个临时工具调用。如果有问题，它注入反馈，主智能体进行修正。为了量化修正与新错误之间的权衡，他们提出了“有益性-有害性”指标。有益性衡量基础错误被修复的百分比；有害性衡量因审稿而降低正确调用质量的比例。在 BFCL 上的结果：无关检测准确率提升 5.5%（从 84.9% 到 90.4%），相关检测提升 1.6%，且无需重新训练基础智能体。在 τ²-Bench 多轮任务上提升 7.1%（从 48.7% 到 55.8%）。推理模型审稿者比 GPT-4o 获得 3:1 的收益风险比，而 GPT-4o 为 2.1:1。加入 GEPA 提示优化可再提升 1.5–2.8%。为什么这很重要？你可以保持基础工具调用智能体不变，仅通过改进审稿者即可实现显著的准确性提升。对审稿者的模型选择和提示优化成为独立的生产杠杆。论文链接：https://arxiv.org/abs/2604.27233 在我们的学院学习如何构建高效的 AI 智能体：https://academy.dair.ai

X AI KOLs Timeline ↗ · 2天前缓存

这篇来自苹果的研究论文介绍了“强化智能体”（Reinforced Agent）方法，通过使用专门的审稿智能体在实时执行过程中修正工具调用错误，将评估纳入执行循环。它在 BFCL 和 τ²-Bench 等基准测试上展示了显著的准确性提升，而无需重新训练基础智能体。

0 人收藏 0 人点赞

#tool-calling

@RhysSullivan：我现在正在全职将 Executor 打造成一家创业公司！工具调用的现状一团糟：- 每个人都在使用不同的 ag…

X AI KOLs Timeline ↗ · 4天前缓存

Rhys Sullivan 正在构建 Executor，这是一个面向 AI 智能体的开源集成层，提供统一的工具目录，具备访问控制、破坏性操作审批流程，并支持 MCP、OpenAPI、GraphQL 等协议。它旨在标准化不同智能体（如 Cursor 和 Claude Code）之间的工具调用方式。

0 人收藏 0 人点赞

#tool-calling

BioTool：用于增强大型语言模型生物医学能力的综合工具调用数据集

arXiv cs.CL ↗ · 5天前缓存

BioTool 引入了一个全面的生物医学工具调用数据集，包含34个工具和7,040个人工验证的查询-API对，使得经过微调的大型语言模型在生物医学工具使用上超越GPT-5.1，并显著提升答案质量。

0 人收藏 0 人点赞

#tool-calling

@codewithimanshu：斯坦福教授刚刚免费公开了AI智能体与自动化的全部底层逻辑，1小时讲座。T…

X AI KOLs Timeline ↗ · 2026-04-22 缓存

斯坦福教授发布免费1小时讲座，系统讲解AI智能体、工具调用、多步工作流、规划与反思的核心原理。

0 人收藏 0 人点赞

#tool-calling

ibm-granite/granite-4.1-8b · Hugging Face

Reddit r/LocalLLaMA ↗ · 2026-04-21 缓存

IBM 发布 Granite-4.1-8B：Apache 2.0 许可的 80 亿参数长上下文 Instruct 模型，工具调用与多语言能力全面升级。

0 人收藏 0 人点赞

#tool-calling

@KKaWSB: Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时，300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA，打平Claude Opus 4.6和G…

X AI KOLs Timeline ↗ · 2026-04-20 缓存

Moonshot开源发布了Kimi K2.6模型，支持单次会话4000次工具调用与300个子代理并行，在SWE-Bench Pro等多项基准上取得SOTA，并声称性能打平Claude Opus 4.6和GPT-5.4。

0 人收藏 0 人点赞

#tool-calling

PolicyBank：为LLM智能体演进策略理解

arXiv cs.CL ↗ · 2026-04-20 缓存

PolicyBank提出了一种记忆机制，使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解，弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台，并展示PolicyBank能够解决高达82%的策略差距对齐失败，显著超越现有记忆机制。

0 人收藏 0 人点赞

#tool-calling

Responses API 的新工具和功能

OpenAI Blog ↗ · 2025-05-21 缓存

OpenAI 宣布为 Responses API 推出新工具和功能，包括对远程 Model Context Protocol (MCP) 服务器、图像生成、Code Interpreter 和改进的文件搜索功能的支持。此次更新还使 o3 和 o4-mini 模型能够在其思维链中直接调用工具，同时推出了后台运行和加密推理项目等新的企业功能。

0 人收藏 0 人点赞

tool-calling

提交意见反馈