tool-calling

#tool-calling

@RhysSullivan：我现在正在全职将 Executor 打造成一家创业公司！工具调用的现状一团糟：- 每个人都在使用不同的 ag…

X AI KOLs Timeline ↗ · 20小时前缓存

Rhys Sullivan 正在构建 Executor，这是一个面向 AI 智能体的开源集成层，提供统一的工具目录，具备访问控制、破坏性操作审批流程，并支持 MCP、OpenAPI、GraphQL 等协议。它旨在标准化不同智能体（如 Cursor 和 Claude Code）之间的工具调用方式。

0 人收藏 0 人点赞

#tool-calling

BioTool：用于增强大型语言模型生物医学能力的综合工具调用数据集

arXiv cs.CL ↗ · 昨天缓存

BioTool 引入了一个全面的生物医学工具调用数据集，包含34个工具和7,040个人工验证的查询-API对，使得经过微调的大型语言模型在生物医学工具使用上超越GPT-5.1，并显著提升答案质量。

0 人收藏 0 人点赞

#tool-calling

@codewithimanshu：斯坦福教授刚刚免费公开了AI智能体与自动化的全部底层逻辑，1小时讲座。T…

X AI KOLs Timeline ↗ · 2026-04-22 缓存

斯坦福教授发布免费1小时讲座，系统讲解AI智能体、工具调用、多步工作流、规划与反思的核心原理。

0 人收藏 0 人点赞

#tool-calling

ibm-granite/granite-4.1-8b · Hugging Face

Reddit r/LocalLLaMA ↗ · 2026-04-21 缓存

IBM 发布 Granite-4.1-8B：Apache 2.0 许可的 80 亿参数长上下文 Instruct 模型，工具调用与多语言能力全面升级。

0 人收藏 0 人点赞

#tool-calling

@KKaWSB: Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时，300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA，打平Claude Opus 4.6和G…

X AI KOLs Timeline ↗ · 2026-04-20 缓存

Moonshot开源发布了Kimi K2.6模型，支持单次会话4000次工具调用与300个子代理并行，在SWE-Bench Pro等多项基准上取得SOTA，并声称性能打平Claude Opus 4.6和GPT-5.4。

0 人收藏 0 人点赞

#tool-calling

PolicyBank：为LLM智能体演进策略理解

arXiv cs.CL ↗ · 2026-04-20 缓存

PolicyBank提出了一种记忆机制，使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解，弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台，并展示PolicyBank能够解决高达82%的策略差距对齐失败，显著超越现有记忆机制。

0 人收藏 0 人点赞

#tool-calling

Responses API 的新工具和功能

OpenAI Blog ↗ · 2025-05-21 缓存

OpenAI 宣布为 Responses API 推出新工具和功能，包括对远程 Model Context Protocol (MCP) 服务器、图像生成、Code Interpreter 和改进的文件搜索功能的支持。此次更新还使 o3 和 o4-mini 模型能够在其思维链中直接调用工具，同时推出了后台运行和加密推理项目等新的企业功能。

0 人收藏 0 人点赞

tool-calling

@RhysSullivan：我现在正在全职将 Executor 打造成一家创业公司！工具调用的现状一团糟：- 每个人都在使用不同的 ag…

BioTool：用于增强大型语言模型生物医学能力的综合工具调用数据集

@codewithimanshu：斯坦福教授刚刚免费公开了AI智能体与自动化的全部底层逻辑，1小时讲座。T…

ibm-granite/granite-4.1-8b · Hugging Face

@KKaWSB: Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时，300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA，打平Claude Opus 4.6和G…

PolicyBank：为LLM智能体演进策略理解

Responses API 的新工具和功能

提交意见反馈