tool-use

#tool-use

为什么多步骤工具使用强化学习会崩溃以及监督信号如何修复它

arXiv cs.CL ↗ · 20小时前缓存

本文研究了为什么多步骤工具使用强化学习（RL）常常崩溃或收益有限，并将控制令牌中的概率尖峰识别为关键原因。研究表明，将监督微调与RL交替进行可以提高稳定性，并探索了各种监督信号以指导稳健训练。

0 人收藏 0 人点赞

#tool-use

超越函数调用：在工具环境不可靠性下对工具使用代理进行基准测试

arXiv cs.CL ↗ · 20小时前缓存

介绍ToolBench-X，这是一个基准测试，用于评估各种工具环境可靠性隐患下的大语言模型代理，揭示了与干净环境相比性能上的显著差距。

0 人收藏 0 人点赞

#tool-use

在 Gemini 3.5 Flash 中引入计算机使用

Google DeepMind Blog ↗ · 昨天缓存

Gemini 3.5 Flash 现已原生支持将计算机使用作为内置工具，使开发者能够构建智能体，在浏览器、移动端和桌面环境中进行交互，用于软件测试和知识工作等长期自动化任务。

0 人收藏 0 人点赞

#tool-use

给我们的智能体添加4个工具后，评估成本增加了3倍。有人做过优化吗？

Reddit r/AI_Agents ↗ · 昨天

一名用户报告称，在为其AI智能体添加四个工具后，评估成本增加了两倍，寻求优化建议。

0 人收藏 0 人点赞

#tool-use

Qwen-AgentWorld-35B-A3B：一个3B激活参数的MoE模型，用于模拟MCP、终端、软件工程、安卓、网页和操作系统环境

Reddit r/LocalLLaMA ↗ · 昨天

Qwen发布了Qwen-AgentWorld-35B-A3B，这是一个35B参数的MoE模型，拥有3B激活参数，旨在作为语言世界模型，模拟智能体在七个领域（包括MCP、终端、软件工程、安卓、网页和操作系统）交互时的环境响应。

0 人收藏 0 人点赞

#tool-use

当检索指标误导时：衡量长期工具使用代理中的政策信号

arXiv cs.CL ↗ · 昨天缓存

本文考察了精确匹配检索召回率作为长期工具使用代理下游政策分类性能代理指标的可靠性。在τ-bench上使用Qwen2.5分类器进行的实验表明，低条款召回率并不会显著降低分类器的准确率，这表明单独使用检索指标在评估政策信号时可能会产生误导。

0 人收藏 0 人点赞

#tool-use

@QuixiAI: 我今天看到了一个非常有趣的事情。GPT-5.5看到我使用了一次`dolphin-summarize`，用来获取架构摘要……

X AI KOLs Following ↗ · 3天前缓存

GPT-5.5尝试复用dolphin-summarize工具从gguf文件中提取架构摘要，此前它曾观察到该工具被用于safetensors模型，展示了适应性工具使用能力。

0 人收藏 0 人点赞

#tool-use

PlanBench-XL：评估大规模工具生态系统中LLM工具使用代理的长期规划能力

Hugging Face Daily Papers ↗ · 5天前缓存

PlanBench-XL是一个新的基准测试，用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示，GPT-5.4在无阻断设置下仅达到51.9%的准确率，而在严重阻断条件下骤降至11.36%，凸显了长期规划中的重大挑战。

0 人收藏 0 人点赞

#tool-use

智能体循环本质上就是ReAct，你的工具调用API已经实现了它

Reddit r/AI_Agents ↗ · 5天前

文章认为智能体循环本质上是ReAct模式，现有的工具调用API已经实现了这一机制。

0 人收藏 0 人点赞

#tool-use

RODS：面向多轮工具使用智能体的奖励驱动在线数据合成方法

arXiv cs.AI ↗ · 2026-06-18 缓存

本文介绍了RODS，一种奖励驱动的在线数据合成方法，该方法解决了多轮工具使用智能体训练中静态数据集信息样本耗尽的问题。它在显著减少轨迹数量的情况下，达到了与更大规模离线流水线相当的性能。

0 人收藏 0 人点赞

#tool-use

@Zhongyi_Zhou_: ML通过数学梯度优化；循环工程需要文本“梯度”！介绍ToolGrad：一个智能体框架…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

介绍ToolGrad，一个智能体框架，通过文本‘梯度’生成、评估和优化工具使用轨迹，达到近乎100%的通过率，降低数据集生成成本。已被ACL 2026接收。

0 人收藏 0 人点赞

#tool-use

代码调用就是一切

Reddit r/AI_Agents ↗ · 2026-06-16

认为使用LLM生成的代码调用外部工具（代码调用）比传统的基于JSON的函数调用更高效、功能更强，但需要安全的沙箱环境。作者正在为此方法构建一个框架。

0 人收藏 0 人点赞

#tool-use

@omarsar0: // OpenClaw-Skill: 搜索智能体技能树 // 如果你为智能体构建可复用的技能库，这篇值得一看…

X AI KOLs Following ↗ · 2026-06-16 缓存

本文介绍了集体技能树搜索（CSTS）这一框架，它利用多个模型的集体智慧，为LLM智能体构建结构化、多样且可泛化的技能树。由此产生的模型OpenClaw-Skill在长程规划、工具使用和泛化能力方面展现了更优的智能体性能。

0 人收藏 0 人点赞

#tool-use

@rohanpaul_ai: 该论文指出，Claude Code 工作良好并非因为它拥有复杂的人工智能大脑，而是因为一个简单的人工智能循环…

X AI KOLs Following ↗ · 2026-06-16 缓存

一项分析 Claude Code 的论文揭示，其有效性源于一个简单的人工智能循环，周围环绕着针对工具、安全性、记忆和恢复的强大基础设施，而非复杂的人工智能大脑。研究强调，自主性增加了基础设施的负担。

0 人收藏 0 人点赞

#tool-use

Claude Fable 5 蒸馏版

Reddit r/LocalLLaMA ↗ · 2026-06-16 缓存

Qwable-v1 是一个开放权重的代理编码模型（35B MoE，3B 活跃参数），通过串联来自 Claude Opus 4.7 推理和 Claude Fable-5 代理工具使用轨迹的蒸馏构建。它能够显式思考 CoT 链，并在提示时充当类似 Claude-Code 风格的代理。

0 人收藏 0 人点赞

#tool-use

Guava：一种有效且通用的具身操作框架

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

Guava 是一个用于具身工具使用的框架，它将高级推理与外部模块相结合，使紧凑模型能够以极少的训练数据执行复杂的操作任务。实验表明，其性能可与前沿专有模型相媲美。

0 人收藏 0 人点赞

#tool-use

对于使用工具的智能体，安全边界应划在哪里？

Reddit r/AI_Agents ↗ · 2026-06-14

讨论AI智能体使用工具的安全风险，重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为，以及在授予权限前需要进行可重复测试。

0 人收藏 0 人点赞

#tool-use

验证者税：工具使用型LLM智能体中依赖于任务步数的安全与成功权衡 [R]

Reddit r/MachineLearning ↗ · 2026-06-14

本文提出了一个用于工具使用型LLM智能体的安全评估框架，引入了“验证者税（Verifier Tax）”的概念——一种依赖于任务步数的安全与任务完成之间的权衡。文章提出了一种双层验证架构，并使用Tau-bench场景展示了验证如何减少不安全成功，但随着任务步数增加也会降低任务完成率。

0 人收藏 0 人点赞

#tool-use

AI代理的战略决策支持

arXiv cs.AI ↗ · 2026-06-12 缓存

本文提出了一个针对AI代理的战略决策支持框架，通过构建一个优化问题来最小化支持使用量，同时控制遗漏支持错误。作者开发了一种在线算法和校准方法，并在信息收集、人机协作和工具使用等多个场景中展示了其有效性。

0 人收藏 0 人点赞

#tool-use

Claude Fable 具有不懈的主动性

Hacker News Top ↗ · 2026-06-12 缓存

文章描述了 Claude Fable 5（一款AI模型）如何通过自主使用浏览器自动化、Shell命令和自定义脚本调试UI问题，展现出不懈的主动性，展示了先进的工具使用能力。

0 人收藏 0 人点赞

tool-use

提交意见反馈