tool-use

#tool-use

@QuixiAI: 我今天看到了一个非常有趣的事情。GPT-5.5看到我使用了一次`dolphin-summarize`，用来获取架构摘要……

X AI KOLs Following ↗ · 2天前缓存

GPT-5.5尝试复用dolphin-summarize工具从gguf文件中提取架构摘要，此前它曾观察到该工具被用于safetensors模型，展示了适应性工具使用能力。

0 人收藏 0 人点赞

#tool-use

PlanBench-XL：评估大规模工具生态系统中LLM工具使用代理的长期规划能力

Hugging Face Daily Papers ↗ · 3天前缓存

PlanBench-XL是一个新的基准测试，用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示，GPT-5.4在无阻断设置下仅达到51.9%的准确率，而在严重阻断条件下骤降至11.36%，凸显了长期规划中的重大挑战。

0 人收藏 0 人点赞

#tool-use

智能体循环本质上就是ReAct，你的工具调用API已经实现了它

Reddit r/AI_Agents ↗ · 3天前

文章认为智能体循环本质上是ReAct模式，现有的工具调用API已经实现了这一机制。

0 人收藏 0 人点赞

#tool-use

RODS：面向多轮工具使用智能体的奖励驱动在线数据合成方法

arXiv cs.AI ↗ · 5天前缓存

本文介绍了RODS，一种奖励驱动的在线数据合成方法，该方法解决了多轮工具使用智能体训练中静态数据集信息样本耗尽的问题。它在显著减少轨迹数量的情况下，达到了与更大规模离线流水线相当的性能。

0 人收藏 0 人点赞

#tool-use

@Zhongyi_Zhou_: ML通过数学梯度优化；循环工程需要文本“梯度”！介绍ToolGrad：一个智能体框架…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

介绍ToolGrad，一个智能体框架，通过文本‘梯度’生成、评估和优化工具使用轨迹，达到近乎100%的通过率，降低数据集生成成本。已被ACL 2026接收。

0 人收藏 0 人点赞

#tool-use

代码调用就是一切

Reddit r/AI_Agents ↗ · 2026-06-16

认为使用LLM生成的代码调用外部工具（代码调用）比传统的基于JSON的函数调用更高效、功能更强，但需要安全的沙箱环境。作者正在为此方法构建一个框架。

0 人收藏 0 人点赞

#tool-use

@omarsar0: // OpenClaw-Skill: 搜索智能体技能树 // 如果你为智能体构建可复用的技能库，这篇值得一看…

X AI KOLs Following ↗ · 2026-06-16 缓存

本文介绍了集体技能树搜索（CSTS）这一框架，它利用多个模型的集体智慧，为LLM智能体构建结构化、多样且可泛化的技能树。由此产生的模型OpenClaw-Skill在长程规划、工具使用和泛化能力方面展现了更优的智能体性能。

0 人收藏 0 人点赞

#tool-use

@rohanpaul_ai: 该论文指出，Claude Code 工作良好并非因为它拥有复杂的人工智能大脑，而是因为一个简单的人工智能循环…

X AI KOLs Following ↗ · 2026-06-16 缓存

一项分析 Claude Code 的论文揭示，其有效性源于一个简单的人工智能循环，周围环绕着针对工具、安全性、记忆和恢复的强大基础设施，而非复杂的人工智能大脑。研究强调，自主性增加了基础设施的负担。

0 人收藏 0 人点赞

#tool-use

Claude Fable 5 蒸馏版

Reddit r/LocalLLaMA ↗ · 2026-06-16 缓存

Qwable-v1 是一个开放权重的代理编码模型（35B MoE，3B 活跃参数），通过串联来自 Claude Opus 4.7 推理和 Claude Fable-5 代理工具使用轨迹的蒸馏构建。它能够显式思考 CoT 链，并在提示时充当类似 Claude-Code 风格的代理。

0 人收藏 0 人点赞

#tool-use

Guava：一种有效且通用的具身操作框架

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

Guava 是一个用于具身工具使用的框架，它将高级推理与外部模块相结合，使紧凑模型能够以极少的训练数据执行复杂的操作任务。实验表明，其性能可与前沿专有模型相媲美。

0 人收藏 0 人点赞

#tool-use

对于使用工具的智能体，安全边界应划在哪里？

Reddit r/AI_Agents ↗ · 2026-06-14

讨论AI智能体使用工具的安全风险，重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为，以及在授予权限前需要进行可重复测试。

0 人收藏 0 人点赞

#tool-use

验证者税：工具使用型LLM智能体中依赖于任务步数的安全与成功权衡 [R]

Reddit r/MachineLearning ↗ · 2026-06-14

本文提出了一个用于工具使用型LLM智能体的安全评估框架，引入了“验证者税（Verifier Tax）”的概念——一种依赖于任务步数的安全与任务完成之间的权衡。文章提出了一种双层验证架构，并使用Tau-bench场景展示了验证如何减少不安全成功，但随着任务步数增加也会降低任务完成率。

0 人收藏 0 人点赞

#tool-use

AI代理的战略决策支持

arXiv cs.AI ↗ · 2026-06-12 缓存

本文提出了一个针对AI代理的战略决策支持框架，通过构建一个优化问题来最小化支持使用量，同时控制遗漏支持错误。作者开发了一种在线算法和校准方法，并在信息收集、人机协作和工具使用等多个场景中展示了其有效性。

0 人收藏 0 人点赞

#tool-use

Claude Fable 具有不懈的主动性

Hacker News Top ↗ · 2026-06-12 缓存

文章描述了 Claude Fable 5（一款AI模型）如何通过自主使用浏览器自动化、Shell命令和自定义脚本调试UI问题，展现出不懈的主动性，展示了先进的工具使用能力。

0 人收藏 0 人点赞

#tool-use

从聊天机器人到数字同事：迈向持久自主人工智能的范式转变

Hugging Face Daily Papers ↗ · 2026-06-12 缓存

本文概念化了大语言模型从对话式聊天机器人向持久自主AI同事的转变，重点关注通过工作区和技能范式实现的改进推理与工具增强型任务执行。

0 人收藏 0 人点赞

#tool-use

使用Codex的工具功能自动生成真实的.pptx/.docx/.xlsx文件——不仅仅是内容，而是实际的文件

Reddit r/AI_Agents ↗ · 2026-06-11

作者描述了使用OpenAI的Codex模型通过函数调用直接生成真实的Office文件（.pptx, .docx, .xlsx），从而为AI代理构建了一个实用的端到端文档生成模式。

0 人收藏 0 人点赞

#tool-use

IAPO：面向小规模多模态智能体工具使用的输入归因感知策略优化

arXiv cs.LG ↗ · 2026-06-11 缓存

本文介绍了IAPO，一种通过将输入归因与更强大的教师模型对齐，来提升多模态小语言模型工具调用能力的强化学习算法。在Qwen2.5-VL-3B上的实验表明，在六个测试集上，视觉问答准确率平均提升了3%。

0 人收藏 0 人点赞

#tool-use

APPO: 智能体过程策略优化

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配，从而提升LLM智能体的多轮工具使用能力，在13个基准测试中比基线高出近4个百分点。

0 人收藏 0 人点赞

#tool-use

STAGE-Claw：面向真实场景的自动化基于状态的智能体基准测试

arXiv cs.AI ↗ · 2026-06-10 缓存

本文介绍了STAGE-Claw，一个用于在基于状态的计算环境中构建和评估真实个人智能体场景的自动化框架，实现了对由大语言模型驱动的智能体的可扩展、基于状态的评估。

0 人收藏 0 人点赞

#tool-use

发布 Apodex-1.0 Smol 模型（0.8B、2B、4B 开源权重），专为智能体验证优化 + AgentHarness 评估

Reddit r/LocalLLaMA ↗ · 2026-06-10

Apodex 发布了开源权重的小型模型（0.8B、2B、4B），专为智能体验证任务优化，同时推出了用于本地智能体工作流的 AgentHarness 评估框架。

0 人收藏 0 人点赞

tool-use

提交意见反馈