标签
本文研究了为什么多步骤工具使用强化学习(RL)常常崩溃或收益有限,并将控制令牌中的概率尖峰识别为关键原因。研究表明,将监督微调与RL交替进行可以提高稳定性,并探索了各种监督信号以指导稳健训练。
介绍ToolBench-X,这是一个基准测试,用于评估各种工具环境可靠性隐患下的大语言模型代理,揭示了与干净环境相比性能上的显著差距。
Gemini 3.5 Flash 现已原生支持将计算机使用作为内置工具,使开发者能够构建智能体,在浏览器、移动端和桌面环境中进行交互,用于软件测试和知识工作等长期自动化任务。
Qwen发布了Qwen-AgentWorld-35B-A3B,这是一个35B参数的MoE模型,拥有3B激活参数,旨在作为语言世界模型,模拟智能体在七个领域(包括MCP、终端、软件工程、安卓、网页和操作系统)交互时的环境响应。
本文考察了精确匹配检索召回率作为长期工具使用代理下游政策分类性能代理指标的可靠性。在τ-bench上使用Qwen2.5分类器进行的实验表明,低条款召回率并不会显著降低分类器的准确率,这表明单独使用检索指标在评估政策信号时可能会产生误导。
GPT-5.5尝试复用dolphin-summarize工具从gguf文件中提取架构摘要,此前它曾观察到该工具被用于safetensors模型,展示了适应性工具使用能力。
PlanBench-XL是一个新的基准测试,用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示,GPT-5.4在无阻断设置下仅达到51.9%的准确率,而在严重阻断条件下骤降至11.36%,凸显了长期规划中的重大挑战。
本文介绍了RODS,一种奖励驱动的在线数据合成方法,该方法解决了多轮工具使用智能体训练中静态数据集信息样本耗尽的问题。它在显著减少轨迹数量的情况下,达到了与更大规模离线流水线相当的性能。
介绍ToolGrad,一个智能体框架,通过文本‘梯度’生成、评估和优化工具使用轨迹,达到近乎100%的通过率,降低数据集生成成本。已被ACL 2026接收。
认为使用LLM生成的代码调用外部工具(代码调用)比传统的基于JSON的函数调用更高效、功能更强,但需要安全的沙箱环境。作者正在为此方法构建一个框架。
本文介绍了集体技能树搜索(CSTS)这一框架,它利用多个模型的集体智慧,为LLM智能体构建结构化、多样且可泛化的技能树。由此产生的模型OpenClaw-Skill在长程规划、工具使用和泛化能力方面展现了更优的智能体性能。
一项分析 Claude Code 的论文揭示,其有效性源于一个简单的人工智能循环,周围环绕着针对工具、安全性、记忆和恢复的强大基础设施,而非复杂的人工智能大脑。研究强调,自主性增加了基础设施的负担。
Qwable-v1 是一个开放权重的代理编码模型(35B MoE,3B 活跃参数),通过串联来自 Claude Opus 4.7 推理和 Claude Fable-5 代理工具使用轨迹的蒸馏构建。它能够显式思考 CoT 链,并在提示时充当类似 Claude-Code 风格的代理。
Guava 是一个用于具身工具使用的框架,它将高级推理与外部模块相结合,使紧凑模型能够以极少的训练数据执行复杂的操作任务。实验表明,其性能可与前沿专有模型相媲美。
讨论AI智能体使用工具的安全风险,重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为,以及在授予权限前需要进行可重复测试。
本文提出了一个用于工具使用型LLM智能体的安全评估框架,引入了“验证者税(Verifier Tax)”的概念——一种依赖于任务步数的安全与任务完成之间的权衡。文章提出了一种双层验证架构,并使用Tau-bench场景展示了验证如何减少不安全成功,但随着任务步数增加也会降低任务完成率。
本文提出了一个针对AI代理的战略决策支持框架,通过构建一个优化问题来最小化支持使用量,同时控制遗漏支持错误。作者开发了一种在线算法和校准方法,并在信息收集、人机协作和工具使用等多个场景中展示了其有效性。
文章描述了 Claude Fable 5(一款AI模型)如何通过自主使用浏览器自动化、Shell命令和自定义脚本调试UI问题,展现出不懈的主动性,展示了先进的工具使用能力。