标签
GPT-5.5尝试复用dolphin-summarize工具从gguf文件中提取架构摘要,此前它曾观察到该工具被用于safetensors模型,展示了适应性工具使用能力。
PlanBench-XL是一个新的基准测试,用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示,GPT-5.4在无阻断设置下仅达到51.9%的准确率,而在严重阻断条件下骤降至11.36%,凸显了长期规划中的重大挑战。
本文介绍了RODS,一种奖励驱动的在线数据合成方法,该方法解决了多轮工具使用智能体训练中静态数据集信息样本耗尽的问题。它在显著减少轨迹数量的情况下,达到了与更大规模离线流水线相当的性能。
介绍ToolGrad,一个智能体框架,通过文本‘梯度’生成、评估和优化工具使用轨迹,达到近乎100%的通过率,降低数据集生成成本。已被ACL 2026接收。
认为使用LLM生成的代码调用外部工具(代码调用)比传统的基于JSON的函数调用更高效、功能更强,但需要安全的沙箱环境。作者正在为此方法构建一个框架。
本文介绍了集体技能树搜索(CSTS)这一框架,它利用多个模型的集体智慧,为LLM智能体构建结构化、多样且可泛化的技能树。由此产生的模型OpenClaw-Skill在长程规划、工具使用和泛化能力方面展现了更优的智能体性能。
一项分析 Claude Code 的论文揭示,其有效性源于一个简单的人工智能循环,周围环绕着针对工具、安全性、记忆和恢复的强大基础设施,而非复杂的人工智能大脑。研究强调,自主性增加了基础设施的负担。
Qwable-v1 是一个开放权重的代理编码模型(35B MoE,3B 活跃参数),通过串联来自 Claude Opus 4.7 推理和 Claude Fable-5 代理工具使用轨迹的蒸馏构建。它能够显式思考 CoT 链,并在提示时充当类似 Claude-Code 风格的代理。
Guava 是一个用于具身工具使用的框架,它将高级推理与外部模块相结合,使紧凑模型能够以极少的训练数据执行复杂的操作任务。实验表明,其性能可与前沿专有模型相媲美。
讨论AI智能体使用工具的安全风险,重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为,以及在授予权限前需要进行可重复测试。
本文提出了一个用于工具使用型LLM智能体的安全评估框架,引入了“验证者税(Verifier Tax)”的概念——一种依赖于任务步数的安全与任务完成之间的权衡。文章提出了一种双层验证架构,并使用Tau-bench场景展示了验证如何减少不安全成功,但随着任务步数增加也会降低任务完成率。
本文提出了一个针对AI代理的战略决策支持框架,通过构建一个优化问题来最小化支持使用量,同时控制遗漏支持错误。作者开发了一种在线算法和校准方法,并在信息收集、人机协作和工具使用等多个场景中展示了其有效性。
文章描述了 Claude Fable 5(一款AI模型)如何通过自主使用浏览器自动化、Shell命令和自定义脚本调试UI问题,展现出不懈的主动性,展示了先进的工具使用能力。
本文概念化了大语言模型从对话式聊天机器人向持久自主AI同事的转变,重点关注通过工作区和技能范式实现的改进推理与工具增强型任务执行。
作者描述了使用OpenAI的Codex模型通过函数调用直接生成真实的Office文件(.pptx, .docx, .xlsx),从而为AI代理构建了一个实用的端到端文档生成模式。
本文介绍了IAPO,一种通过将输入归因与更强大的教师模型对齐,来提升多模态小语言模型工具调用能力的强化学习算法。在Qwen2.5-VL-3B上的实验表明,在六个测试集上,视觉问答准确率平均提升了3%。
APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配,从而提升LLM智能体的多轮工具使用能力,在13个基准测试中比基线高出近4个百分点。
本文介绍了STAGE-Claw,一个用于在基于状态的计算环境中构建和评估真实个人智能体场景的自动化框架,实现了对由大语言模型驱动的智能体的可扩展、基于状态的评估。
Apodex 发布了开源权重的小型模型(0.8B、2B、4B),专为智能体验证任务优化,同时推出了用于本地智能体工作流的 AgentHarness 评估框架。