标签
本文通过实验测试了配备GNN工具的LLM代理是行使判断力还是盲目服从工具,发现代理在97.6%–99.2%的情况下与GNN保持一致,且更强的骨干模型服从得更彻底。这种服从的代价并不会随能力提升而减少,选择性调用仍然是一个开放问题。
SpatialClaw是一个无需训练的框架,它采用代码作为动作接口,使视觉语言模型能够进行灵活、有状态的空间推理,在多种3D/4D空间推理任务上取得了卓越性能。
本文介绍了SPADER,一个用于多答案问答的强化学习框架,它使用逐步同行优势进行信用分配,并采用多样性感知探索奖励来提高长尾实体的召回率,在多个基准测试上取得了更好的性能。
本文介绍了 CoCoDA,这是一个利用协同演化的组合式有向无环图(DAG)来管理增强型智能体工具库的框架。该框架使小型语言模型能够高效地检索和组合工具,从而使 8B 模型在推理基准测试上的性能能够匹敌甚至超越 32B 模型。