标签
本文介绍了 Agentick,这是一个用于评估涵盖强化学习(RL)、大型语言模型(LLM)和视觉语言模型(VLM)范式的通用序贯决策智能体的统一基准测试。该基准提供了 37 个程序化生成的任务,并揭示目前尚无单一方法占据主导地位,突显了智能体自主性方面仍有巨大的提升空间。
本文介绍了 PRISM,这是一个通过动态问答流程整合视觉-语言模型和大语言模型的框架,旨在提升具身 AI 任务中的顺序决策能力。