标签
AdaPlanBench是一个动态基准测试,用于评估LLM智能体在多轮交互中根据逐步显现的世界和用户约束进行自适应规划的能力。实验表明,当前模型尤其难以应对用户约束。
李飞飞博士探讨了机器人在理解和执行日常家务任务时面临的挑战,重点说明了将“打开抽屉并避开花瓶”这类自然语言指令转化为机器人实际操作的高难度。