household-tasks

#household-tasks

AdaPlanBench：在世界和用户约束下评估大型语言模型智能体的自适应规划能力

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

AdaPlanBench是一个动态基准测试，用于评估LLM智能体在多轮交互中根据逐步显现的世界和用户约束进行自适应规划的能力。实验表明，当前模型尤其难以应对用户约束。

0 人收藏 0 人点赞

#household-tasks

X AI KOLs Following ↗ · 2026-04-19 缓存

李飞飞博士探讨了机器人在理解和执行日常家务任务时面临的挑战，重点说明了将“打开抽屉并避开花瓶”这类自然语言指令转化为机器人实际操作的高难度。

0 人收藏 0 人点赞