标签
提出在线Agent-as-a-Judge评估框架,该框架利用世界内评估智能体主动生成情境来测试交互式社交智能体,在覆盖率和可靠性上优于被动方法。
本文提出了“先绘图后行动”范式(MAP),这是一个即插即用的框架,在执行前将环境理解前置到交互式LLM智能体中,在多个基准测试中取得了一致性的性能提升,并使前沿模型在25个游戏环境中的22个上超越了接近零的基线性能。