标签
Mercor宣布加入OpenEnv委员会,与Meta、PyTorch、NVIDIA、PrimeIntellect和Hugging Face等共同指导智能体环境的开放基础。
PatchWorld 引入了一种免梯度框架,通过反例引导的代码修复,将离线轨迹转换为可执行的 Python 世界模型,从而为部分可观测环境中的规划提供可解释和可检查的信念状态程序。
SkillEvolBench 是一个诊断性基准,用于评估大语言模型代理是否能够将情景经验提炼为可重用的程序技能。它包含六个环境中的180个任务,并发现当前代理通常难以形成稳健的可重用技能,原始轨迹重用往往优于提炼后的技能。