标签
介绍了HIPIF,一种通过分层规划与信息折叠来训练LLM智能体处理长期任务的方法,旨在减少长上下文干扰,在三个基准测试上取得了优异结果。
本文针对Levin树搜索提出了三种重根器设计,利用状态空间结构和学习启发式方法,无需显式子目标生成即可提升搜索效率,实现了当前最优的在线训练效率。