标签
介绍多个Hermes插件:主题皮肤、持久规划、Draw.io自动流程图、文学编程技能包、魔幻技能实验室等,将Hermes打造成多功能终端和智能规划工具。
讨论使用 Qwen 27B 进行规划任务,使用 Qwen 35B-A3B 进行执行任务,提出了一种专门的模型方法。
PlanBench-XL是一个新的基准测试,用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示,GPT-5.4在无阻断设置下仅达到51.9%的准确率,而在严重阻断条件下骤降至11.36%,凸显了长期规划中的重大挑战。
Kent C. Dodds 和 Sean Roberts 之间关于产品工程、结合实际业务背景进行规划,以及对话和好奇心相对于纯粹数据的重要性的讨论。
本文调研了世界模型的评估方法,主张采用以决策为中心的框架,优先考虑反事实推理、规划与策略优化,而非视觉质量。文中引入了L0–L7评估阶梯及基准协议,使评估与声称的效用一致。
CEO-Bench 引入了一个模拟基准测试,评估语言模型智能体在500天内管理初创公司的能力,测试内容包括长期规划、噪声处理、适应性和多任务协调。结果显示,即使是最强的模型也表现挣扎,只有Claude Opus 4.8和GPT-5.5的最终余额高于起始资金。
Matt Pocock 介绍了一种决策映射技能,用于将计划拆分为多个会话,类似于 /to-issues,旨在简化绿地构建和棕地构建。
作者构建了一个个人AI代理,它使用前沿模型(Codex)进行高层次规划,同时在双RTX 3090系统上本地运行大部分token处理,支持长时间任务并具备确定性验证。该代理支持三个可互换的层级:规划器、本地和高级,并以开源仓库形式提供。
COMET 是一种基于模型的强化学习算法,结合了冻结的对象中心编码器、基于 Transformer 的世界模型和 Monte Carlo Tree Search,通过因果注意力聚焦于任务相关对象,在视觉强化学习基准上取得了更高分数。
一位开发者分享了对 Opus 4.8(用于规划)和 GPT-5.5(用于执行)的满意,强调将任务分解成更小的步骤能提高质量,并且动态工作流程被低估了。
论文提出了SVoT,一种用于多模态大语言模型(MLLMs)中多跳空间推理的强化学习框架,该框架生成交错、可验证的中间状态和可视化,在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。
关于在生产环境中部署多智能体AI系统的讨论,其中不同的智能体负责规划、执行、沟通和项目管理,询问实际经验与瓶颈。
本文介绍了PhysTool-Bench,一个用于评估多模态大语言模型在真实世界场景中识别和规划物理工具使用能力的基准。作者发现,即使是最佳模型也只能识别58.7%的工具,并仅完成21.0%的端到端查询,揭示了感知和功能常识两个层面的缺陷。
介绍了一种新的双向搜索启发式类——前向-吸引子(F2A),通过评估到一小簇吸引子的距离,而非整个对面前沿,降低了计算成本,相比现有方法,能够减少多达11.2倍的成对评估次数和4.8倍的节点扩展次数。
本文系统综述了面向基于LLM的智能体的文本世界模型,涵盖基础、构建范式、在规划与训练中的应用以及评估方法。
一位实践者观察到,限制AI代理每次只规划一步而非多步,能显著提升涉及CRM和潜在客户资格认定的现实自动化工作流的可靠性,因为长期计划在外部状态变化时变得脆弱。
本文介绍了OCLGen,一种计算高效的测试时搜索算法,它将生成式规划模型与经典的开闭列表框架相结合,提高了组合规划领域的解质量。
关于世界模型的全面综述,提供了一个多轴分类体系,涵盖架构、方法、推理策略以及跨AI领域的应用,包括Dreamer、MuZero和Sora等关键系统。