planning

标签

Cards List
#planning

@GitTrend0x: Hermes 美学 + 规划 + 奇幻三连杀插件! Hermes Skins 自定义主题,Planning-with-Files 持久规划、http://Draw.io 自动流程图技能、Litprog 文学编程、Wizards-of-th…

X AI KOLs Timeline · 2天前 缓存

介绍多个Hermes插件:主题皮肤、持久规划、Draw.io自动流程图、文学编程技能包、魔幻技能实验室等,将Hermes打造成多功能终端和智能规划工具。

0 人收藏 0 人点赞
#planning

Qwen 27B 用于规划,Qwen 35B-A3B 用于执行?

Reddit r/LocalLLaMA · 3天前

讨论使用 Qwen 27B 进行规划任务,使用 Qwen 35B-A3B 进行执行任务,提出了一种专门的模型方法。

0 人收藏 0 人点赞
#planning

PlanBench-XL:评估大规模工具生态系统中LLM工具使用代理的长期规划能力

Hugging Face Daily Papers · 3天前 缓存

PlanBench-XL是一个新的基准测试,用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示,GPT-5.4在无阻断设置下仅达到51.9%的准确率,而在严重阻断条件下骤降至11.36%,凸显了长期规划中的重大挑战。

0 人收藏 0 人点赞
#planning

@kentcdodds: 关于结合实际业务背景进行规划的更多内容:

X AI KOLs Following · 4天前 缓存

Kent C. Dodds 和 Sean Roberts 之间关于产品工程、结合实际业务背景进行规划,以及对话和好奇心相对于纯粹数据的重要性的讨论。

0 人收藏 0 人点赞
#planning

世界模型应如何评估?一种以决策为中心的立场

arXiv cs.LG · 2026-06-16 缓存

本文调研了世界模型的评估方法,主张采用以决策为中心的框架,优先考虑反事实推理、规划与策略优化,而非视觉质量。文中引入了L0–L7评估阶梯及基准协议,使评估与声称的效用一致。

0 人收藏 0 人点赞
#planning

CEO-Bench:智能体能否玩转长线游戏?

Hugging Face Daily Papers · 2026-06-16 缓存

CEO-Bench 引入了一个模拟基准测试,评估语言模型智能体在500天内管理初创公司的能力,测试内容包括长期规划、噪声处理、适应性和多任务协调。结果显示,即使是最强的模型也表现挣扎,只有Claude Opus 4.8和GPT-5.5的最终余额高于起始资金。

0 人收藏 0 人点赞
#planning

@mattpocockuk: 打造一个 /decision-mapping 技能,用于将计划拆分为多个会话 类似于 /to-issues,但针对计划…

X AI KOLs Following · 2026-06-15 缓存

Matt Pocock 介绍了一种决策映射技能,用于将计划拆分为多个会话,类似于 /to-issues,旨在简化绿地构建和棕地构建。

0 人收藏 0 人点赞
#planning

一个使用前沿模型进行规划但在本地运行大部分token的代理(为我的双RTX 3090机器构建)

Reddit r/LocalLLaMA · 2026-06-15

作者构建了一个个人AI代理,它使用前沿模型(Codex)进行高层次规划,同时在双RTX 3090系统上本地运行大部分token处理,支持长时间任务并具备确定性验证。该代理支持三个可互换的层级:规划器、本地和高级,并以开源仓库形式提供。

1 人收藏 0 人点赞
#planning

用于 Monte Carlo Tree Search 规划的因果对象中心模型

arXiv cs.AI · 2026-06-15 缓存

COMET 是一种基于模型的强化学习算法,结合了冻结的对象中心编码器、基于 Transformer 的世界模型和 Monte Carlo Tree Search,通过因果注意力聚焦于任务相关对象,在视觉强化学习基准上取得了更高分数。

0 人收藏 0 人点赞
#planning

Deep Work Plan

Product Hunt · 2026-06-15

Deep Work Plan 是一款帮助用户为其AI代理提供结构化计划的产品,强调上下文比模型更重要。

0 人收藏 0 人点赞
#planning

@omarsar0:一样。对 Opus 4.8(规划)和 GPT-5.5(执行)很满意。另外,把步骤拆分成更小的部分来提高质量这一点被严重低估了。

X AI KOLs Following · 2026-06-11 缓存

一位开发者分享了对 Opus 4.8(用于规划)和 GPT-5.5(用于执行)的满意,强调将任务分解成更小的步骤能提高质量,并且动态工作流程被低估了。

0 人收藏 0 人点赞
#planning

SVoT: 基于强化学习的状态感知思维可视化空间推理

arXiv cs.AI · 2026-06-11 缓存

论文提出了SVoT,一种用于多模态大语言模型(MLLMs)中多跳空间推理的强化学习框架,该框架生成交错、可验证的中间状态和可视化,在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。

0 人收藏 0 人点赞
#planning

是否有人在生产环境中部署了多智能体AI员工?

Reddit r/AI_Agents · 2026-06-10

关于在生产环境中部署多智能体AI系统的讨论,其中不同的智能体负责规划、执行、沟通和项目管理,询问实际经验与瓶颈。

0 人收藏 0 人点赞
#planning

超越API:探究MLLMs在物理工具使用中的极限

arXiv cs.CL · 2026-06-10 缓存

本文介绍了PhysTool-Bench,一个用于评估多模态大语言模型在真实世界场景中识别和规划物理工具使用能力的基准。作者发现,即使是最佳模型也只能识别58.7%的工具,并仅完成21.0%的端到端查询,揭示了感知和功能常识两个层面的缺陷。

0 人收藏 0 人点赞
#planning

Front-to-Attractors: 改进双向搜索中的前向-前向启发式

arXiv cs.AI · 2026-06-08 缓存

介绍了一种新的双向搜索启发式类——前向-吸引子(F2A),通过评估到一小簇吸引子的距离,而非整个对面前沿,降低了计算成本,相比现有方法,能够减少多达11.2倍的成对评估次数和4.8倍的节点扩展次数。

0 人收藏 0 人点赞
#planning

弥合智能体-世界鸿沟:面向基于LLM的智能体的文本世界模型

Hugging Face Daily Papers · 2026-06-08 缓存

本文系统综述了面向基于LLM的智能体的文本世界模型,涵盖基础、构建范式、在规划与训练中的应用以及评估方法。

0 人收藏 0 人点赞
#planning

Stride

Product Hunt · 2026-06-06

Stride 是一个由人工智能驱动的工作空间,帮助您规划、设计和交付项目。

0 人收藏 0 人点赞
#planning

我们不再让AI代理提前规划三步,可靠性迅速提升

Reddit r/AI_Agents · 2026-06-02

一位实践者观察到,限制AI代理每次只规划一步而非多步,能显著提升涉及CRM和潜在客户资格认定的现实自动化工作流的可靠性,因为长期计划在外部状态变化时变得脆弱。

0 人收藏 0 人点赞
#planning

生成式规划模型的高效测试时推理

arXiv cs.AI · 2026-06-02 缓存

本文介绍了OCLGen,一种计算高效的测试时搜索算法,它将生成式规划模型与经典的开闭列表框架相结合,提高了组合规划领域的解质量。

0 人收藏 0 人点赞
#planning

世界模型:架构、方法、推理范式与应用的全面综述

arXiv cs.LG · 2026-06-02 缓存

关于世界模型的全面综述,提供了一个多轴分类体系,涵盖架构、方法、推理策略以及跨AI领域的应用,包括Dreamer、MuZero和Sora等关键系统。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈