embodied-agents

#embodied-agents

面向进化环境中具身智能体的多尺度世界模型混合

arXiv cs.AI ↗ · 9小时前缓存

本文介绍了MuSix，一个面向具身智能体的框架，通过尺度感知的世界模型混合与进化机制，处理进化环境中的多尺度推理与动态适应，在EmbodiedBench和HAZARD上相比基线方法取得了改进。

0 人收藏 0 人点赞

#embodied-agents

LabGuard：将自然语言实验室规则转化为具身实验室代理的运行时防护

arXiv cs.AI ↗ · 昨天缓存

LabGuard 引入了一个框架，将自然语言实验室安全规则转化为具身代理的可执行运行时监控器，在不影响任务成功率的情况下，将不安全事件从 39.5% 降至 23.8%。

0 人收藏 0 人点赞

#embodied-agents

WorldLines：长周期有状态具身智能体的基准测试与建模

arXiv cs.AI ↗ · 2026-06-18 缓存

WorldLines 提出了一个针对长周期具身家务辅助的基准，包含记忆问答和部分可观察条件下的具身任务规划，并提出了 ObsMem，一个可见性感知的记忆框架。

0 人收藏 0 人点赞

#embodied-agents

AgentSpec：通过受控组合理解具身智能体脚手架

arXiv cs.CL ↗ · 2026-06-15 缓存

介绍AgentSpec，一个模块化的规范框架，用于系统地组合和分析具身LLM智能体脚手架，揭示了性能取决于脚手架的兼容性和交互效应，而非孤立模块的强度。

0 人收藏 0 人点赞

#embodied-agents

通过代码重构实现小语言模型的高效技能落地

arXiv cs.AI ↗ · 2026-06-09 缓存

本文提出了RECENT框架，该框架通过重构基于代码的技能而非从头生成，利用小语言模型在具身智能体中实现高效的技能落地，其性能可与基于大语言模型的方法媲美。

0 人收藏 0 人点赞

#embodied-agents

Cosmos 3: 用于物理AI的全模态世界模型

Hugging Face Daily Papers ↗ · 2026-06-01 缓存

Cosmos 3是NVIDIA推出的一系列全模态世界模型，采用统一的混合Transformer架构联合处理语言、图像、视频、音频和动作序列，在物理AI的理解和生成任务上达到了最先进水平。

0 人收藏 0 人点赞

#embodied-agents

在长期用户交互中个性化具身多模态大语言模型智能体

arXiv cs.AI ↗ · 2026-05-27 缓存

本文提出Polar，一种多模态记忆增强框架，用于在长期用户交互中个性化具身MLLM智能体，利用知识图谱和情景记忆从累积上下文中定位用户意图的实例。

0 人收藏 0 人点赞

#embodied-agents

DexHoldem: 使用灵巧具身系统玩德州扑克

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

DexHoldem是一个真实世界基准，用于评估具身智能体在灵巧操作任务中的表现，通过使用ShadowHand玩德州扑克来测试在闭环环境中的基元执行、感知和决策能力。

0 人收藏 0 人点赞

#embodied-agents

Ego2World：将第一人称烹饪视频编译为可执行世界以进行信念状态规划

arXiv cs.AI ↗ · 2026-05-14 缓存

Ego2World将第一人称烹饪视频（HD-EPIC）转换为具有图转换规则的可执行符号世界，从而能够在部分观察下评估信念状态规划。实验表明，信念记忆提高了任务完成率，表明它应该成为具身智能体评估的首要目标。

0 人收藏 0 人点赞

#embodied-agents

三思而后行：面向具身智能体的验证器引导动作选择

arXiv cs.AI ↗ · 2026-05-14 缓存

提出VeGAS框架，一种针对基于MLLM的具身智能体的测试时框架，该框架采样多个候选动作，并利用生成式验证器选择最可靠的动作，在挑战性任务上相比CoT基线实现了高达36%的相对性能提升。

0 人收藏 0 人点赞

#embodied-agents

持续增强框架：面向自我改进基础智能体的在线适应

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

本文介绍了“持续增强框架”（Continual Harness），该框架使具身人工智能智能体能够在无需重置环境的情况下实现在线自我改进。研究展示了在《宝可梦》游戏中的显著进展，通过自动化提示词和技能优化，智能体达到了人类水平的表现。

0 人收藏 0 人点赞

embodied-agents

提交意见反馈