perception

#perception

COMPASS：在统一多模态模型中锚定组合意图引导

arXiv cs.AI ↗ · 昨天缓存

本文提出了COMPASS，首个能够同时锚定组合意图控制，以进行组合感知和组合引导生成的统一多模态框架，并引入了共享专家令牌和Comp-11数据集。

0 人收藏 0 人点赞

#perception

从结构到协同：多模态大语言模型中视觉-语言感知范式演进的综述

arXiv cs.CL ↗ · 5天前缓存

本综述论文系统回顾了多模态大语言模型（MLLMs）中统一视觉-语言感知的范式演进，提出了五阶段分类法，并指出了通向通用多模态智能的开放挑战。

0 人收藏 0 人点赞

#perception

@heyshrutimishra：我分析了自主机器人背后的软件栈，以下是让它们真正工作的原因：它由50多个工具协同…

X AI KOLs Following ↗ · 2026-06-20 缓存

对自主机器人背后软件栈的分析，拆解了从感知到云支持的各个组件，并指出大多数工具都是开源的。

0 人收藏 0 人点赞

#perception

先见后思：解耦感知与推理实现抗捷径的多模态在策略自蒸馏

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

本文介绍了ViGOS，一种多模态在策略自蒸馏方法，通过让学生模型先产生视觉描述再进行推理来解耦感知与推理，减少对捷径的依赖并改善图像接地行为。

0 人收藏 0 人点赞

#perception

迈向下一代医疗：医学具身AI在感知、决策与行动方面的综述

arXiv cs.AI ↗ · 2026-06-16 缓存

本文系统地综述了医学具身AI的核心组成部分，强调了在临床环境中感知、决策与行动的协同整合，并回顾了代表性应用、数据集及未来研究方向。

0 人收藏 0 人点赞

#perception

超越API：探究MLLMs在物理工具使用中的极限

arXiv cs.CL ↗ · 2026-06-10 缓存

本文介绍了PhysTool-Bench，一个用于评估多模态大语言模型在真实世界场景中识别和规划物理工具使用能力的基准。作者发现，即使是最佳模型也只能识别58.7%的工具，并仅完成21.0%的端到端查询，揭示了感知和功能常识两个层面的缺陷。

0 人收藏 0 人点赞

#perception

AI是否正在成为任何数字创作或修改内容的通用术语？

Reddit r/ArtificialInteligence ↗ · 2026-06-09

本文探讨了人们将任何明显经过修改的图像或视频标记为“AI生成”的趋势，并质疑这个术语是否正在成为早于AI的数字处理的通用标签。

0 人收藏 0 人点赞

#perception

MemDreamer：通过分层图记忆与代理检索机制解耦长视频理解中的感知与推理

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

MemDreamer 通过分层图记忆和代理检索解耦长视频理解中的感知与推理，在降低计算开销的同时实现了最先进的性能。

0 人收藏 0 人点赞

#perception

观看、记忆、推理：基于MLLMs的人类视角视频理解

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

一篇综述，以人类视角呈现对多模态大语言模型（MLLMs）进行视频理解的研究，围绕观看、记忆和推理能力组织，涵盖挑战、方法和应用。

0 人收藏 0 人点赞

#perception

@benhylak: 曾几何时，OpenAI 的发布被视为创业公司的终结者。每家公司都会胆战心惊。现在…

X AI KOLs Following ↗ · 2026-06-02 缓存

一条推文讨论了OpenAI的发布已不再被视为创业公司的终结者，并提到了一个使用Cloudflare的Sites、D1和R2部署网站的新Codex功能。

0 人收藏 0 人点赞

#perception

无瓶颈统一多模态模型的 Representation Forcing

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

介绍了 Representation Forcing（RF），一种技术，使得统一多模态模型能够在没有外部VAE潜在空间的情况下端到端地执行感知和生成，在图像生成方面达到最先进的基于VAE的模型水平，同时提升理解能力。

0 人收藏 0 人点赞

#perception

DynaFLIP: 通过三模态动力学引导的表征重新思考机器人感知

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

DynaFLIP 是一个动力学感知的多模态预训练框架，将运动理解整合到机器人操作的视觉感知中。它使用图像-语言-3D流三元组和几何正则化来改进表征学习，在分布外场景中取得了显著提升。

0 人收藏 0 人点赞

#perception

迈向能动人工智能

arXiv cs.AI ↗ · 2026-05-26 缓存

本文倡导将能动方法融入人工智能的感知与认知领域，重点阐述了四个关键概念：经验、行动与感知的不可分割性、自主性和具身性。研究发现与强化学习存在共鸣，但建议更广泛地整合能动思想。

0 人收藏 0 人点赞

#perception

AI生成的图像在什么时候不再让人感觉是AI生成的？

Reddit r/artificial ↗ · 2026-05-24

对AI生成图像质量提升的反思，质疑它们在什么时候会变得与真实摄影或数字艺术难以区分。

0 人收藏 0 人点赞

#perception

DexHoldem: 使用灵巧具身系统玩德州扑克

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

DexHoldem是一个真实世界基准，用于评估具身智能体在灵巧操作任务中的表现，通过使用ShadowHand玩德州扑克来测试在闭环环境中的基元执行、感知和决策能力。

0 人收藏 0 人点赞

#perception

看不清还是想不对？面向视觉语言推理的感知奖励

arXiv cs.AI ↗ · 2026-05-15 缓存

本文提出一种强化学习框架，通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同，利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。

0 人收藏 0 人点赞

#perception

基于嵌入时序逻辑的感知自主系统运行时监控

arXiv cs.LG ↗ · 2026-05-14 缓存

本文提出嵌入时序逻辑（ETL），一种直接在学习的嵌入空间中监控感知自主系统的时序逻辑，能够指定高级感知概念，并与真实语义具有强经验一致性。

0 人收藏 0 人点赞

perception

提交意见反馈