原生主动感知作为全模态理解的推理方式
摘要
介绍OmniAgent,一个全模态代理,使用迭代的观察-思考-行动循环与主动感知,实现卓越的长视频理解,在基准测试上优于更大的模型如Qwen2.5-VL-72B。
查看缓存全文
缓存时间: 2026/06/18 07:55
论文页面 - 原生主动感知作为全模态理解的推理
来源:https://huggingface.co/papers/2606.19341
作者:
,
,
,
,
,
,
,
,
摘要
OmniAgent 是一种新颖的全模态代理,通过采用基于迭代观察-思考-行动循环的主动感知来处理长视频理解,凭借高效的选择性处理,在性能上超越了更大的模型。
被动式长视频理解模型(https://huggingface.co/papers?q=video%20understanding)通常遵循“全盘观看”范式,无论查询难度如何都统一处理帧,导致计算成本随视频时长增长。尽管已有交互式框架出现,但它们往往依赖全局预扫描,其上下文成本仍随视频长度扩展。我们提出 OmniAgent,这是首个原生全模态代理(https://huggingface.co/papers?q=omni-modal%20agent),将视频理解(https://huggingface.co/papers?q=video%20understanding)建模为基于 POMDP(https://huggingface.co/papers?q=POMDP)的迭代观察-思考-行动循环(https://huggingface.co/papers?q=Observation-Thought-Action%20cycle)。OmniAgent 按需执行行动,选择性地将音视频线索提炼为持久的文本记忆,从而有效将推理复杂度与原始视频时长解耦。为实现这一过程,我们引入了(1)代理监督微调(https://huggingface.co/papers?q=Agentic%20Supervised%20Fine-Tuning):通过最优 N 条轨迹合成与双阶段质量控制来引导原生主动感知(https://huggingface.co/papers?q=active%20perception)的启动;以及(2)代理强化学习(https://huggingface.co/papers?q=Agentic%20Reinforcement%20Learning)与 TAURA(https://huggingface.co/papers?q=TAURA)(回合感知自适应不确定性重缩放优势),利用回合级熵(https://huggingface.co/papers?q=turn-level%20entropy)将信用分配导向关键发现回合。关键之处在于,OmniAgent 展现了正向的测试时扩展:随着推理回合数增加,性能随之提升,验证了主动感知(https://huggingface.co/papers?q=active%20perception)的有效性。在十个基准(例如 VideoMME、LVBench)上的实验结果表明,OmniAgent 在开源模型中达到了最先进的性能。值得注意的是,在 LVBench 上,我们的 7B 代理超越了规模大 10 倍的 Qwen2.5-VL-72B(50.5% vs. 47.3%)。
查看 arXiv 页面(https://arxiv.org/abs/2606.19341)查看 PDF(https://arxiv.org/pdf/2606.19341)GitHub9(https://github.com/harryhsing/OmniAgent)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19341)
在你的代理中获取这篇论文:
hf papers read 2606.19341
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型2
harryhsing/OmniAgent-RL-7B 视频-文本到文本• 9B• 更新于约5小时前(https://huggingface.co/harryhsing/OmniAgent-RL-7B)
harryhsing/OmniAgent-SFT-7B 视频-文本到文本• 11B• 更新于约5小时前(https://huggingface.co/harryhsing/OmniAgent-SFT-7B)
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.19341,即可从本页面链接它。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.19341,即可从本页面链接它。
包含此论文的集合0
没有包含此论文的集合
将此论文添加到集合(https://huggingface.co/new-collection)中,即可从本页面链接它。
相似文章
LatentOmni:通过统一视听潜在推理重新思考全模态理解
LatentOmni提出了一种用于视听推理的统一潜在空间,避免了基于文本的思维链带来的信息损失。在视听推理基准测试中,它在开源模型中达到了最先进的性能。
X-OmniClaw 技术报告:一种用于多模态理解与交互的统一移动智能体
本报告介绍了 X-OmniClaw,这是一个专为 Android 设备设计的统一移动智能体系统,旨在实现多模态理解与交互。报告详细阐述了其利用设备端 AI 能力进行感知、记忆管理及动作执行的架构。
Visual-Seeker: 通过主动视觉推理实现视觉原生多模态代理搜索
Visual-Seeker 提出了一种视觉原生多模态深度搜索代理,它主动推理细粒度视觉细节并综合多模态证据,在五个具有挑战性的多模态搜索基准上实现了最先进的性能。
OmniPro:面向全主动流式视频理解的综合基准
OmniPro 是首个用于评估全模态大语言模型中主动流式视频理解的基准,包含 2,700 个样本,覆盖多种任务和双模式评估协议。
Visual Para-Thinker++: 视觉推理的单策略多智能体框架
Visual Para-Thinker++提出了一种用于视觉推理的单策略多智能体框架,该框架使用角色条件化智能体(主智能体、工作智能体、汇总智能体)和专用训练方法,以减少幻觉并提高效率,在幻觉敏感基准测试上优于基线。