原生主动感知作为全模态理解的推理方式

Hugging Face Daily Papers 论文

摘要

介绍OmniAgent,一个全模态代理,使用迭代的观察-思考-行动循环与主动感知,实现卓越的长视频理解,在基准测试上优于更大的模型如Qwen2.5-VL-72B。

长视频理解中的被动模型通常依赖“全盘观看”范式,无论查询难度如何都均匀处理帧,导致计算成本随视频时长增加。虽然交互式框架已经出现,但它们往往依赖全局预扫描,其上下文成本仍随视频长度缩放。我们提出OmniAgent,首个原生全模态代理,将视频理解建模为基于POMDP的迭代观察-思考-行动循环。OmniAgent按需执行动作,有选择地将音视频线索蒸馏到持久文本记忆中,从而有效将推理复杂度与原始视频时长解耦。为了实现这一点,我们引入了(1)代理监督微调,通过双阶段质量控制的Best-of-N轨迹合成来引导原生主动感知;以及(2)带有TAURA(回合感知的自适应不确定性重标优势)的代理强化学习,利用回合级熵将信用分配引导至关键发现回合。关键在于,OmniAgent表现出正面的测试时缩放,性能随推理回合数增加而提升,从而验证了主动感知的有效性。在十个基准(如VideoMME、LVBench)上的实验结果表明,OmniAgent在开源模型中达到了最先进性能。值得注意的是,在LVBench上,我们的7B代理优于大10倍的Qwen2.5-VL-72B(50.5% vs. 47.3%)。
查看原文
查看缓存全文

缓存时间: 2026/06/18 07:55

论文页面 - 原生主动感知作为全模态理解的推理

来源:https://huggingface.co/papers/2606.19341
作者:







摘要

OmniAgent 是一种新颖的全模态代理,通过采用基于迭代观察-思考-行动循环的主动感知来处理长视频理解,凭借高效的选择性处理,在性能上超越了更大的模型。

被动式长视频理解模型(https://huggingface.co/papers?q=video%20understanding)通常遵循“全盘观看”范式,无论查询难度如何都统一处理帧,导致计算成本随视频时长增长。尽管已有交互式框架出现,但它们往往依赖全局预扫描,其上下文成本仍随视频长度扩展。我们提出 OmniAgent,这是首个原生全模态代理(https://huggingface.co/papers?q=omni-modal%20agent),将视频理解(https://huggingface.co/papers?q=video%20understanding)建模为基于 POMDP(https://huggingface.co/papers?q=POMDP)的迭代观察-思考-行动循环(https://huggingface.co/papers?q=Observation-Thought-Action%20cycle)。OmniAgent 按需执行行动,选择性地将音视频线索提炼为持久的文本记忆,从而有效将推理复杂度与原始视频时长解耦。为实现这一过程,我们引入了(1)代理监督微调(https://huggingface.co/papers?q=Agentic%20Supervised%20Fine-Tuning):通过最优 N 条轨迹合成与双阶段质量控制来引导原生主动感知(https://huggingface.co/papers?q=active%20perception)的启动;以及(2)代理强化学习(https://huggingface.co/papers?q=Agentic%20Reinforcement%20Learning)与 TAURA(https://huggingface.co/papers?q=TAURA)(回合感知自适应不确定性重缩放优势),利用回合级熵(https://huggingface.co/papers?q=turn-level%20entropy)将信用分配导向关键发现回合。关键之处在于,OmniAgent 展现了正向的测试时扩展:随着推理回合数增加,性能随之提升,验证了主动感知(https://huggingface.co/papers?q=active%20perception)的有效性。在十个基准(例如 VideoMME、LVBench)上的实验结果表明,OmniAgent 在开源模型中达到了最先进的性能。值得注意的是,在 LVBench 上,我们的 7B 代理超越了规模大 10 倍的 Qwen2.5-VL-72B(50.5% vs. 47.3%)。

查看 arXiv 页面(https://arxiv.org/abs/2606.19341)查看 PDF(https://arxiv.org/pdf/2606.19341)GitHub9(https://github.com/harryhsing/OmniAgent)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19341)

在你的代理中获取这篇论文:

hf papers read 2606.19341

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型2

harryhsing/OmniAgent-RL-7B 视频-文本到文本• 9B• 更新于约5小时前(https://huggingface.co/harryhsing/OmniAgent-RL-7B)

harryhsing/OmniAgent-SFT-7B 视频-文本到文本• 11B• 更新于约5小时前(https://huggingface.co/harryhsing/OmniAgent-SFT-7B)

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.19341,即可从本页面链接它。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.19341,即可从本页面链接它。

包含此论文的集合0

没有包含此论文的集合

将此论文添加到集合(https://huggingface.co/new-collection)中,即可从本页面链接它。

相似文章

Visual Para-Thinker++: 视觉推理的单策略多智能体框架

Hugging Face Daily Papers

Visual Para-Thinker++提出了一种用于视觉推理的单策略多智能体框架,该框架使用角色条件化智能体(主智能体、工作智能体、汇总智能体)和专用训练方法,以减少幻觉并提高效率,在幻觉敏感基准测试上优于基线。