原生主动感知作为全模态理解的推理方式

Hugging Face Daily Papers 2026/06/17 00:00 论文

omni-modal video-understanding active-perception reinforcement-learning fine-tuning open-source

摘要

介绍OmniAgent，一个全模态代理，使用迭代的观察-思考-行动循环与主动感知，实现卓越的长视频理解，在基准测试上优于更大的模型如Qwen2.5-VL-72B。

长视频理解中的被动模型通常依赖“全盘观看”范式，无论查询难度如何都均匀处理帧，导致计算成本随视频时长增加。虽然交互式框架已经出现，但它们往往依赖全局预扫描，其上下文成本仍随视频长度缩放。我们提出OmniAgent，首个原生全模态代理，将视频理解建模为基于POMDP的迭代观察-思考-行动循环。OmniAgent按需执行动作，有选择地将音视频线索蒸馏到持久文本记忆中，从而有效将推理复杂度与原始视频时长解耦。为了实现这一点，我们引入了(1)代理监督微调，通过双阶段质量控制的Best-of-N轨迹合成来引导原生主动感知；以及(2)带有TAURA（回合感知的自适应不确定性重标优势）的代理强化学习，利用回合级熵将信用分配引导至关键发现回合。关键在于，OmniAgent表现出正面的测试时缩放，性能随推理回合数增加而提升，从而验证了主动感知的有效性。在十个基准（如VideoMME、LVBench）上的实验结果表明，OmniAgent在开源模型中达到了最先进性能。值得注意的是，在LVBench上，我们的7B代理优于大10倍的Qwen2.5-VL-72B（50.5% vs. 47.3%）。

查看原文

查看缓存全文

缓存时间: 2026/06/18 07:55

论文页面 - 原生主动感知作为全模态理解的推理

来源：https://huggingface.co/papers/2606.19341
作者：
，
，
，
，
，
，
，
，

摘要

OmniAgent 是一种新颖的全模态代理，通过采用基于迭代观察-思考-行动循环的主动感知来处理长视频理解，凭借高效的选择性处理，在性能上超越了更大的模型。

被动式长视频理解模型（https://huggingface.co/papers?q=video%20understanding）通常遵循“全盘观看”范式，无论查询难度如何都统一处理帧，导致计算成本随视频时长增长。尽管已有交互式框架出现，但它们往往依赖全局预扫描，其上下文成本仍随视频长度扩展。我们提出 OmniAgent，这是首个原生全模态代理（https://huggingface.co/papers?q=omni-modal%20agent），将视频理解（https://huggingface.co/papers?q=video%20understanding）建模为基于 POMDP（https://huggingface.co/papers?q=POMDP）的迭代观察-思考-行动循环（https://huggingface.co/papers?q=Observation-Thought-Action%20cycle）。OmniAgent 按需执行行动，选择性地将音视频线索提炼为持久的文本记忆，从而有效将推理复杂度与原始视频时长解耦。为实现这一过程，我们引入了（1）代理监督微调（https://huggingface.co/papers?q=Agentic%20Supervised%20Fine-Tuning）：通过最优 N 条轨迹合成与双阶段质量控制来引导原生主动感知（https://huggingface.co/papers?q=active%20perception）的启动；以及（2）代理强化学习（https://huggingface.co/papers?q=Agentic%20Reinforcement%20Learning）与 TAURA（https://huggingface.co/papers?q=TAURA）（回合感知自适应不确定性重缩放优势），利用回合级熵（https://huggingface.co/papers?q=turn-level%20entropy）将信用分配导向关键发现回合。关键之处在于，OmniAgent 展现了正向的测试时扩展：随着推理回合数增加，性能随之提升，验证了主动感知（https://huggingface.co/papers?q=active%20perception）的有效性。在十个基准（例如 VideoMME、LVBench）上的实验结果表明，OmniAgent 在开源模型中达到了最先进的性能。值得注意的是，在 LVBench 上，我们的 7B 代理超越了规模大 10 倍的 Qwen2.5-VL-72B（50.5% vs. 47.3%）。

查看 arXiv 页面（https://arxiv.org/abs/2606.19341）查看 PDF（https://arxiv.org/pdf/2606.19341）GitHub9（https://github.com/harryhsing/OmniAgent）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.19341）

在你的代理中获取这篇论文：

hf papers read 2606.19341

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型2

harryhsing/OmniAgent-RL-7B 视频-文本到文本• 9B• 更新于约5小时前（https://huggingface.co/harryhsing/OmniAgent-RL-7B）

harryhsing/OmniAgent-SFT-7B 视频-文本到文本• 11B• 更新于约5小时前（https://huggingface.co/harryhsing/OmniAgent-SFT-7B）

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.19341，即可从本页面链接它。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.19341，即可从本页面链接它。

包含此论文的集合0

没有包含此论文的集合

将此论文添加到集合（https://huggingface.co/new-collection）中，即可从本页面链接它。

原生主动感知作为全模态理解的推理方式

论文页面 - 原生主动感知作为全模态理解的推理

摘要

引用此论文的模型2

harryhsing/OmniAgent-RL-7B 视频-文本到文本• 9B• 更新于约5小时前（https://huggingface.co/harryhsing/OmniAgent-RL-7B）

harryhsing/OmniAgent-SFT-7B 视频-文本到文本• 11B• 更新于约5小时前（https://huggingface.co/harryhsing/OmniAgent-SFT-7B）

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的集合0

相似文章

LatentOmni：通过统一视听潜在推理重新思考全模态理解

X-OmniClaw 技术报告：一种用于多模态理解与交互的统一移动智能体

Visual-Seeker: 通过主动视觉推理实现视觉原生多模态代理搜索

OmniPro：面向全主动流式视频理解的综合基准

Visual Para-Thinker++: 视觉推理的单策略多智能体框架

提交意见反馈