omni-modal

#omni-modal

原生主动感知作为全模态理解的推理方式

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

介绍OmniAgent，一个全模态代理，使用迭代的观察-思考-行动循环与主动感知，实现卓越的长视频理解，在基准测试上优于更大的模型如Qwen2.5-VL-72B。

0 人收藏 0 人点赞

#omni-modal

MODF-SIR：面向社会智能推理的多智能体全能模态蒸馏框架

arXiv cs.AI ↗ · 2026-06-11 缓存

本文提出MODF-SIR，一个基于轻量级多模态大语言模型的多智能体协作框架，用于社会智能推理。它采用知识蒸馏、长尾事件提取和测试时自适应，以更少的训练数据实现了最先进的结果。

0 人收藏 0 人点赞

#omni-modal

OmniCap-IF：全模态视频字幕生成中指令跟随能力的基准测试与提升

Hugging Face Daily Papers ↗ · 2026-06-07 缓存

介绍了OmniCap-IF，这是首个用于评估全模态视频字幕生成中指令跟随能力的综合性基准，揭示了格式-内容权衡，并提出了改进的模型和数据集。

0 人收藏 0 人点赞

#omni-modal

TOBench：面向真实世界工具使用智能体的任务导向全模态基准

arXiv cs.AI ↗ · 2026-05-19 缓存

TOBench是一个新的基准测试，用于评估AI智能体在真实世界、任务导向的工具使用中的表现，涉及多模态输入和闭环验证。实验表明，像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率，远低于94%的人类基准，凸显了显著的差距。

0 人收藏 0 人点赞

#omni-modal

面向高效全模态LLM的阶段自适应Token选择方法

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

SEATS是一种无需训练的阶段自适应Token选择方法，通过逐步剪枝冗余的视觉和音频Token来降低全模态LLM的计算开销，实现了9.3倍FLOPs减少和4.8倍预填充加速，同时保持96.3%的性能。

0 人收藏 0 人点赞

#omni-modal

Qwen3.7预览版登陆Arena（1分钟阅读）

TLDR AI ↗ · 2026-05-19 缓存

阿里巴巴Qwen宣布两大重要模型发布：Qwen3-Omni，首个原生端到端全模态AI，统一处理文本、图像、音频和视频；以及Qwen3-Next-80B-A3B，一款超高效MoE模型，每个token激活30亿参数，实现了SOTA性能，推理速度比Qwen3-32B快10倍。

0 人收藏 0 人点赞

#omni-modal

NVIDIA 发布 Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态智能

Hugging Face Blog ↗ · 2026-04-28 缓存

NVIDIA 发布 Nemotron 3 Nano Omni，这是一款新型长上下文多模态 AI 模型，能够以高准确性和高效率处理文档、音频、视频和文本。

0 人收藏 0 人点赞

#omni-modal

超越文本主导：理解全模态大语言模型的模态偏好

Hugging Face Daily Papers ↗ · 2026-04-18 缓存

# 论文页面 - 超越文本主导：理解全模态大语言模型的模态偏好来源：[https://huggingface.co/papers/2604.16902](https://huggingface.co/papers/2604.16902) ## 摘要研究发现，原生全模态大语言模型表现出相对于文本的视觉偏好，模态偏好在模型中后层逐步涌现，并可用于诊断跨模态幻觉。原生[全模态大语言模型](https://huggingfa

0 人收藏 0 人点赞

#omni-modal

OmniGUI：在全方位模态智能手机环境中对GUI智能体进行基准测试

Hugging Face Daily Papers ↗ · 2026-04-03 缓存

OmniGUI引入了一个针对GUI智能体的步骤级基准测试，该测试整合了静态图像、同步音频和视频片段，以模拟真实的智能手机交互。评估显示，当前模型在处理时序和听觉输入方面存在困难，凸显了对全方位模态能力的需求。

0 人收藏 0 人点赞

omni-modal

提交意见反馈