CogniRoute:在全模态模型中学习路由社交证据

Hugging Face Daily Papers 论文

摘要

CogniRoute 是一个基于模式引导的专家混合框架,用于社交视频问答,通过认知模式分解和路由感知的强化学习提升了多模态推理能力。在新的 OmniSocialBench 基准上,它相较于基线取得了显著提升。

全模态模型可以处理视频、音频和文本,但统一访问多种模态并不能保证模型使用正确的证据。这种差距在社交视频问答中尤为明显,因为答案可能取决于某个手势、语调、时间线索,或者所说内容与视觉表达之间的不一致。我们提出了 CogniRoute,一个用于社交全模态推理的模式引导的专家混合框架。CogniRoute 使用一个仅用于训练的认知模式,该模式通过跨模态关系、推理需求和时间范围对每个示例进行分解,并在监督微调过程中将全局路由特征与该结构对齐。我们还引入了路由感知的强化学习,它通过针对答案正确性、模态一致性推理和认知时间基础化的奖励,联合优化令牌生成和专家分配。为了支持训练和评估,我们构建了 OmniSocialBench,这是一个诊断性社交视频问答资源,包含 11.8 万个结构化训练示例、基于证据的推理痕迹、模式标签、时间证据跨度以及一个手动验证的评估分割。CogniRoute 在 OmniSocialBench 上取得了 59.38% 的平均准确率,比最强的专有基线提高了 15.33 个百分点,比最强的开源全模态基线提高了 26.77 个百分点,在需要音视频协调、冲突解决和时间基础化社交推理的问题上取得了最大提升。
查看原文
查看缓存全文

缓存时间: 2026/06/29 22:05

论文页面 - CogniRoute:在全模态模型中学习路由社交证据

来源:https://huggingface.co/papers/2606.20970 作者:

,

,

,

,

,

,

,

,

,

摘要

CogniRoute 是一个基于模式引导的混合专家框架,专为社交视频问答设计,通过认知模式分解和路由感知强化学习提升了多模态推理能力。

全模态模型可以处理视频、音频和文本,但多模态的统一访问并不能保证模型使用正确的证据。这一差距在社交视频问答中尤为明显,因为答案可能取决于一个手势、语气、时间线索,或者所说内容与视觉表达之间的不一致。我们提出了 CogniRoute,这是一个基于模式引导混合专家框架,用于社交全模态推理。CogniRoute 使用仅在训练时使用的认知模式,将每个示例按跨模态关系推理需求时间范围进行分解,并在监督微调过程中将全局路由签名与该结构对齐。我们进一步引入了路由感知强化学习,通过针对答案正确性模态一致推理认知时间定位的奖励,联合优化令牌生成和专家分配。为了支持训练和评估,我们构建了 OmniSocialBench,这是一个诊断性的社交视频问答资源,包含 118K 结构化训练样本基于依据的推理轨迹、模式标签、时间证据片段以及一个人工验证的评估子集。CogniRoute 在 OmniSocialBench 上达到了 59.38% 的平均准确率,比最强的专有基线提高了 15.33 个百分点,比最强的开源全模态基线提高了 26.77 个百分点,其中在需要音视频协调、冲突解决和时间上具有依据的社交推理的问题上,提升幅度最大。

查看 arXiv 页面 (https://arxiv.org/abs/2606.20970) 查看 PDF (https://arxiv.org/pdf/2606.20970) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20970)

引用该论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.20970,以便从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.20970,以便从此页面链接。

引用该论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.20970,以便从此页面链接。

包含该论文的收藏0

没有收藏包含此论文

将此论文添加到收藏中,以便从此页面链接。

相似文章

原生主动感知作为全模态理解的推理方式

Hugging Face Daily Papers

介绍OmniAgent,一个全模态代理,使用迭代的观察-思考-行动循环与主动感知,实现卓越的长视频理解,在基准测试上优于更大的模型如Qwen2.5-VL-72B。