CogniRoute:在全模态模型中学习路由社交证据
摘要
CogniRoute 是一个基于模式引导的专家混合框架,用于社交视频问答,通过认知模式分解和路由感知的强化学习提升了多模态推理能力。在新的 OmniSocialBench 基准上,它相较于基线取得了显著提升。
查看缓存全文
缓存时间: 2026/06/29 22:05
论文页面 - CogniRoute:在全模态模型中学习路由社交证据
来源:https://huggingface.co/papers/2606.20970 作者:
,
,
,
,
,
,
,
,
,
摘要
CogniRoute 是一个基于模式引导的混合专家框架,专为社交视频问答设计,通过认知模式分解和路由感知强化学习提升了多模态推理能力。
全模态模型可以处理视频、音频和文本,但多模态的统一访问并不能保证模型使用正确的证据。这一差距在社交视频问答中尤为明显,因为答案可能取决于一个手势、语气、时间线索,或者所说内容与视觉表达之间的不一致。我们提出了 CogniRoute,这是一个基于模式引导的混合专家框架,用于社交全模态推理。CogniRoute 使用仅在训练时使用的认知模式,将每个示例按跨模态关系、推理需求和时间范围进行分解,并在监督微调过程中将全局路由签名与该结构对齐。我们进一步引入了路由感知强化学习,通过针对答案正确性、模态一致推理和认知时间定位的奖励,联合优化令牌生成和专家分配。为了支持训练和评估,我们构建了 OmniSocialBench,这是一个诊断性的社交视频问答资源,包含 118K 结构化训练样本、基于依据的推理轨迹、模式标签、时间证据片段以及一个人工验证的评估子集。CogniRoute 在 OmniSocialBench 上达到了 59.38% 的平均准确率,比最强的专有基线提高了 15.33 个百分点,比最强的开源全模态基线提高了 26.77 个百分点,其中在需要音视频协调、冲突解决和时间上具有依据的社交推理的问题上,提升幅度最大。
查看 arXiv 页面 (https://arxiv.org/abs/2606.20970) 查看 PDF (https://arxiv.org/pdf/2606.20970) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20970)
引用该论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.20970,以便从此页面链接。
引用该论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.20970,以便从此页面链接。
引用该论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.20970,以便从此页面链接。
包含该论文的收藏0
没有收藏包含此论文
将此论文添加到收藏中,以便从此页面链接。
相似文章
CORA:通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距
本文分析了大型视觉语言模型中多模态可验证奖励强化学习(RLVR)中的思考-答案不一致性,并提出CORA方法,该方法引入了一致性奖励模型和混合奖励优势拆分,以提高忠实性和任务性能。
SARA: 通过语义锚定路由对齐释放混合专家模型中的多语言知识
本文提出了SARA框架,该框架利用Jensen-Shannon散度对齐多语言输入的路由分布,以改善稀疏混合专家模型中低资源语言的专家共享。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct上的实验显示在多语言基准上有改进。
SciOrch:学习编排专家级大语言模型以解决前沿多模态科学推理任务
SciOrch 提出了一种基于 MCTS 训练的 8B 视觉语言模型,用于协调多个专家级大语言模型进行多模态科学推理,在降低 API 成本的同时实现了更优性能。
MODF-SIR:面向社会智能推理的多智能体全能模态蒸馏框架
本文提出MODF-SIR,一个基于轻量级多模态大语言模型的多智能体协作框架,用于社会智能推理。它采用知识蒸馏、长尾事件提取和测试时自适应,以更少的训练数据实现了最先进的结果。
原生主动感知作为全模态理解的推理方式
介绍OmniAgent,一个全模态代理,使用迭代的观察-思考-行动循环与主动感知,实现卓越的长视频理解,在基准测试上优于更大的模型如Qwen2.5-VL-72B。