CogniRoute：在全模态模型中学习路由社交证据

Hugging Face Daily Papers 2026/06/18 00:00 论文

摘要

CogniRoute 是一个基于模式引导的专家混合框架，用于社交视频问答，通过认知模式分解和路由感知的强化学习提升了多模态推理能力。在新的 OmniSocialBench 基准上，它相较于基线取得了显著提升。

全模态模型可以处理视频、音频和文本，但统一访问多种模态并不能保证模型使用正确的证据。这种差距在社交视频问答中尤为明显，因为答案可能取决于某个手势、语调、时间线索，或者所说内容与视觉表达之间的不一致。我们提出了 CogniRoute，一个用于社交全模态推理的模式引导的专家混合框架。CogniRoute 使用一个仅用于训练的认知模式，该模式通过跨模态关系、推理需求和时间范围对每个示例进行分解，并在监督微调过程中将全局路由特征与该结构对齐。我们还引入了路由感知的强化学习，它通过针对答案正确性、模态一致性推理和认知时间基础化的奖励，联合优化令牌生成和专家分配。为了支持训练和评估，我们构建了 OmniSocialBench，这是一个诊断性社交视频问答资源，包含 11.8 万个结构化训练示例、基于证据的推理痕迹、模式标签、时间证据跨度以及一个手动验证的评估分割。CogniRoute 在 OmniSocialBench 上取得了 59.38% 的平均准确率，比最强的专有基线提高了 15.33 个百分点，比最强的开源全模态基线提高了 26.77 个百分点，在需要音视频协调、冲突解决和时间基础化社交推理的问题上取得了最大提升。

查看原文

查看缓存全文

缓存时间: 2026/06/29 22:05

论文页面 - CogniRoute：在全模态模型中学习路由社交证据

来源：https://huggingface.co/papers/2606.20970 作者：

摘要

CogniRoute 是一个基于模式引导的混合专家框架，专为社交视频问答设计，通过认知模式分解和路由感知强化学习提升了多模态推理能力。

全模态模型可以处理视频、音频和文本，但多模态的统一访问并不能保证模型使用正确的证据。这一差距在社交视频问答中尤为明显，因为答案可能取决于一个手势、语气、时间线索，或者所说内容与视觉表达之间的不一致。我们提出了 CogniRoute，这是一个基于模式引导的混合专家框架，用于社交全模态推理。CogniRoute 使用仅在训练时使用的认知模式，将每个示例按跨模态关系、推理需求和时间范围进行分解，并在监督微调过程中将全局路由签名与该结构对齐。我们进一步引入了路由感知强化学习，通过针对答案正确性、模态一致推理和认知时间定位的奖励，联合优化令牌生成和专家分配。为了支持训练和评估，我们构建了 OmniSocialBench，这是一个诊断性的社交视频问答资源，包含 118K 结构化训练样本、基于依据的推理轨迹、模式标签、时间证据片段以及一个人工验证的评估子集。CogniRoute 在 OmniSocialBench 上达到了 59.38% 的平均准确率，比最强的专有基线提高了 15.33 个百分点，比最强的开源全模态基线提高了 26.77 个百分点，其中在需要音视频协调、冲突解决和时间上具有依据的社交推理的问题上，提升幅度最大。

查看 arXiv 页面 (https://arxiv.org/abs/2606.20970) 查看 PDF (https://arxiv.org/pdf/2606.20970) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20970)

引用该论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.20970，以便从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.20970，以便从此页面链接。

引用该论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.20970，以便从此页面链接。

包含该论文的收藏0

没有收藏包含此论文

将此论文添加到收藏中，以便从此页面链接。

CogniRoute：在全模态模型中学习路由社交证据

论文页面 - CogniRoute：在全模态模型中学习路由社交证据

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的 Space0

包含该论文的收藏0

相似文章

CORA：通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距

SARA: 通过语义锚定路由对齐释放混合专家模型中的多语言知识

SciOrch：学习编排专家级大语言模型以解决前沿多模态科学推理任务

MODF-SIR：面向社会智能推理的多智能体全能模态蒸馏框架

原生主动感知作为全模态理解的推理方式

提交意见反馈