INAR-VL: 面向边缘-云端视觉语言推理的输入感知路由
摘要
INAR-VL 提出了一种轻量级路由系统,用于边缘-云端视觉语言推理。该系统根据查询复杂度动态选择边缘或云端模型,在保持接近云端准确率的同时,显著降低延迟和能耗。
相似文章
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
Reroute,而非移除:面向视觉语言模型的可恢复视觉令牌路由
提出Reroute,一种无需训练的视觉语言模型插件,用可恢复的路由替代不可逆的视觉令牌剪枝,允许令牌在后续阶段重新进入流水线,从而在激进的令牌缩减下提升接地性能,同时保持VQA性能。
从早期经验中学习智能体路由
本文介绍了 BoundaryRouter,这是一个无需训练的框架,通过根据早期经验将查询路由至轻量级推理或完整智能体执行来优化大型语言模型(LLM)智能体的使用。此外,本文还提出了 RouteBench,这是一个用于评估路由性能的基准,显示出在速度和准确率方面的显著提升。
StableVLA:迈向无需额外数据的稳健视觉-语言-动作模型
本文为视觉-语言-动作(VLA)模型引入了一种信息瓶颈适配器(IB-Adapter),旨在提升模型在未见过的视觉干扰下的鲁棒性,且无需额外数据,在极小的参数开销下实现了高达30%的性能提升。
OneVL:基于视觉语言解释的单步隐式推理与规划
# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v