INAR-VL: 面向边缘-云端视觉语言推理的输入感知路由

arXiv cs.LG 2026/05/20 04:00 论文

edge-computing vision-language-models inference-routing cloud-edge multimodal latency-energy

摘要

INAR-VL 提出了一种轻量级路由系统，用于边缘-云端视觉语言推理。该系统根据查询复杂度动态选择边缘或云端模型，在保持接近云端准确率的同时，显著降低延迟和能耗。

arXiv:2605.18853v1 公告类型: 新摘要: 在边缘部署视觉语言模型（VLM）面临延迟与准确率之间的权衡：云端执行能提供高质量的预测，但会产生通信延迟和能耗成本；而纯边缘执行虽然更快，但由于模型容量有限，准确率较低。图像质量和推理复杂度的异质性进一步加剧了这一权衡，使得静态部署方案并非最优。我们提出了 INAR-VL，一种用于两层部署中多模态推理的轻量级边缘-云端路由系统。INAR-VL 在边缘和云端维护互补的 VLM，并使用轻量级的图像和文本复杂度信号来指导路由和模型选择，在本地执行简单查询，同时在有益时将复杂查询卸载至云端。在视觉问答任务上的评估表明，INAR-VL 在边缘执行了 36% 的请求，延迟降低了 24%，能耗降低了 26%，并保留了 97% 的云端准确率。

查看原文

相似文章

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略（VisualThink-VLA）引入了一种用于视觉-语言-行动策略的视觉中间推理框架，该框架保留了空间精度，并相比基于文本的推理显著降低了延迟，在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

Reroute，而非移除：面向视觉语言模型的可恢复视觉令牌路由

Hugging Face Daily Papers

提出Reroute，一种无需训练的视觉语言模型插件，用可恢复的路由替代不可逆的视觉令牌剪枝，允许令牌在后续阶段重新进入流水线，从而在激进的令牌缩减下提升接地性能，同时保持VQA性能。

从早期经验中学习智能体路由

arXiv cs.CL

本文介绍了 BoundaryRouter，这是一个无需训练的框架，通过根据早期经验将查询路由至轻量级推理或完整智能体执行来优化大型语言模型（LLM）智能体的使用。此外，本文还提出了 RouteBench，这是一个用于评估路由性能的基准，显示出在速度和准确率方面的显著提升。

StableVLA：迈向无需额外数据的稳健视觉-语言-动作模型

Hugging Face Daily Papers

本文为视觉-语言-动作（VLA）模型引入了一种信息瓶颈适配器（IB-Adapter），旨在提升模型在未见过的视觉干扰下的鲁棒性，且无需额外数据，在极小的参数开销下实现了高达30%的性能提升。

OneVL：基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

相似文章

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

Reroute，而非移除：面向视觉语言模型的可恢复视觉令牌路由

从早期经验中学习智能体路由

StableVLA：迈向无需额外数据的稳健视觉-语言-动作模型

OneVL：基于视觉语言解释的单步隐式推理与规划

提交意见反馈