JoyAI-VL-Interaction: 实时视觉-语言交互智能

Hugging Face Daily Papers 2026/06/10 00:00 论文

vision-language real-time interaction open-source 8b-model vision-triggered deployable-system

摘要

本文介绍了JoyAI-VL-Interaction，一个开源8B规模的视觉-语言模型，可实时持续运行，自主决定何时响应或委派。它包含一个完整的可部署系统和一个训练配方，在人类评估中优于Doubao和Gemini。

现实世界中的许多瞬间并不会等待用户提问。安全监控上起火、视频通话中一掠而过的表情、直播中一闪而过的商品——这些时刻转瞬即逝。然而，如今的大模型在设计上大多仍以回合制为主：它们只在被提问时才回答，即使是那些看似可交互的视频通话应用，其底层仍按问答系统运作，仅在轮询或提示时才做出反应。我们主张一种不同的范式：一个像人一样存在于世界中的模型。它持续观察当下发生的事，自主决定何时说话或保持沉默，实时交互，并在问题复杂时将任务委派给后台模型。为了推动交互模型的发展及其在各领域的应用，我们做出两项完全开源贡献。首先，我们发布JoyAI-VL-Interaction，一个8B规模、以视觉为主的VL交互模型。该模型内部做出响应决策，每秒选择保持沉默、响应或委派给后台模型，并在视觉触发响应性和时间感知方面表现出色。我们为其配套提供了一个可迁移的训练配方，由此涌现出我们从未训练过的能力，例如引导购物者切换应用屏幕，或根据幻灯片即兴授课。其次，我们发布了一个围绕该模型构建的完整可部署系统。该系统将任何正在进行的视频流输入模型，使其真正存在于世界中。所有其他组件都是可插拔的，包括ASR/TTS模块、记忆、可视化界面以及可连接任意API或代理的后台大脑。在六个真实场景中，人类评分者以较大优势偏好JoyAI-VL-Interaction，而非Doubao和Gemini的App内视频通话助手。据我们所知，这是首个与训练配方、数据和完整可部署系统一同发布的开源视觉驱动交互模型。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:33

论文页面 - JoyAI-VL-Interaction：实时视觉-语言交互智能

来源：https://huggingface.co/papers/2606.14777 发布于 6月10日

#1 当日最佳论文 (https://huggingface.co/papers/date/2026-06-16) 作者：

，
，
，
，
，
，
，
，
，
，
，
，
，

摘要

一个视觉-语言模型以实时方式持续运行，自主决定何时响应或委派任务，从而构建出无需用户提示即可感知并对环境变化做出反应的交互系统。

现实世界中的许多时刻并不会等待用户提问。安保监控器上出现火情，视频通话中出现表情变化，或者直播中闪过观众想要的商品。然而，如今的大模型在设计上大多仍基于轮次交互：它们仅在被点名时才会回答；即使是看起来是交互式的视频通话应用，实质上仍是问答系统，仅在接收到轮询或提示时才做出反应。我们主张采用不同的范式：一个像人一样存在于世界中的模型。它持续观察当前正在发生的事情，自行决定是开口说话还是保持沉默，实时进行交互，并在问题困难时委派给后台模型（background model）处理。为了推动交互模型的发展及其在各领域的应用，我们做出了两项完全开源贡献。首先，我们发布了JoyAI-VL-Interaction，一个80亿参数规模、以视觉为先的视觉-语言交互模型。该模型在内部做出响应决策，每秒选择保持沉默、做出响应或委派给后台模型，并在视觉触发的响应能力（vision-triggered responsiveness）和时态感知能力（time awareness）方面表现出色。我们还配套提供了一份可迁移的训练配方，从中涌现出我们从未针对训练的能力，例如引导购物者切换应用屏幕，或根据幻灯片即兴授课。其次，我们发布了一个围绕该模型构建的完整可部署系统（deployable system）。该系统将任何持续的视频流输入模型，使其真正存在于世界中。所有其他组件均为可插拔式，包括ASR/TTS模块、记忆、可视化UI，以及可连接到任何API或代理的后台大脑。在六个真实场景中，人类评分员对JoyAI-VL-Interaction的偏好显著优于豆包和Gemini的App内视频通话助手。据我们所知，这是首个与训练配方、数据以及完整可部署系统一同发布的开源视觉驱动交互模型。

查看arXiv页面 (https://arxiv.org/abs/2606.14777)
查看PDF (https://arxiv.org/pdf/2606.14777)
项目页面 (https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/)
GitHub (https://github.com/jd-opensource/JoyAI-VL-Interaction)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.14777)

在你的代理中获取此论文：

hf papers read 2606.14777

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

请在一个模型的README.md中引用 arxiv.org/abs/2606.14777 以将其链接到此页面。

引用此论文的数据集 0

没有数据集链接到此论文

请在一个数据集的README.md中引用 arxiv.org/abs/2606.14777 以将其链接到此页面。

引用此论文的Spaces 0

没有Space链接到此论文

请在一个Space的README.md中引用 arxiv.org/abs/2606.14777 以将其链接到此页面。

JoyAI-VL-Interaction: 实时视觉-语言交互智能

论文页面 - JoyAI-VL-Interaction：实时视觉-语言交互智能

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的Spaces 0

包含此论文的收藏 4

相似文章

jdopensource/JoyAI-Echo

D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架

CollabVR：基于视觉语言模型与视频生成模型的协作式视频推理

Open-LLM-VTuber/Open-LLM-VTuber

VisualClaw: 面向物理世界的实时个性化智能体

提交意见反馈