JoyAI-VL-Interaction: 实时视觉-语言交互智能
摘要
本文介绍了JoyAI-VL-Interaction,一个开源8B规模的视觉-语言模型,可实时持续运行,自主决定何时响应或委派。它包含一个完整的可部署系统和一个训练配方,在人类评估中优于Doubao和Gemini。
查看缓存全文
缓存时间: 2026/06/16 11:33
论文页面 - JoyAI-VL-Interaction:实时视觉-语言交互智能
来源:https://huggingface.co/papers/2606.14777 发布于 6月10日
#1 当日最佳论文 (https://huggingface.co/papers/date/2026-06-16) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一个视觉-语言模型以实时方式持续运行,自主决定何时响应或委派任务,从而构建出无需用户提示即可感知并对环境变化做出反应的交互系统。
现实世界中的许多时刻并不会等待用户提问。安保监控器上出现火情,视频通话中出现表情变化,或者直播中闪过观众想要的商品。然而,如今的大模型在设计上大多仍基于轮次交互:它们仅在被点名时才会回答;即使是看起来是交互式的视频通话应用,实质上仍是问答系统,仅在接收到轮询或提示时才做出反应。我们主张采用不同的范式:一个像人一样存在于世界中的模型。它持续观察当前正在发生的事情,自行决定是开口说话还是保持沉默,实时进行交互,并在问题困难时委派给后台模型(background model)处理。为了推动交互模型的发展及其在各领域的应用,我们做出了两项完全开源贡献。首先,我们发布了JoyAI-VL-Interaction,一个80亿参数规模、以视觉为先的视觉-语言交互模型。该模型在内部做出响应决策,每秒选择保持沉默、做出响应或委派给后台模型,并在视觉触发的响应能力(vision-triggered responsiveness)和时态感知能力(time awareness)方面表现出色。我们还配套提供了一份可迁移的训练配方,从中涌现出我们从未针对训练的能力,例如引导购物者切换应用屏幕,或根据幻灯片即兴授课。其次,我们发布了一个围绕该模型构建的完整可部署系统(deployable system)。该系统将任何持续的视频流输入模型,使其真正存在于世界中。所有其他组件均为可插拔式,包括ASR/TTS模块、记忆、可视化UI,以及可连接到任何API或代理的后台大脑。在六个真实场景中,人类评分员对JoyAI-VL-Interaction的偏好显著优于豆包和Gemini的App内视频通话助手。据我们所知,这是首个与训练配方、数据以及完整可部署系统一同发布的开源视觉驱动交互模型。
查看arXiv页面 (https://arxiv.org/abs/2606.14777)
查看PDF (https://arxiv.org/pdf/2606.14777)
项目页面 (https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/)
GitHub (https://github.com/jd-opensource/JoyAI-VL-Interaction)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.14777)
在你的代理中获取此论文:
hf papers read 2606.14777
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接到此论文
请在一个模型的README.md中引用 arxiv.org/abs/2606.14777 以将其链接到此页面。
引用此论文的数据集 0
没有数据集链接到此论文
请在一个数据集的README.md中引用 arxiv.org/abs/2606.14777 以将其链接到此页面。
引用此论文的Spaces 0
没有Space链接到此论文
请在一个Space的README.md中引用 arxiv.org/abs/2606.14777 以将其链接到此页面。
包含此论文的收藏 4
相似文章
jdopensource/JoyAI-Echo
京东开源发布了JoyAI-Echo(Echo-LongVideo),这是一个文本到音视频扩散模型,能够生成分钟级的多镜头视频,保持角色身份和声音一致,并利用DMD蒸馏实现了7.5倍的速度提升。
D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架
D-VLA 提出了一种高并发分布式异步强化学习框架,用于视觉-语言-动作模型,采用平面解耦和泳道管线提升大规模具身智能训练中的吞吐量和效率。
CollabVR:基于视觉语言模型与视频生成模型的协作式视频推理
CollabVR 是一篇研究论文,提出了一种闭环框架,该框架通过协作整合视觉语言模型与视频生成模型,以改善视觉推理并实时纠正推理失败。
Open-LLM-VTuber/Open-LLM-VTuber
Open-LLM-VTuber 是一个开源的语音交互AI伴侣,拥有Live2D虚拟形象,支持实时对话和视觉感知,可完全离线运行。
VisualClaw: 面向物理世界的实时个性化智能体
VisualClaw是一种自我进化的多模态智能体,通过混合编码和技能进化降低部署成本,同时在多个基准测试中提高了视频问答的准确性。