uc-santa-barbara

标签

Cards List
#uc-santa-barbara

VISUALSKILL:面向计算机使用智能体的多模态技能

arXiv cs.CL · 2天前 缓存

VisualSkill 提出了一种层级化的多模态技能库,用于计算机使用智能体,结合文本与图像,通过在 GUI 交互中保留视觉信息,在 CUA 基准测试上相较于纯文本基线实现了 15.3 个百分点的绝对提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈