标签
RoboSemanticBench 是一个基准测试,用于诊断视觉-语言-动作模型在动作预测中的语义基础,揭示机器人虽然能够抓取物体,但无法根据指令语义选择语义上正确的目标。
本文介绍了用于基于屏幕条件的动作预测的PiSAR基准,并将监督微调模型与前沿零样本基线进行了比较。关键发现表明,微调的Qwen3-VL-8B达到了0.783的语义相似度,显著优于Claude Opus 4.7和GPT-5.5(0.459和0.482),但同样的微调配方应用于更大的推理调优Gemma模型仅产生0.441,表明存在模型与配方不匹配的问题。
MementoGUI 提出了一种用于 GUI 代理的插件式智能体记忆框架,该框架使用学习到的控制器进行选择性记忆管理与检索,通过压缩的视觉与文本表示提升了长期任务的性能。