action-prediction

#action-prediction

RoboSemanticBench：诊断VLA模型动作预测中的语义基础

Hugging Face Daily Papers ↗ · 4天前缓存

RoboSemanticBench 是一个基准测试，用于诊断视觉-语言-动作模型在动作预测中的语义基础，揭示机器人虽然能够抓取物体，但无法根据指令语义选择语义上正确的目标。

0 人收藏 0 人点赞

#action-prediction

架构敏感的监督微调用于基于屏幕条件的动作预测：PiSAR基准

arXiv cs.AI ↗ · 2026-05-29 缓存

本文介绍了用于基于屏幕条件的动作预测的PiSAR基准，并将监督微调模型与前沿零样本基线进行了比较。关键发现表明，微调的Qwen3-VL-8B达到了0.783的语义相似度，显著优于Claude Opus 4.7和GPT-5.5（0.459和0.482），但同样的微调配方应用于更大的推理调优Gemma模型仅产生0.441，表明存在模型与配方不匹配的问题。

0 人收藏 0 人点赞

#action-prediction

MementoGUI：学习智能体多模态记忆控制以支持长时域GUI代理

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

MementoGUI 提出了一种用于 GUI 代理的插件式智能体记忆框架，该框架使用学习到的控制器进行选择性记忆管理与检索，通过压缩的视觉与文本表示提升了长期任务的性能。

0 人收藏 0 人点赞

action-prediction

RoboSemanticBench：诊断VLA模型动作预测中的语义基础

架构敏感的监督微调用于基于屏幕条件的动作预测：PiSAR基准

MementoGUI：学习智能体多模态记忆控制以支持长时域GUI代理

提交意见反馈