标签
MIRAGE 是一个面向移动端 GUI 智能体的框架,它以紧凑的连续潜在表示取代冗长的思维链推理,并融入生成式世界模型视角,在执行操作前预测未来的屏幕状态。在 AndroidWorld 和 AndroidControl 基准测试中,该框架在减少超过 75% 生成 token 的同时,实现了具有竞争力或更优的性能表现。
本文提出了一种用于主动移动代理的预推理感知框架(PRPF),将干预时机与辅助生成解耦,以提高效率并减少误触发。
作者观察到手机用AI代理最难的部分是追踪状态变化,因为移动界面相比桌面有更多动态和中断性的UI变化,并询问他人的经验。