标签
本文介绍了WebRISE,这是一个用于评估MLLM生成的网页工件的基准,它使用交互契约图(ICGs)来评估五种输入模态下的需求诱导状态和转换。实验表明,即使是最强的模型也只能达到有限的有效性和覆盖率,其中视频输入提供了最强的交互信号。