标签
一位用户分享了他们在4090 GPU上通过vLLM运行DiffusionGemma 26B的经验,速度高达475t/s,但指出了单用户限制、准确度较低和上下文短等缺点,并认为它不值得替代常规的26B模型。