标签
PluRule 是一个新的多模态、多语言基准,用于评估 AI 模型在社交媒体上审核多元社区的能力,涵盖 1,989 个 Reddit 社区中的 13,371 条规则违规,涉及 9 种语言。结果表明,即使像 GPT-5.2 这样的最先进模型,其表现也仅略高于随机水平,表明上下文相关的规则执行仍是一个根本性挑战。