pluralistic-communities

标签

Cards List
#pluralistic-communities

PluRule:一个用于审核社交媒体上多元社区的基准

arXiv cs.CL · 2026-05-19 缓存

PluRule 是一个新的多模态、多语言基准,用于评估 AI 模型在社交媒体上审核多元社区的能力,涵盖 1,989 个 Reddit 社区中的 13,371 条规则违规,涉及 9 种语言。结果表明,即使像 GPT-5.2 这样的最先进模型,其表现也仅略高于随机水平,表明上下文相关的规则执行仍是一个根本性挑战。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈