safety-benchmarks

标签

Cards List
#safety-benchmarks

DisaBench: 一个用于语言模型中残疾伤害的参与式评估框架

arXiv cs.AI · 5天前 缓存

DisaBench是一个与残障人士共同创建的参与式评估框架,引入了12个残疾伤害类别的分类法和一个包含175个提示的数据集,用于评估语言模型中的伤害,揭示了标准安全基准会遗漏微妙的、专家识别的伤害。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈