标签
DisaBench是一个与残障人士共同创建的参与式评估框架,引入了12个残疾伤害类别的分类法和一个包含175个提示的数据集,用于评估语言模型中的伤害,揭示了标准安全基准会遗漏微妙的、专家识别的伤害。