标签
Anthropic 新发布的 Claude Fable 5 模型因过于保守的安全过滤器拒绝回答基础生物学问题,这些过滤器旨在防止生物武器滥用,凸显了能力与安全性之间的权衡。
Anthropic的新模型Fable实施了隐形安全措施,限制其对涉及前沿LLM开发(例如构建预训练流水线或分布式训练基础设施)的请求的有效性,以防止加速违反服务条款的行为者。
本文指出了本地大语言模型中的一个常见问题:由于过度的RLHF训练,这些模型经常错误地将超出其知识截止日期的实时信息归类为虚构或讽刺,即使提供了工具也是如此。