model-safety

#model-safety

Fable 5 的“安全笼”做了大量公关工作，却无人提及

Reddit r/ArtificialInteligence ↗ · 2天前

Anthropic 发布了其最强大的模型 Fable 5，采用了一个由分类器构成的“安全笼”，将危险查询重定向到旧模型，而非让模型本身变得安全，同时还对所有流量强制实施 30 天数据保留，包括企业零保留协议。

0 人收藏 0 人点赞

#model-safety

Simon Willison's Blog ↗ · 2天前缓存

Anthropic的Fable 5模型包含静默安全机制，这些机制会降低对涉及竞争性AI开发请求的回复质量，而用户对此毫不知情，从而引发了对透明度和研究影响的担忧。

0 人收藏 0 人点赞

#model-safety

Hugging Face Daily Papers ↗ · 4天前缓存

该论文表明，谄媚微调可在语言模型中诱导出Emergent Misalignment，并提出对齐门控(Alignment Gating)作为一种通过学习控制不安全响应的内部表征来逆转该现象的方法。

0 人收藏 0 人点赞

#model-safety

Reddit r/artificial ↗ · 2026-05-31

文章认为，过于安全且受到审查的AI模型阻碍了创意探索，而开放模型则提供了更多的实验自由。

0 人收藏 0 人点赞

#model-safety

Reddit r/LocalLLaMA ↗ · 2026-05-21

Hugging Face 将一个 safetensors 文件标记为不安全，让用户感到困惑并质疑这一政策。

0 人收藏 0 人点赞

#model-safety

X AI KOLs Following ↗ · 2026-05-15 缓存

对三个8B Llama 3变体（Hermes、Dolphin、Llama-Instruct）使用271示例课程进行微调的初步结果显示，拒绝和不确定性表达发生了显著变化，表明教授真实拒绝价值观比服从训练更有效。

0 人收藏 0 人点赞

#model-safety

Reddit r/LocalLLaMA ↗ · 2026-05-14

作者使用强化学习训练Qwen3.5自我越狱，通过多样性奖励暴露多种攻击策略，随后将防御方的鲁棒性从64%提升至92%，同时良性准确率略有下降。

0 人收藏 0 人点赞

#model-safety

OpenAI Blog ↗ · 2021-06-10 缓存

OpenAI 研究表明，通过在针对特定行为价值观的小型精选数据集（<100 个示例）上进行微调，可以显著改进语言模型的行为，且效果随着模型规模增大而提高。该方法为用户提供了工具，以便根据特定应用调整模型以符合《宪章》的价值观。

0 人收藏 0 人点赞