model-safety

标签

Cards List
#model-safety

Fable 5 的“安全笼”做了大量公关工作,却无人提及

Reddit r/ArtificialInteligence · 2天前

Anthropic 发布了其最强大的模型 Fable 5,采用了一个由分类器构成的“安全笼”,将危险查询重定向到旧模型,而非让模型本身变得安全,同时还对所有流量强制实施 30 天数据保留,包括企业零保留协议。

0 人收藏 0 人点赞
#model-safety

如果Claude Fable停止帮助你,你永远不会知道

Simon Willison's Blog · 2天前 缓存

Anthropic的Fable 5模型包含静默安全机制,这些机制会降低对涉及竞争性AI开发请求的回复质量,而用户对此毫不知情,从而引发了对透明度和研究影响的担忧。

0 人收藏 0 人点赞
#model-safety

谄媚可诱导产生 Emergent Misalignment,并通过对齐门控(Alignment Gating)逆转

Hugging Face Daily Papers · 4天前 缓存

该论文表明,谄媚微调可在语言模型中诱导出Emergent Misalignment,并提出对齐门控(Alignment Gating)作为一种通过学习控制不安全响应的内部表征来逆转该现象的方法。

0 人收藏 0 人点赞
#model-safety

AI是否变得太过"安全",以至于对创意工作实际上毫无用处?

Reddit r/artificial · 2026-05-31

文章认为,过于安全且受到审查的AI模型阻碍了创意探索,而开放模型则提供了更多的实验自由。

0 人收藏 0 人点赞
#model-safety

HF 将 safetensors 标记为不安全?搞什么?

Reddit r/LocalLLaMA · 2026-05-21

Hugging Face 将一个 safetensors 文件标记为不安全,让用户感到困惑并质疑这一政策。

0 人收藏 0 人点赞
#model-safety

@m_shalia: Three Babies的初步结果出来了,我必须谈谈这个。我们微调了三个共享...的8B模型

X AI KOLs Following · 2026-05-15 缓存

对三个8B Llama 3变体(Hermes、Dolphin、Llama-Instruct)使用271示例课程进行微调的初步结果显示,拒绝和不确定性表达发生了显著变化,表明教授真实拒绝价值观比服从训练更有效。

0 人收藏 0 人点赞
#model-safety

我用强化学习训练Qwen3.5自我越狱,然后利用失败案例改进防御

Reddit r/LocalLLaMA · 2026-05-14

作者使用强化学习训练Qwen3.5自我越狱,通过多样性奖励暴露多种攻击策略,随后将防御方的鲁棒性从64%提升至92%,同时良性准确率略有下降。

0 人收藏 0 人点赞
#model-safety

通过在精选数据集上进行训练来改进语言模型行为

OpenAI Blog · 2021-06-10 缓存

OpenAI 研究表明,通过在针对特定行为价值观的小型精选数据集(<100 个示例)上进行微调,可以显著改进语言模型的行为,且效果随着模型规模增大而提高。该方法为用户提供了工具,以便根据特定应用调整模型以符合《宪章》的价值观。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈