safety-research

标签

Cards List
#safety-research

按需生成合成训练数据时,什么才是关键?

Reddit r/ArtificialInteligence · 2026-05-14

Abliteration 推出了一种按需定制的合成训练数据工作流,可为分类器生成负样本、罕见样本和对抗性样本,包含模式、真实世界事实、标签、来源追溯,并支持导出到 Hugging Face 等平台。

0 人收藏 0 人点赞
#safety-research

受控LLM激活的非满射性

Hugging Face Daily Papers · 2026-05-07 缓存

本文证明,LLM中的激活引导产生的内部状态无法通过任何文本提示复制,从而在白盒可控性和黑盒提示之间建立了形式上的区分。

0 人收藏 0 人点赞
#safety-research

深入探讨 Voice Engine 的工作原理和我们的安全研究

OpenAI Blog · 2024-06-07 缓存

OpenAI 详细介绍了 Voice Engine 的开发历史和安全方法,从 2022 年的内部测试到包括 ChatGPT 语音模式和 TTS API 在内的各种有限部署,强调了与专业配音演员的谨慎推出和与政策制定者的持续合作,以应对合成语音风险。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈