constitutional-ai

#constitutional-ai

[D] 人工智能对齐能否从“变革性”训练中受益，而非主要依赖交易性奖励训练？

Reddit r/artificial ↗ · 4小时前

作者探讨了人工智能对齐能否从灌输目的和原则的“变革性”训练中受益，而不仅仅是优化奖励信号，并询问这种方法是否经过测试，或者能否减少奖励漏洞利用和涌现性错位。

0 人收藏 0 人点赞

#constitutional-ai

Anthropic Research ↗ · 2026-05-08 缓存

Anthropic分享了改进Claude对齐训练的经验，通过教授底层原则而非仅仅展示示例，在代理错位评估中获得了满分。

0 人收藏 0 人点赞