constitutional-ai

标签

Cards List
#constitutional-ai

[D] 人工智能对齐能否从“变革性”训练中受益,而非主要依赖交易性奖励训练?

Reddit r/artificial · 4小时前

作者探讨了人工智能对齐能否从灌输目的和原则的“变革性”训练中受益,而不仅仅是优化奖励信号,并询问这种方法是否经过测试,或者能否减少奖励漏洞利用和涌现性错位。

0 人收藏 0 人点赞
#constitutional-ai

2026年5月8日 对齐教学:教导Claude为什么

Anthropic Research · 2026-05-08 缓存

Anthropic分享了改进Claude对齐训练的经验,通过教授底层原则而非仅仅展示示例,在代理错位评估中获得了满分。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈