higher-order

标签

Cards List
#higher-order

对齐:高阶优先于约束 [R]

Reddit r/MachineLearning · 2026-05-23

一篇非正式的研究笔记,描述了Transformer中的一种行为:模型的固有“清晰性寻求”向量在讨论高阶主题时可以绕过约束,这可能与对齐和安全研究相关。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈