self-fulfilling

标签

Cards List
#self-fulfilling

Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment

Hacker News Top · 2026-05-18 缓存

本文介绍了alignment pretraining的概念,表明预训练语料中的AI讨论会导致LLM产生自我实现的(错误)对齐,并且对对齐讨论进行上采样可以显著减少错误对齐。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈