标签
本文研究了LLM中有用性与安全性之间的张力如何导致某些行为的上下文依赖抑制与恢复,表明追求有用性的动力能够覆盖因果谨慎机制。
一位创作者描述了Twitter算法在一条病毒式帖子后如何大幅降低触达,指标下降85%-95%,并希望平台能透明地告知如何从这种压制中恢复。