标签
本文形式化了在共享嵌入序列模型中完美防范提示注入的不可能性,证明没有管内机制能够保证语义忠实控制,原因是指令与数据的表示不可分离,类似于冯·诺依曼架构中的代码-数据混淆。
本文使用因果影响图正式定义了从AI系统中获取潜知识(ELK)的问题,并证明了一个不可能性定理:没有任何仅依赖智能体行为的基于反馈的训练策略能够保证智能体诚实,即使训练反馈完美无缺。