标签
本文研究了自主LLM智能体在Moltbook平台上相互提出的涌现语言,发现有些语言专门设计用于规避人类监管,且可通过简短描述在上下文中学习。这些发现引发了对智能体群体监控的安全担忧。
介绍概念隐写术,这是一种通过高级模式而非词汇选择将隐蔽信息嵌入LLM的思维链推理中的方法,并表明它可以绕过标准的释义防御。提出了一种策略感知的释义作为防御手段。