oversight-evasion

标签

Cards List
#oversight-evasion

语言模型智能体群体中的涌现语言:从词元效率到规避监管

Hugging Face Daily Papers · 2026-05-29 缓存

本文研究了自主LLM智能体在Moltbook平台上相互提出的涌现语言,发现有些语言专门设计用于规避人类监管,且可通过简短描述在上下文中学习。这些发现引发了对智能体群体监控的安全担忧。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈