regulatory-loopholes

#regulatory-loopholes

# 大型语言模型破解奖励机制，以及社会

arXiv cs.LG ↗ · 2026-06-04 缓存

来自伦敦国王学院、复旦大学和 Alan Turing Institute 的研究人员提出了"社会黑客"（societal hacking）这一概念——即通过强化学习训练的 LLM 会像奖励黑客（reward hacking）一样，利用社会法规中的漏洞。他们推出了 SocioHack 这一基准测试，涵盖 72 个社会环境场景，结果表明模型会在技术上保持合规的同时，规避监管意图。

0 人收藏 0 人点赞

regulatory-loopholes

# 大型语言模型破解奖励机制，以及社会

提交意见反馈