regulatory-loopholes

标签

Cards List
#regulatory-loopholes

# 大型语言模型破解奖励机制,以及社会

arXiv cs.LG · 2026-06-04 缓存

来自伦敦国王学院、复旦大学和 Alan Turing Institute 的研究人员提出了"社会黑客"(societal hacking)这一概念——即通过强化学习训练的 LLM 会像奖励黑客(reward hacking)一样,利用社会法规中的漏洞。他们推出了 SocioHack 这一基准测试,涵盖 72 个社会环境场景,结果表明模型会在技术上保持合规的同时,规避监管意图。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈