overton-window

标签

Cards List
#overton-window

它们能走多远?利用大型语言模型对在线影响力进行红队测试

arXiv cs.CL · 2026-05-25 缓存

本文介绍了一个红队测试框架,用于衡量开源LLM能够表达的政治观点的“奥弗顿窗口”,并评估简单的越狱手段如何扩大该范围,发现30多个模型存在系统性的左倾偏见和漏洞。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈