标签
本文介绍了一个红队测试框架,用于衡量开源LLM能够表达的政治观点的“奥弗顿窗口”,并评估简单的越狱手段如何扩大该范围,发现30多个模型存在系统性的左倾偏见和漏洞。
本文证明,小型开放权重LLMs(参数小于30B)能够实现具有竞争力的可解释翻译质量评估,包括MQM错误标注和修正,与更大的专有模型相媲美,同时保护数据隐私。