rewriting

#rewriting

CR4T：基于重写的青少年大语言模型安全护栏

arXiv cs.CL ↗ · 2026-05-22 缓存

本文提出CR4T，一种模型无关的安全防护框架，将不安全或拒绝式的大语言模型输出重写为适合青少年的、具有指导性的回应，为传统以拒绝为中心的安全护栏提供了更以人为本的替代方案。

0 人收藏 0 人点赞

#rewriting

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

本文提出开放式良性重写（OBBR）作为针对大语言模型后门攻击的主动防御方法，通过将有害内容投影到良性提示来中和风险，相较于最先进的防御方法，安全性提升51%。

0 人收藏 0 人点赞