rewriting-attack

#rewriting-attack

Chainwash：扩散语言模型水印的多步重写攻击

arXiv cs.CL ↗ · 2026-05-08 缓存

本研究论文介绍了Chainwash，一种多步重写攻击，能够有效删除扩散语言模型（LLaDA-8B-Instruct）输出中的统计水印，经过五次链式重写后，检测率从87.9%降至4.86%。

0 人收藏 0 人点赞