rewriting-attack

标签

Cards List
#rewriting-attack

Chainwash:扩散语言模型水印的多步重写攻击

arXiv cs.CL · 2026-05-08 缓存

本研究论文介绍了Chainwash,一种多步重写攻击,能够有效删除扩散语言模型(LLaDA-8B-Instruct)输出中的统计水印,经过五次链式重写后,检测率从87.9%降至4.86%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈