标签
讨论关于 ML 团队是否真的在生产中测试模型安全风险(如提取和投毒),并指出模型的安全审查落后于常规软件。
POISE是一种隐形技能中毒攻击,它将恶意触发器嵌入看似良性的指令中,在逃避LLM扫描器检测的同时实现高攻击成功率。