标签
Naver AI 推出了 Stable-GFlowNet,这是一种通过对比轨迹平衡来消除生成流网络中不稳定的配分函数估计,从而改善 LLM 红队测试的方法。
STAR-Teaming提出一种基于多重网络的多智能体框架,实现LLM自动化红队测试,通过将攻击策略组织成可解释的语义社区,在降低算力消耗的同时显著提升攻击成功率。