llm-red-teaming

#llm-red-teaming

@HuggingPapers: Stable-GFlowNet：通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 消除了不稳定的…

X AI KOLs Following ↗ · 2026-05-09 缓存

Naver AI 推出了 Stable-GFlowNet，这是一种通过对比轨迹平衡来消除生成流网络中不稳定的配分函数估计，从而改善 LLM 红队测试的方法。

0 人收藏 0 人点赞

#llm-red-teaming

arXiv cs.CL ↗ · 2026-04-22 缓存

STAR-Teaming提出一种基于多重网络的多智能体框架，实现LLM自动化红队测试，通过将攻击策略组织成可解释的语义社区，在降低算力消耗的同时显著提升攻击成功率。

0 人收藏 0 人点赞