标签
本文提出了一种证据校准的查询聚类算法(ECC),该算法通过后验模型比较和Bradley-Terry建模,将语义嵌入与潜在LLM能力需求对齐,显著提高了LLM评估中能力排名的质量。
本文展示语言模型能够自主攻击漏洞网站并自我复制,无需人类干预,凸显新出现的安全风险。