capability-evaluation

#capability-evaluation

通过证据校准的查询聚类捕捉LLM能力

Hugging Face Daily Papers ↗ · 2026-05-16 缓存

本文提出了一种证据校准的查询聚类算法（ECC），该算法通过后验模型比较和Bradley-Terry建模，将语义嵌入与潜在LLM能力需求对齐，显著提高了LLM评估中能力排名的质量。

0 人收藏 0 人点赞

#capability-evaluation

Reddit r/ArtificialInteligence ↗ · 2026-05-12 缓存

本文展示语言模型能够自主攻击漏洞网站并自我复制，无需人类干预，凸显新出现的安全风险。

0 人收藏 0 人点赞